ВУЗ:
Составители:
39
поиск WWW-адреса сервера организации по определенным условиям;
поиск новых WWW-адресов серверов;
поиск новых WWW-адресов документов.
Одним из основных способов найти информацию в Internet являются поисковые
машины. Поисковые машины посещают веб-страницы и заносят их в базы данных.
Поисковые системы обычно состоят из трех компонент:
агент ( паук, кроулер, робот), который сканирует Сеть и собирает информацию;
Программы сканирования сети также предназначены для:
ведения баз данных World Wide Web,
создания "зеркал",
поиска информационных ресурсов,
комбинированного использования.
база данных, которая содержит всю информацию, собираемую пауками;
поисковый механизм, который используют как интерфейс взаимодействия с БД.
Средства поиска и индексирования
Индексирование – это оптимизация поиска данных в информационном
пространстве по различным критериям путем введения индексов. Технологии
индексирования: кэширование и b-деревья. Различные алгоритмы индексирования
приводят к различным характеристикам конечной системы: время и степень
релевантности поиска, объем индексной информации, увеличение времени добавления,
удаления, модифицирования объектов и восстановления информационной среды после
сбоев, связанное с вычислительной сложностью этих алгоритмов. Сквозное
индексирование БД увеличивает полноту поиска, однако, увеличивает время поиска и
часто приводит к большой избыточности списков найденных объектов и требует
использования дополнительных алгоритмов фильтрации этих списков.
Средства поиска типа агентов, пауков, кроулеров и роботов используются для
сбора информации о документах, находящихся в Интернет. Это специальные программы,
которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих
страницах и автоматически индексируют информацию, которую они находят для
построения базы данных. Каждый поисковый механизм имеет набор правил,
определяющих, как собирать документы. Некоторые следуют за ссылкой на каждой
найденной странице и затем исследуют каждую ссылку на каждой из новых страниц, и так
далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам,
файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS;
другие проинструктированы, что нужно просматривать только наиболее популярные
страницы.
Агенты - самые "интеллектуальные" из поисковых средств. Они могут искать
сайты специфической тематики и возвращать списки сайтов, отсортированные по
посещаемости. Агенты могут обрабатывать содержание документов, находить и
индексировать другие виды ресурсов, не только страницы. Они могут также быть
запрограммированы для извлечения информации из существующих баз данных.
Некоторые индексируют каждое слово во встречающемся документе, другие индексируют
только наиболее важных 100 слов в документе, индексируют размер документа и число
слов в нем, название, заголовки и подзаголовки и так далее. Агенты могут перемещаться
по Интернет и находить информацию, после чего помещать ее в базу данных поискового
механизма. Администраторы поисковых систем могут определить, какие сайты агенты
должны посетить и проиндексировать.
Пауки. Общий поиск информации осуществляют пауки. Пауки сообщают о
содержании найденного документа, индексируют его и извлекают итоговую информацию.
Также они просматривают заголовки, ссылки и посылают проиндексированную
информацию базе данных поискового механизма.
Кроулеры просматривают заголовки и возвращают только первую ссылку.
поиск WWW-адреса сервера организации по определенным условиям; поиск новых WWW-адресов серверов; поиск новых WWW-адресов документов. Одним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины посещают веб-страницы и заносят их в базы данных. Поисковые системы обычно состоят из трех компонент: агент ( паук, кроулер, робот), который сканирует Сеть и собирает информацию; Программы сканирования сети также предназначены для: ведения баз данных World Wide Web, создания "зеркал", поиска информационных ресурсов, комбинированного использования. база данных, которая содержит всю информацию, собираемую пауками; поисковый механизм, который используют как интерфейс взаимодействия с БД. Средства поиска и индексирования Индексирование – это оптимизация поиска данных в информационном пространстве по различным критериям путем введения индексов. Технологии индексирования: кэширование и b-деревья. Различные алгоритмы индексирования приводят к различным характеристикам конечной системы: время и степень релевантности поиска, объем индексной информации, увеличение времени добавления, удаления, модифицирования объектов и восстановления информационной среды после сбоев, связанное с вычислительной сложностью этих алгоритмов. Сквозное индексирование БД увеличивает полноту поиска, однако, увеличивает время поиска и часто приводит к большой избыточности списков найденных объектов и требует использования дополнительных алгоритмов фильтрации этих списков. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет набор правил, определяющих, как собирать документы. Некоторые следуют за ссылкой на каждой найденной странице и затем исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать только наиболее популярные страницы. Агенты - самые "интеллектуальные" из поисковых средств. Они могут искать сайты специфической тематики и возвращать списки сайтов, отсортированные по посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из существующих баз данных. Некоторые индексируют каждое слово во встречающемся документе, другие индексируют только наиболее важных 100 слов в документе, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Агенты могут перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты агенты должны посетить и проиндексировать. Пауки. Общий поиск информации осуществляют пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, ссылки и посылают проиндексированную информацию базе данных поискового механизма. Кроулеры просматривают заголовки и возвращают только первую ссылку. 39
Страницы
- « первая
- ‹ предыдущая
- …
- 37
- 38
- 39
- 40
- 41
- …
- следующая ›
- последняя »