ВУЗ:
Составители:
Рубрика:
93
Необходимость разработки справочно-поисковых систем в Сети вызвана
следующими причинами
• Огромным объемом информации в Сети (еще на начало 2000 года - около
2
× 10
9
уникальных страниц с удвоением ежегодно, причем ежедневно
число страниц увеличивается на 7
×
10
6
).
• Недостаточной (а в некоторых случаях, наоборот, чересчур подробной)
структуризацией этой информации.
• Широким тематическим профилем информационных массивов.
Существует две разновидности ресурсов для поиска. Это так называемые
каталоги (directories) и поисковые машины (search engines).
Сетевые каталоги организованы примерно так же, как и библиотечные.
Они содержат различные разделы, подразделы и т.д., то есть
имеют иерархи-
ческую структуру. Работают с этими каталогами так же, как и с библиотеч-
ными - ‘спускаясь’ вниз по иерархической лестнице.
Каталоги создаются вручную, т.е. информация в них заносится людьми. Бла-
годаря ‘человеческому фактору’ информация в каталогах организована дос-
таточно четко, что позволяет в определенных случаях достичь требуемого
результата быстрее,
чем при помощи поисковых машин. С другой стороны, в
каталоги попадают далеко не все существующие страницы, а лишь ‘лучшие’
(с субъективной точки зрения создающего каталог). По этой причине найти
какую-то достаточно специфическую информацию в каталоге зачастую не-
возможно.
Наряду с каталогами используются поисковые машины. Суть этих меха-
низмов
заключается в том, что доступные в Сети страницы автоматически
индексируются, т.е. создаются специальные базы данных, содержащие клю-
чевые слова и связанные с ними адреса страниц, а уже в этих базах данных
проводится поиск. Таким образом, поисковые машины состоят из программ,
собирающих информацию для базы данных, собственно базы, и программ
для поиска в этой базе данных.
Индексируют информацию так называемые роботы (сrawlers, spiders и пр.)
- специальные программы, которые ‘ползают’ по сети, просматривают файлы
и создают индексы, причем весь процесс происходит автоматически (разра-
ботчик WEB-сайта может ограничивать деятельность роботов с помощью
файла
ROBOTS.TXT
). Полнотекстовые поисковые машины индексируют ка-
ждое слово на WEB-странице (исключая лишь некоторые зарезервированные
слова), абстрактные поисковые машины создают некий экстракт каждой
страницы.
Кроме этого, существуют и так называемые мета-системы, представляю-
щие собой интерфейсы для одновременного поиска с помощью нескольких
Необходимость разработки справочно-поисковых систем в Сети вызвана следующими причинами • Огромным объемом информации в Сети (еще на начало 2000 года - около 9 2 × 10 уникальных страниц с удвоением ежегодно, причем ежедневно 6 число страниц увеличивается на 7 × 10 ). • Недостаточной (а в некоторых случаях, наоборот, чересчур подробной) структуризацией этой информации. • Широким тематическим профилем информационных массивов. Существует две разновидности ресурсов для поиска. Это так называемые каталоги (directories) и поисковые машины (search engines). Сетевые каталоги организованы примерно так же, как и библиотечные. Они содержат различные разделы, подразделы и т.д., то есть имеют иерархи- ческую структуру. Работают с этими каталогами так же, как и с библиотеч- ными - ‘спускаясь’ вниз по иерархической лестнице. Каталоги создаются вручную, т.е. информация в них заносится людьми. Бла- годаря ‘человеческому фактору’ информация в каталогах организована дос- таточно четко, что позволяет в определенных случаях достичь требуемого результата быстрее, чем при помощи поисковых машин. С другой стороны, в каталоги попадают далеко не все существующие страницы, а лишь ‘лучшие’ (с субъективной точки зрения создающего каталог). По этой причине найти какую-то достаточно специфическую информацию в каталоге зачастую не- возможно. Наряду с каталогами используются поисковые машины. Суть этих меха- низмов заключается в том, что доступные в Сети страницы автоматически индексируются, т.е. создаются специальные базы данных, содержащие клю- чевые слова и связанные с ними адреса страниц, а уже в этих базах данных проводится поиск. Таким образом, поисковые машины состоят из программ, собирающих информацию для базы данных, собственно базы, и программ для поиска в этой базе данных. Индексируют информацию так называемые роботы (сrawlers, spiders и пр.) - специальные программы, которые ‘ползают’ по сети, просматривают файлы и создают индексы, причем весь процесс происходит автоматически (разра- ботчик WEB-сайта может ограничивать деятельность роботов с помощью файла ROBOTS.TXT). Полнотекстовые поисковые машины индексируют ка- ждое слово на WEB-странице (исключая лишь некоторые зарезервированные слова), абстрактные поисковые машины создают некий экстракт каждой страницы. Кроме этого, существуют и так называемые мета-системы, представляю- щие собой интерфейсы для одновременного поиска с помощью нескольких 93
Страницы
- « первая
- ‹ предыдущая
- …
- 91
- 92
- 93
- 94
- 95
- …
- следующая ›
- последняя »