Сетевые технологии. Учебное пособие. Баканов В.М. - 93 стр.

UptoLike

Составители: 

93
Необходимость разработки справочно-поисковых систем в Сети вызвана
следующими причинами
Огромным объемом информации в Сети (еще на начало 2000 года - около
2
× 10
9
уникальных страниц с удвоением ежегодно, причем ежедневно
число страниц увеличивается на 7
×
10
6
).
Недостаточной (а в некоторых случаях, наоборот, чересчур подробной)
структуризацией этой информации.
Широким тематическим профилем информационных массивов.
Существует две разновидности ресурсов для поиска. Это так называемые
каталоги (directories) и поисковые машины (search engines).
Сетевые каталоги организованы примерно так же, как и библиотечные.
Они содержат различные разделы, подразделы и т.д., то есть
имеют иерархи-
ческую структуру. Работают с этими каталогами так же, как и с библиотеч-
ными - ‘спускаясьвниз по иерархической лестнице.
Каталоги создаются вручную, т.е. информация в них заносится людьми. Бла-
годарячеловеческому фактору информация в каталогах организована дос-
таточно четко, что позволяет в определенных случаях достичь требуемого
результата быстрее,
чем при помощи поисковых машин. С другой стороны, в
каталоги попадают далеко не все существующие страницы, а лишьлучшие
(с субъективной точки зрения создающего каталог). По этой причине найти
какую-то достаточно специфическую информацию в каталоге зачастую не-
возможно.
Наряду с каталогами используются поисковые машины. Суть этих меха-
низмов
заключается в том, что доступные в Сети страницы автоматически
индексируются, т.е. создаются специальные базы данных, содержащие клю-
чевые слова и связанные с ними адреса страниц, а уже в этих базах данных
проводится поиск. Таким образом, поисковые машины состоят из программ,
собирающих информацию для базы данных, собственно базы, и программ
для поиска в этой базе данных.
Индексируют информацию так называемые роботы (сrawlers, spiders и пр.)
- специальные программы, которыеползаютпо сети, просматривают файлы
и создают индексы, причем весь процесс происходит автоматически (разра-
ботчик WEB-сайта может ограничивать деятельность роботов с помощью
файла
ROBOTS.TXT
). Полнотекстовые поисковые машины индексируют ка-
ждое слово на WEB-странице (исключая лишь некоторые зарезервированные
слова), абстрактные поисковые машины создают некий экстракт каждой
страницы.
Кроме этого, существуют и так называемые мета-системы, представляю-
щие собой интерфейсы для одновременного поиска с помощью нескольких
  Необходимость разработки справочно-поисковых систем в Сети вызвана
следующими причинами

• Огромным объемом информации в Сети (еще на начало 2000 года - около
        9
  2 × 10 уникальных страниц с удвоением ежегодно, причем ежедневно
                                       6
  число страниц увеличивается на 7 × 10 ).
• Недостаточной (а в некоторых случаях, наоборот, чересчур подробной)
  структуризацией этой информации.
• Широким тематическим профилем информационных массивов.

   Существует две разновидности ресурсов для поиска. Это так называемые
каталоги (directories) и поисковые машины (search engines).
   Сетевые каталоги организованы примерно так же, как и библиотечные.
Они содержат различные разделы, подразделы и т.д., то есть имеют иерархи-
ческую структуру. Работают с этими каталогами так же, как и с библиотеч-
ными - ‘спускаясь’ вниз по иерархической лестнице.
Каталоги создаются вручную, т.е. информация в них заносится людьми. Бла-
годаря ‘человеческому фактору’ информация в каталогах организована дос-
таточно четко, что позволяет в определенных случаях достичь требуемого
результата быстрее, чем при помощи поисковых машин. С другой стороны, в
каталоги попадают далеко не все существующие страницы, а лишь ‘лучшие’
(с субъективной точки зрения создающего каталог). По этой причине найти
какую-то достаточно специфическую информацию в каталоге зачастую не-
возможно.
   Наряду с каталогами используются поисковые машины. Суть этих меха-
низмов заключается в том, что доступные в Сети страницы автоматически
индексируются, т.е. создаются специальные базы данных, содержащие клю-
чевые слова и связанные с ними адреса страниц, а уже в этих базах данных
проводится поиск. Таким образом, поисковые машины состоят из программ,
собирающих информацию для базы данных, собственно базы, и программ
для поиска в этой базе данных.
   Индексируют информацию так называемые роботы (сrawlers, spiders и пр.)
- специальные программы, которые ‘ползают’ по сети, просматривают файлы
и создают индексы, причем весь процесс происходит автоматически (разра-
ботчик WEB-сайта может ограничивать деятельность роботов с помощью
файла ROBOTS.TXT). Полнотекстовые поисковые машины индексируют ка-
ждое слово на WEB-странице (исключая лишь некоторые зарезервированные
слова), абстрактные поисковые машины создают некий экстракт каждой
страницы.
   Кроме этого, существуют и так называемые мета-системы, представляю-
щие собой интерфейсы для одновременного поиска с помощью нескольких


                                  93