ВУЗ:
Составители:
Рубрика:
зуется в среде веб-браузера. Для работы со звуковой и видео информацией приме-
няется соответствующее программное обеспечение.
Главная функция поисковой машины – реализация принятой модели поиска.
Сначала запрос пользователя, подготовленный на ИПЯ, транслируется согласно
установленным правилам в формальный запрос. Затем в ходе выполнения поиско-
вого алгоритма запрос сравнивается с поисковыми образами документов из базы
данных. По результатам сравнения формируется итоговый список найденных доку-
ментов. Обычно он содержит название, размер, дату создания и краткую аннотацию
документа, ссылку на него, а также значение меры подобия документа и запроса.
Список подвергается ранжированию (упорядочению по какому-либо критерию, обыч-
но по значению формальной релевантности).
База данных поисковых образов документов предназначена для хранения опи-
саний индексированных документов. Структура типичной базы данных словарной
ИПС подробно описана в части 1 методических указаний.
Индексирующий агент выполняет индексацию доступных документов с целью
составления их поисковых образов. В локальных системах эта операция обычно осу-
ществляется один раз: после окончания формирования массива документов вся ин-
формация индексируется и поисковые образы вносятся в базу данных. В динамиче-
ском децентрализованном информационном массиве сети Интернет применяется
другой подход. Специальная программа-робот, которую называют паук (spider) или
ползун (crawler), непрерывно обходит сеть. Переходы между различными документа-
ми осуществляются с помощью содержащихся в них гиперссылок. Скорость обнов-
ления сведений в базе данных поисковой системы напрямую связана со скоростью
сканирования сети [, , , ]. Например, мощный индексирующий робот может обойти
всю сеть Интернет за несколько недель. При каждом новом цикле обхода база дан-
ных обновляется и старые недействительные адреса удаляются.
Часть документов для поисковых машин закрыта. Это информация, доступ к ко-
торой авторизован или осуществляется не по ссылке, а по запросу из формы []. В на-
стоящее время разрабатываются интеллектуальные методы сканирования скрытой
части Интернет, но широкого распространения они пока не получили [].
Для индексирования гипертекстовых документов программы-агенты используют
источники: гипертекстовые ссылки (href), заголовки (title), заглавия (H1, H2 и т. д.),
аннотации, списки ключевых слов (keywords), подписи к изображениям. Для индекси-
рования нетекстовой информации (например, файлов, передаваемых по протоколу
ftp) используются URL [].
26
Страницы
- « первая
- ‹ предыдущая
- …
- 26
- 27
- 28
- 29
- 30
- …
- следующая ›
- последняя »