Введение в информационно-поисковые системы - 28 стр.

UptoLike

ВУЗ:

ТвГТУ | Тверь

Составители:

Рубрика:

Компьютерные сети и телекоммуникации

зуется в среде веб-браузера. Для работы со звуковой и видео информацией приме-

няется соответствующее программное обеспечение.

Главная функция поисковой машины – реализация принятой модели поиска.

Сначала запрос пользователя, подготовленный на ИПЯ, транслируется согласно

установленным правилам в формальный запрос. Затем в ходе выполнения поиско-

вого алгоритма запрос сравнивается с поисковыми образами документов из базы

данных. По результатам сравнения формируется итоговый список найденных доку-

ментов. Обычно он содержит название, размер, дату создания и краткую аннотацию

документа, ссылку на него, а также значение меры подобия документа и запроса.

Список подвергается ранжированию (упорядочению по какому-либо критерию, обыч-

но по значению формальной релевантности).

База данных поисковых образов документов предназначена для хранения опи-

саний индексированных документов. Структура типичной базы данных словарной

ИПС подробно описана в части 1 методических указаний.

Индексирующий агент выполняет индексацию доступных документов с целью

составления их поисковых образов. В локальных системах эта операция обычно осу-

ществляется один раз: после окончания формирования массива документов вся ин-

формация индексируется и поисковые образы вносятся в базу данных. В динамиче-

ском децентрализованном информационном массиве сети Интернет применяется

другой подход. Специальная программа-робот, которую называют паук (spider) или

ползун (crawler), непрерывно обходит сеть. Переходы между различными документа-

ми осуществляются с помощью содержащихся в них гиперссылок. Скорость обнов-

ления сведений в базе данных поисковой системы напрямую связана со скоростью

сканирования сети [, , , ]. Например, мощный индексирующий робот может обойти

всю сеть Интернет за несколько недель. При каждом новом цикле обхода база дан-

ных обновляется и старые недействительные адреса удаляются.

Часть документов для поисковых машин закрыта. Это информация, доступ к ко-

торой авторизован или осуществляется не по ссылке, а по запросу из формы []. В на-

стоящее время разрабатываются интеллектуальные методы сканирования скрытой

части Интернет, но широкого распространения они пока не получили [].

Для индексирования гипертекстовых документов программы-агенты используют

источники: гипертекстовые ссылки (href), заголовки (title), заглавия (H1, H2 и т. д.),

аннотации, списки ключевых слов (keywords), подписи к изображениям. Для индекси-

рования нетекстовой информации (например, файлов, передаваемых по протоколу

ftp) используются URL [].

Заказать работу

Введение в информационно-поисковые системы - 28 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Вы здесь

Введение в информационно-поисковые системы - 28 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Страницы