ВУЗ:
Составители:
Рубрика:
Индексирование документов является разовым процессом в локальных систе-
мах или постоянным в глобальных, но в любом случае оно не производится од-
новременно с поиском (для поиска и индексирования не используются одновремен-
но одни и те же аппаратные ресурсы). Вследствие этого скорость поиска информа-
ции в ИПС определяется скоростью доступа к хранилищу поисковых образов (второй
влияющий фактор – поисковый алгоритм), которая зависит от структуры и объема
базы данных документов [, , ].
Прямой просмотр файлов поисковых образов документов занимает много вре-
мени, что является неприемлемым для пользователя, особенно в сети Интернет.
Поэтому база данных документов организуется в виде ряда связанных таблиц.
Помимо информации о соответствии терминов и документов (идентификаторы
терминов и документов, веса терминов и т. д.), в базах данных ИПС хранятся также
различные дополнительные сведения. Некоторые из них непосредственно использу-
ются при поиске, например, даты последних изменений документов или информация
о содержащихся в документах ссылках на другие документы (это особенно актуаль-
но для ИПС сети Интернет). Часть данных необходима для облегчения работы поль-
зователя с результатами поиска (заголовки и аннотации документов и др.). Обычно
информация о терминах и документах, которая находится в базах данных ИПС, мо-
жет быть использована одновременно для нескольких алгоритмов поиска.
Рассмотрим общую структуру базы данных поисковых образов интернет-доку-
ментов (гипертекстовых страниц) [, , , ].
База данных (рис. Рис. 10) состоит из таблицы адресов страниц, таблицы клю-
чевых слов, таблицы заголовков страниц, таблицы с датами изменения страниц, та-
блицы гиперссылок, а также двух таблиц-списков – прямого и инвертированного.
31
Страницы
- « первая
- ‹ предыдущая
- …
- 29
- 30
- 31
- 32
- 33
- …
- следующая ›
- последняя »