ВУЗ:
Составители:
Рубрика:
ниц. Эта информация используется при ранжировании результатов поиска не по ре-
левантности, а по дате.
Таблица гиперссылок определяет для каждой страницы список входящих и ис-
ходящих гиперссылок. Входящими называются такие ссылки, которые находятся на
других страницах, а ссылаются на данную, а исходящими – ссылки, которые нахо-
дятся на данной странице, а ссылаются на другие.
Таблицы, содержащие информацию о ссылках, необходимы по двум причинам.
Во-первых, они используются индексационными роботами при сканировании сети
Интернет. Во-вторых, было установлено, что документы, объединенные гиперссыл-
ками, содержат также и много одинаковых индексационных терминов. Результаты
поиска можно улучшить, добавляя к документам, описываемым идентификаторами
терминов, информацию об их гиперссылках [].
Таблица, называемая прямым списком, содержит список ключевых слов (kwdID)
для каждой страницы (pageID). Эта таблица используется для вычисления частоты
встречаемости термина в документе
i
TF
)(
и определения весов терминов, а также
в алгоритмах обратной связи по релевантности и в функциях поддержки и актуали-
зации массива индексированных документов.
Таблица – инвертированный список содержит для каждого ключевого слова
(kwdID) список страниц (pageID), в которых это слово встречается. Кроме того, здесь
указывается позиция (порядковый номер) данного термина в странице. Эта инфор-
мация используется в тех запросах, где важным является взаимное расположение
слов (контекстный поиск). Например, когда идет поиск по запросу «операционная си-
стема», важно получить не просто все документы, в тексте которых присутствуют
термины «операционная» и «система», а только те, в которых эти два слова распо-
ложены друг за другом, т. е. объединены во фразу.
Отметим, что схема, приведенная на рис. Рис. 10, не является наиболее эф-
фективной с точки зрения производительности ИПС. Она описывает лишь общий
принцип хранения информации, который призван обеспечить максимальную полноту
и точность поиска [, 36, ].
В ходе выполнения поискового алгоритма термины из запроса тем или иным
способом сравниваются с терминами из инвертированного списка. Далее формиру-
ется результирующий список страниц (заголовок, адрес, краткая аннотация, дата ин-
дексации и т. д.), который поисковая система возвращает пользователю.
33