Введение в информационно-поисковые системы. Иванов В.К - 14 стр.

UptoLike

ВУЗ:

ТвГТУ | Тверь

Составители:

Рубрика:

Компьютерные сети и телекоммуникации

Некоторые современные поисковые системы выполняют полнотекстовое индек-

сирование, при котором в описание включается большой объем информации о доку-

менте: позиция каждого слова, раздел текста, в который входит данное слово,

шрифт и т. д. В результате размер такого описания может превышать размер исход-

ного документа [].

2.2. Векторная модель текста

Большинство современных алгоритмов индексации и поиска в той или иной сте-

пени основано на векторной модели текста, предложенной Дж. Солтоном в 1973

году. В векторной модели каждому документу приписывается список терминов, наи-

более адекватно отражающих его смысл. Иными словами, каждому документу соот-

ветствует вектор, размерность которого равна числу терминов, которыми можно

воспользоваться при поиске [].

Для дальнейшего изложения введем несколько важных понятий: словарь, поис-

ковый образ документа, информационный массив [].

Словарь – это упорядоченное множество терминов. Мощность словаря обозна-

чается как

Поисковый образ документа – это вектор размерности

. Самый простой поис-

ковый образ документа – двоичный вектор. Если термин входит в документ, то в со-

ответствующем разряде этого двоичного вектора проставляется 1, в противном же

случае – 0. Более сложные поисковые образы документов связаны с понятием отно-

сительного веса терминов или частоты встречаемости терминов [].

Любой запрос также является текстом, а значит, его тоже можно представить в

виде вектора

. В процессе работы поискового алгоритма происходит сравнение

векторов поискового образа документа и поискового образа запроса. Чем ближе век-

тор документа находится к вектору запроса, тем более релевантным он является

Обычно все операции информационного поиска выполняются над поисковыми

образами, но при этом их, как правило, называют просто документами и запросами.

Информационный массив

представляют в виде матрицы размерности

, где в качестве строк выступают поисковые образы

документов:

{

}











∈

∉

===∀=

bDjNiL

:,1;,1

, (2.1)

где

– термин,

– документ. Информационный массив называют также ин-

формационным потоком, набором документов или коллекцией документов.

Подробнее о мерах близости документов и запросов см. Часть 2 методических указаний.

Заказать работу

Введение в информационно-поисковые системы. Иванов В.К - 14 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Вы здесь

Введение в информационно-поисковые системы. Иванов В.К - 14 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Страницы