ВУЗ:
Составители:
Рубрика:
Некоторые современные поисковые системы выполняют полнотекстовое индек-
сирование, при котором в описание включается большой объем информации о доку-
менте: позиция каждого слова, раздел текста, в который входит данное слово,
шрифт и т. д. В результате размер такого описания может превышать размер исход-
ного документа [].
2.2. Векторная модель текста
Большинство современных алгоритмов индексации и поиска в той или иной сте-
пени основано на векторной модели текста, предложенной Дж. Солтоном в 1973
году. В векторной модели каждому документу приписывается список терминов, наи-
более адекватно отражающих его смысл. Иными словами, каждому документу соот-
ветствует вектор, размерность которого равна числу терминов, которыми можно
воспользоваться при поиске [].
Для дальнейшего изложения введем несколько важных понятий: словарь, поис-
ковый образ документа, информационный массив [].
Словарь – это упорядоченное множество терминов. Мощность словаря обозна-
чается как
D
.
Поисковый образ документа – это вектор размерности
D
. Самый простой поис-
ковый образ документа – двоичный вектор. Если термин входит в документ, то в со-
ответствующем разряде этого двоичного вектора проставляется 1, в противном же
случае – 0. Более сложные поисковые образы документов связаны с понятием отно-
сительного веса терминов или частоты встречаемости терминов [].
Любой запрос также является текстом, а значит, его тоже можно представить в
виде вектора
q
. В процессе работы поискового алгоритма происходит сравнение
векторов поискового образа документа и поискового образа запроса. Чем ближе век-
тор документа находится к вектору запроса, тем более релевантным он является
1
.
Обычно все операции информационного поиска выполняются над поисковыми
образами, но при этом их, как правило, называют просто документами и запросами.
Информационный массив
L
представляют в виде матрицы размерности
DN
×
, где в качестве строк выступают поисковые образы
N
документов:
{
}
∈
∉
===∀=
ij
ij
ij
dt
dt
bDjNiL
,1
,0
:,1;,1
, (2.1)
где
j
t
– термин,
i
d
– документ. Информационный массив называют также ин-
формационным потоком, набором документов или коллекцией документов.
1
Подробнее о мерах близости документов и запросов см. Часть 2 методических указаний.
14
Страницы
- « первая
- ‹ предыдущая
- …
- 12
- 13
- 14
- 15
- 16
- …
- следующая ›
- последняя »