Введение в информационно-поисковые системы - 9 стр.

UptoLike

Составители: 

моделях, называются языками типа "найти похожее" (языки типа "Like This"). В этих
языках необязательно формулировать запросы с помощью булевых операторов.
Для вычисления меры подобия документов и запросов существует более трид-
цати различных алгоритмов [, ]. На сегодняшний день используется лишь несколько
из них. Мы рассмотрим четыре алгоритма []:
расширенного булевого поиска,
наибольшего цитирования,
IDFTF
×
алгоритм,
расширенный векторный алгоритм поиска.
Алгоритмы расширенного булевого поиска и наибольшего цитирования основа-
ны на метаинформации гипертекстовых страниц.
IDFTF
×
алгоритм использует
статистические частотные оценки встречаемости терминов. Расширенный вектор-
ный алгоритм работает как с частотными оценками, так и с гипертекстами.
Прежде всего введем некоторые обозначения:
M
– число терминов в запросе.
q
– запрос, состоящий из
M
терминов (вектор запроса).
j
Q
j
-й термин запроса,
Mj
,1
=
.
N
– число документов в информационном массиве.
i
-й документ (поисковый образ
i
-го документа),
Ni
,1
=
.
qi
R
,
– релевантность (мера близости)
по отношению к запросу
q
.
ji
C
,
величина, характеризующая наличие
j
Q
в
, определяемая по фор-
муле
=
ij
ij
ji
PQ
PQ
C
,1
,0
,
. (1.1)
Для повышения качества поиска в выражении (1.1) вместо единицы можно так-
же использовать вес термина в документе
ji
W
,
.
ki
IL
,
величина, характеризующая наличие гиперссылки из
k
P
в
i
P
(входя-
щей гиперссылки
1
).
0
,
=
ki
IL
, если ссылки нет,
1
,
=
ki
IL
, если она есть.
1
IL – англ. Incoming Hyperlink – входящая гиперссылка.
7