Введение в информационно-поисковые системы - 12 стр.

UptoLike

Составители: 

Числитель дроби (1.3) определяет скалярное произведение векторов документа
и запроса, знаменатель произведение их длин, а релевантность
qi
R
,
косинус
угла между этими векторами в Евклидовом пространстве. Весовые коэффициенты
терминов запроса будут постоянными от документа к документу. Поскольку для
оценки релевантности обычно важно знать изменение меры подобия документов, а
не ее абсолютное значение, а также для ускорения процесса вычислений, характе-
ристики запроса в выражении (1.3) можно не учитывать:
=
=
=
M
j
ij
M
j
ij
qi
W
W
R
1
2
,
1
,
,
. (1.4)
Вес терминов
ij
W
,
в выражении (1.4) обычно вычисляется по формулам, при-
веденным в части 1 методических указаний. В частности, окончательное выражение
для релевантности
q
и
i
P
, описывающее
IDFTF
×
-алгоритм, может иметь вид
+
+
=
=
=
M
j
j
i
ji
M
j
j
i
ji
qi
IDF
TF
TF
IDF
TF
TF
R
1
2
2
max,
,
1
max,
,
,
)(
)(
)(
5.05.0
)(
)(
)(
5.05.0
, (1.5)
где
ji
TF
,
)(
– частота термина
в документе
i
P
;
max,
)(
i
TF
– частота максимально часто встречающегося термина в
i
P
;
j
IDF
)(
– обратная документная частота, вычисляемая по формуле
=
=
N
i
ji
j
C
N
IDF
1
,
log)(
.
Вычисление длины вектора документа (знаменатель выражения (1.5)) занимает
очень много времени. Поэтому часто применяют упрощенный
IDFTF
×
-алгоритм:
10