Введение в информационно-поисковые системы. Иванов В.К - 27 стр.

UptoLike

Составители: 

вантного. Наименьший вес будут, очевидно, иметь общеупотребительные слова
(термины из стоп-словаря), вероятности появления которых в релевантных и нере-
левантных документах одинаковы и равны 50%.
Значение константы
C
одинаково для всех документов, поэтому обычно при
вычислении релевантности ее игнорируют.
Для расчета вероятностей
i
p
и
i
q
часто используются упрощенные формулы
.
)()(
,
)(
RN
DFDF
q
R
DF
p
iRi
i
iR
i
=
=
В этих формулах используются следующие обозначения:
i
DF
)(
число документов информационного массива, в которых встречается
термин
i
t
;
iR
DF
)(
– число релевантных документов, в которых встречается этот термин;
R
– общее число релевантных документов;
N
– общее число документов в информационном массиве.
Таким образом, формула для определения веса термина
i
t
примет вид
.
На практике в основном используется несколько измененное выражение [, ]:
++
+++
=
5.0)(5.0)()(
5.0)()(5.0)(
log
iRiRi
iRiiR
i
DFRDFDF
DFDFRNDF
W
. (2.10)
Во время индексации величины
iR
DF
)(
и
R
обычно неизвестны. Для их
определения используется динамический итерационный процесс обратной связи с
пользователем, который заключается в следующем.
При индексации величины
iR
DF
)(
и
R
полагаются равными нулю, и вес тер-
мина
i
t
рассчитывается как
5.0)(
5.0)(
log
+
+
=
i
i
i
DF
DFN
W
.
27