ВУЗ:
Составители:
Рубрика:
вантного. Наименьший вес будут, очевидно, иметь общеупотребительные слова
(термины из стоп-словаря), вероятности появления которых в релевантных и нере-
левантных документах одинаковы и равны 50%.
Значение константы
C
одинаково для всех документов, поэтому обычно при
вычислении релевантности ее игнорируют.
Для расчета вероятностей
i
p
и
i
q
часто используются упрощенные формулы
.
)()(
,
)(
RN
DFDF
q
R
DF
p
iRi
i
iR
i
−
−
=
=
В этих формулах используются следующие обозначения:
i
DF
)(
– число документов информационного массива, в которых встречается
термин
i
t
;
iR
DF
)(
– число релевантных документов, в которых встречается этот термин;
R
– общее число релевантных документов;
N
– общее число документов в информационном массиве.
Таким образом, формула для определения веса термина
i
t
примет вид
−−
+−−
=
iRiRi
iRiiR
i
DFRDFDF
DFDFRNDF
W
)()()(
)()()(
log
.
На практике в основном используется несколько измененное выражение [, ]:
+−+−
++−−+
=
5.0)(5.0)()(
5.0)()(5.0)(
log
iRiRi
iRiiR
i
DFRDFDF
DFDFRNDF
W
. (2.10)
Во время индексации величины
iR
DF
)(
и
R
обычно неизвестны. Для их
определения используется динамический итерационный процесс обратной связи с
пользователем, который заключается в следующем.
При индексации величины
iR
DF
)(
и
R
полагаются равными нулю, и вес тер-
мина
i
t
рассчитывается как
5.0)(
5.0)(
log
+
+−
=
i
i
i
DF
DFN
W
.
27
Страницы
- « первая
- ‹ предыдущая
- …
- 25
- 26
- 27
- 28
- 29
- …
- следующая ›
- последняя »