Введение в информационно-поисковые системы. Иванов В.К - 21 стр.

UptoLike

Составители: 

личительная сила становится положительной. В противном случае значение раз-
личительной силы отрицательно.
2.4.2. Распределение частоты встречаемости терминов
Практика показывает, что хорошие, средние и плохие индексационные термины
можно характеризовать по распределению их документной частоты
i
DF
)(
и рас-
пределению частоты встречаемости
i
F
[].
Суммарная частота встречаемости термина
i
t
в массиве документов определя-
ется следующей формулой:
=
=
N
k
k
i
i
fF
1
.
1.Лучшими для индексации терминами с наивысшими значениями различитель-
ной силы являются термины со средними значениями суммарной частоты встречае-
мости
i
F
и документной частотой, составляющей менее половины его частоты как
термина (суммарной частоты в массиве).
2.Следующими по качеству являются термины со значениями различительной
силы, близкими к нулю, и очень низкой документной и суммарной частотой.
3.Худшими терминами, имеющими отрицательные значения различительной
силы, являются те термины, которые имеют высокую документную частоту (порядка
объема всего массива документов) и суммарную частоту термина большую, чем чис-
ло документов в массиве.
Рис. Рис. 8 иллюстрирует вышеописанное разделение терминов. Если располо-
жить термины в порядке увеличения документной частоты
i
DF
)(
, то индексацион-
ные термины должны, насколько это возможно, попадать в средний интервал значе-
ний.
Внутри каждой из этих категорий, и вообще в массиве документов, термины с
относительно плоскими распределениями, для которых частота термина при перехо-
де от документа к документу меняется незначительно, имеют более низкие значения
различительной силы. Наоборот, термины с более острыми распределениями, кото-
рые часто встречаются в некоторых документах и редко – в остальных, имеют более
высокие значения различительной силы. Индексационные термины должны обла-
дать средними по величине значениями документной частоты, и иметь распределе-
ния частот, сосредоточенные в одной точке.
21