ВУЗ:
Составители:
Рубрика:
тальную частоту D
k
термина k как число документов
фонда, в которых этот термин встречается, то можно
определить взвешивающую функцию, обратную доку-
ментальной частоте, в виде F(k) = +1, где
n
0
— число документов в фонде. Эта функция припи-
сывает большие веса терминам, появляющимся лишь
в нескольких документах.
Следующая модель базируется на вычислениях
соотношения „сигнал — шум" по аналогии с теорией
передачи информации Шеннона. Точнее, для набора
из n
0
документов шум N
k
термина k опрэделяется
формулой
а сигнал S
k
— фэрмулой S
k
= logF
k
— N
k
. Шум нахо-
дится в обратной зависимости от „концентрации"
термина в наборе документов. Для равномерных рас-
пределений, когда термин встречается одинаковое
число раз в каждом документе набора, шум принимает
максимальное значение. Если термин k встречается
точно один раз в каждом документе (все f
i
k
= 1), то
N
k
= log n
0
. В этом случае F
k
= n
0
и S
k
= 0. С другой
стороны, для распределений, сосредоточенных в одной
точке (термин появляется только в одном документе
с частотой F
k
), шум равзн нулю, а сигнал имеет мак-
симальное значение S
k
= log F
k
. Замечено, что широкие
(неспецифичныe) термины распределяются почти
равномерно и, следовательно, порождают высокий
шум.
Близка к модели „сигнал — шум" следующая мо-
дель: если — средняя частота термина k в n
0
доку-
ментах, то несмещенная выборочная оценка дисперсии
_
есть (см. § 12) σ
2
k
= (f
i
k
— f
k
)
2
. Подходящим па-
раметром для оценки пригодности термина в данной
модели служит отношение F
k
Σ
2
k
/( )
2
, поведение кото-
рого подобно поведению „сигнал — шум".
Приведем основные способы вычисления весовых
коэффициентoв.
181
тальную частоту Dk термина k как число документов
фонда, в которых этот термин встречается, то можно
определить взвешивающую функцию, обратную доку-
ментальной частоте, в виде F(k) = +1, где
n0 — число документов в фонде. Эта функция припи-
сывает большие веса терминам, появляющимся лишь
в нескольких документах.
Следующая модель базируется на вычислениях
соотношения „сигнал — шум" по аналогии с теорией
передачи информации Шеннона. Точнее, для набора
из n0 документов шум Nk термина k опрэделяется
формулой
а сигнал Sk — фэрмулой Sk = logFk — Nk. Шум нахо-
дится в обратной зависимости от „концентрации"
термина в наборе документов. Для равномерных рас-
пределений, когда термин встречается одинаковое
число раз в каждом документе набора, шум принимает
максимальное значение. Если термин k встречается
точно
k
один раз в каждом документе
k
(все
k
f i k = 1), то
N = log n0. В этом случае F = n0 и S = 0. С другой
стороны, для распределений, сосредоточенных в одной
точке (термин появляется только в одном документе
с частотой Fk), шум равзн нулю, а сигнал имеет мак-
симальное значение Sk = log Fk. Замечено, что широкие
(неспецифичныe) термины распределяются почти
равномерно и, следовательно, порождают высокий
шум.
Близка к модели „сигнал — шум" следующая мо-
дель: если — средняя частота термина k в n0 доку-
ментах, то несмещенная выборочная оценка дисперсии
_
2
есть (см. § 12) σ k = (fi — fk)2. Подходящим па-
k
раметром для оценки пригодности термина в данной
модели служит отношение FkΣ 2 k/( )2, поведение кото-
рого подобно поведению „сигнал — шум".
Приведем основные способы вычисления весовых
коэффициентoв.
181
Страницы
- « первая
- ‹ предыдущая
- …
- 179
- 180
- 181
- 182
- 183
- …
- следующая ›
- последняя »
