Математические методы в библиотечной работе. Елизаров А.М - 181 стр.

UptoLike

Составители: 

Рубрика: 

тальную частоту D
k
термина k как число документов
фонда, в которых этот термин встречается, то можно
определить взвешивающую функцию, обратную доку-
ментальной частоте, в виде F(k) = +1, где
n
0
число документов в фонде. Эта функция припи-
сывает большие веса терминам, появляющимся лишь
в нескольких документах.
Следующая модель базируется на вычислениях
соотношениясигналшум" по аналогии с теорией
передачи информации Шеннона. Точнее, для набора
из n
0
документов шум N
k
термина k опрэделяется
формулой
а сигнал S
k
фэрмулой S
k
= logF
k
— N
k
. Шум нахо-
дится в обратной зависимости отконцентрации"
термина в наборе документов. Для равномерных рас-
пределений, когда термин встречается одинаковое
число раз в каждом документе набора, шум принимает
максимальное значение. Если термин k встречается
точно один раз в каждом документе (все f
i
k
= 1), то
N
k
= log n
0
. В этом случае F
k
= n
0
и S
k
= 0. С другой
стороны, для распределений, сосредоточенных в одной
точке (термин появляется только в одном документе
с частотой F
k
), шум равзн нулю, а сигнал имеет мак-
симальное значение S
k
= log F
k
. Замечено, что широкие
(неспецифичныe) термины распределяются почти
равномерно и, следовательно, порождают высокий
шум.
Близка к моделисигналшум" следующая мо-
дель: если средняя частота термина k в n
0
доку-
ментах, то несмещенная выборочная оценка дисперсии
_
есть (см. § 12) σ
2
k
= (f
i
k
— f
k
)
2
. Подходящим па-
раметром для оценки пригодности термина в данной
модели служит отношение F
k
Σ
2
k
/( )
2
, поведение кото-
рого подобно поведениюсигналшум".
Приведем основные способы вычисления весовых
коэффициентoв.
181
тальную частоту Dk термина k как число документов
фонда, в которых этот термин встречается, то можно
определить взвешивающую функцию, обратную доку-
ментальной частоте, в виде F(k) =           +1, где
n0 — число документов в фонде. Эта функция припи-
сывает большие веса терминам, появляющимся лишь
в нескольких документах.
   Следующая модель базируется на вычислениях
соотношения „сигнал — шум" по аналогии с теорией
передачи информации Шеннона.    Точнее, для набора
из n0 документов шум Nk термина k опрэделяется
формулой




а сигнал Sk — фэрмулой Sk = logFk — Nk. Шум нахо-
дится в обратной зависимости от „концентрации"
термина в наборе документов. Для равномерных рас-
пределений, когда термин встречается одинаковое
число раз в каждом документе набора, шум принимает
максимальное значение. Если термин k встречается
точно
  k
       один раз в каждом документе
                             k
                                         (все
                                         k
                                              f i k = 1), то
N = log n0. В этом случае F = n0 и S = 0. С другой
стороны, для распределений, сосредоточенных в одной
точке (термин   появляется только в одном документе
с частотой Fk), шум равзн  нулю, а сигнал имеет мак-
симальное значение Sk = log Fk. Замечено, что широкие
(неспецифичныe) термины распределяются почти
равномерно и, следовательно, порождают высокий
шум.
    Близка к модели „сигнал — шум" следующая мо-
дель: если — средняя частота термина k в n0 доку-
ментах, то несмещенная выборочная оценка дисперсии
                                 _
                  2
есть (см. § 12) σ k =       (fi — fk)2. Подходящим па-
                               k


раметром для оценки пригодности термина в данной
модели служит отношение FkΣ 2 k/( )2, поведение кото-
рого подобно поведению „сигнал — шум".
   Приведем основные способы вычисления весовых
коэффициентoв.
                                                         181