Математические методы в библиотечной работе. Елизаров А.М - 181 стр.

UptoLike

ВУЗ:

КФУ | Казань

Составители:

Рубрика:

Математика

тальную частоту D

термина k как число документов

фонда, в которых этот термин встречается, то можно

определить взвешивающую функцию, обратную доку-

ментальной частоте, в виде F(k) = +1, где

— число документов в фонде. Эта функция припи-

сывает большие веса терминам, появляющимся лишь

в нескольких документах.

Следующая модель базируется на вычислениях

соотношения „сигнал — шум" по аналогии с теорией

передачи информации Шеннона. Точнее, для набора

из n

документов шум N

термина k опрэделяется

формулой

а сигнал S

— фэрмулой S

= logF

— N

. Шум нахо-

дится в обратной зависимости от „концентрации"

термина в наборе документов. Для равномерных рас-

пределений, когда термин встречается одинаковое

число раз в каждом документе набора, шум принимает

максимальное значение. Если термин k встречается

точно один раз в каждом документе (все f

= 1), то

= log n

. В этом случае F

= n

и S

= 0. С другой

стороны, для распределений, сосредоточенных в одной

точке (термин появляется только в одном документе

с частотой F

), шум равзн нулю, а сигнал имеет мак-

симальное значение S

= log F

. Замечено, что широкие

(неспецифичныe) термины распределяются почти

равномерно и, следовательно, порождают высокий

шум.

Близка к модели „сигнал — шум" следующая мо-

дель: если — средняя частота термина k в n

доку-

ментах, то несмещенная выборочная оценка дисперсии

есть (см. § 12) σ

= (f

— f

)

. Подходящим па-

раметром для оценки пригодности термина в данной

модели служит отношение F

/( )

, поведение кото-

рого подобно поведению „сигнал — шум".

Приведем основные способы вычисления весовых

коэффициентoв.

181

тальную частоту Dk термина k как число документов
фонда, в которых этот термин встречается, то можно
определить взвешивающую функцию, обратную доку-
ментальной частоте, в виде F(k) =           +1, где
n0 — число документов в фонде. Эта функция припи-
сывает большие веса терминам, появляющимся лишь
в нескольких документах.
   Следующая модель базируется на вычислениях
соотношения „сигнал — шум" по аналогии с теорией
передачи информации Шеннона.    Точнее, для набора
из n0 документов шум Nk термина k опрэделяется
формулой




а сигнал Sk — фэрмулой Sk = logFk — Nk. Шум нахо-
дится в обратной зависимости от „концентрации"
термина в наборе документов. Для равномерных рас-
пределений, когда термин встречается одинаковое
число раз в каждом документе набора, шум принимает
максимальное значение. Если термин k встречается
точно
  k
       один раз в каждом документе
                             k
                                         (все
                                         k
                                              f i k = 1), то
N = log n0. В этом случае F = n0 и S = 0. С другой
стороны, для распределений, сосредоточенных в одной
точке (термин   появляется только в одном документе
с частотой Fk), шум равзн  нулю, а сигнал имеет мак-
симальное значение Sk = log Fk. Замечено, что широкие
(неспецифичныe) термины распределяются почти
равномерно и, следовательно, порождают высокий
шум.
    Близка к модели „сигнал — шум" следующая мо-
дель: если — средняя частота термина k в n0 доку-
ментах, то несмещенная выборочная оценка дисперсии
                                 _
                  2
есть (см. § 12) σ k =       (fi — fk)2. Подходящим па-
                               k


раметром для оценки пригодности термина в данной
модели служит отношение FkΣ 2 k/( )2, поведение кото-
рого подобно поведению „сигнал — шум".
   Приведем основные способы вычисления весовых
коэффициентoв.
                                                         181

Заказать работу

Математические методы в библиотечной работе. Елизаров А.М - 181 стр.

UptoLike

ВУЗ:

Елизаров А.М.

Хохлов Ю.Е.

Математика

Вы здесь

Математические методы в библиотечной работе. Елизаров А.М - 181 стр.

UptoLike

ВУЗ:

Елизаров А.М.

Хохлов Ю.Е.

Математика

Страницы