Математические методы в библиотечной работе. Елизаров А.М - 182 стр.

UptoLike

Составители: 

Рубрика: 

Пусть
f
k
i
частота термина k в документе d
i
;
t
i
число различных терминов в документе d
i
;
D
k
число документов, содержащих термин k;
F
k
=
f
k
i
суммарная частота термина k в наборе
n
0
документов;
R
0
—-число найденных релевантных документов;
r
k
число найденных релевантных документов
с термином k;
n
0
общее число документов.
Пусть w
ik
вес термина k в документе d
i
, а v
k
вес
термина k в запросе. Весовые коэффициенты w
ik
определяются формулами:
1. w
ik
= l/D
k
(более часто встречающиеся термины
менее специфичны и, следовательно, менее важны);
2. w
ik
— 1 (все термины документа одинаково важ
ны; этот метод часто называется отсутствием взве
шивания);
3. w
ik
= log
2
+ 1 (модель Спарк Джоунс);
4. w
ik
=1/t
i
(термин тем важнее для документов,
которым он приписан, чем короче текст документа);
5. w
ik
= f
k
i
(модель X. Луна);
6. w
ik
= f
k
i
/F
k
(модель X. Луна);
7.w
ik
=
относительные частотные
8. w
ik
=характеристики;
9. w
ik
= величивается для малочас
тотных терминов, встречающихся в малом числе до
кументов);
10. w
ik
= f
i
k
2
/D
k
(вес уменьшается с увеличением
числа документов, в которых встречается данный
термин);
11. w
ik
= f
i
k2
F
k
/D
2
k
(комбинация эффектов весов 9
и 10);
12. w
ik
= f
k
i
D
k
/(F
k
— f
k
i
) (вес увеличивается для ма
лочастотных терминов, встречающихся в большом.
числе документовэффект, обратный к весу 9°).
Приведем формулы для определения весов терми-
нов запроса.
182
   Пусть
     f k i —частота термина k в документе d i ;
   ti — число различных терминов в документе di;
   Dk — число документов, содержащих термин k;
   Fk=    fki — суммарная частота термина k в наборе
n0 документов;
    R0—-число найденных релевантных документов;
    r k —число найденных релевантных документов
с термином k;
    n0 — общее число документов.
    Пусть wik — вес термина k в документе di, а vk — вес
термина k в запросе. Весовые коэффициенты wik
определяются формулами:
    1. wik = l/Dk (более часто встречающиеся термины
менее специфичны и, следовательно, менее важны);
    2. wik — 1 (все термины документа одинаково важ
ны; этот метод часто называется отсутствием взве
шивания);
    3. wik = log2 + 1 (модель Спарк Джоунс);
    4. wik =1/t i (термин тем важнее для документов,
которым онk приписан, чем короче текст документа);
    5. wik= f i (модель X. Луна);
    6. w ik = f ki /Fk (модель X. Луна);
    7.w ik =
                                    относительные частотные
   8. w i k =характеристики;
   9. w ik =                      величивается для малочас
тотных терминов, встречающихся в малом числе до
кументов);
   10. w ik = f i k 2 /D k (вес уменьшается с увеличением
числа документов, в которых встречается данный
термин);
   11. wik = fik2Fk/D2k (комбинация эффектов весов 9
и 10);
   12. w ik = fkiDk/(Fk — fki) (вес увеличивается для ма
лочастотных терминов, встречающихся в большом.
числе документов — эффект, обратный к весу 9°).
   Приведем формулы для определения весов терми-
нов запроса.


 182