ВУЗ:
Составители:
Рубрика:
Пусть
f
k
i
—частота термина k в документе d
i
;
t
i
— число различных терминов в документе d
i
;
D
k
— число документов, содержащих термин k;
F
k
=
f
k
i
— суммарная частота термина k в наборе
n
0
документов;
R
0
—-число найденных релевантных документов;
r
k
—число найденных релевантных документов
с термином k;
n
0
— общее число документов.
Пусть w
ik
— вес термина k в документе d
i
, а v
k
— вес
термина k в запросе. Весовые коэффициенты w
ik
определяются формулами:
1. w
ik
= l/D
k
(более часто встречающиеся термины
менее специфичны и, следовательно, менее важны);
2. w
ik
— 1 (все термины документа одинаково важ
ны; этот метод часто называется отсутствием взве
шивания);
3. w
ik
= log
2
+ 1 (модель Спарк Джоунс);
4. w
ik
=1/t
i
(термин тем важнее для документов,
которым он приписан, чем короче текст документа);
5. w
ik
= f
k
i
(модель X. Луна);
6. w
ik
= f
k
i
/F
k
(модель X. Луна);
7.w
ik
=
относительные частотные
8. w
ik
=характеристики;
9. w
ik
= величивается для малочас
тотных терминов, встречающихся в малом числе до
кументов);
10. w
ik
= f
i
k
2
/D
k
(вес уменьшается с увеличением
числа документов, в которых встречается данный
термин);
11. w
ik
= f
i
k2
F
k
/D
2
k
(комбинация эффектов весов 9
и 10);
12. w
ik
= f
k
i
D
k
/(F
k
— f
k
i
) (вес увеличивается для ма
лочастотных терминов, встречающихся в большом.
числе документов — эффект, обратный к весу 9°).
Приведем формулы для определения весов терми-
нов запроса.
182
Пусть
f k i —частота термина k в документе d i ;
ti — число различных терминов в документе di;
Dk — число документов, содержащих термин k;
Fk= fki — суммарная частота термина k в наборе
n0 документов;
R0—-число найденных релевантных документов;
r k —число найденных релевантных документов
с термином k;
n0 — общее число документов.
Пусть wik — вес термина k в документе di, а vk — вес
термина k в запросе. Весовые коэффициенты wik
определяются формулами:
1. wik = l/Dk (более часто встречающиеся термины
менее специфичны и, следовательно, менее важны);
2. wik — 1 (все термины документа одинаково важ
ны; этот метод часто называется отсутствием взве
шивания);
3. wik = log2 + 1 (модель Спарк Джоунс);
4. wik =1/t i (термин тем важнее для документов,
которым онk приписан, чем короче текст документа);
5. wik= f i (модель X. Луна);
6. w ik = f ki /Fk (модель X. Луна);
7.w ik =
относительные частотные
8. w i k =характеристики;
9. w ik = величивается для малочас
тотных терминов, встречающихся в малом числе до
кументов);
10. w ik = f i k 2 /D k (вес уменьшается с увеличением
числа документов, в которых встречается данный
термин);
11. wik = fik2Fk/D2k (комбинация эффектов весов 9
и 10);
12. w ik = fkiDk/(Fk — fki) (вес увеличивается для ма
лочастотных терминов, встречающихся в большом.
числе документов — эффект, обратный к весу 9°).
Приведем формулы для определения весов терми-
нов запроса.
182
Страницы
- « первая
- ‹ предыдущая
- …
- 180
- 181
- 182
- 183
- 184
- …
- следующая ›
- последняя »
