ВУЗ:
Составители:
Рубрика:
чае могут иметь различный вес. Одновременно значение веса для одного и того же
термина может быть различным в разных документах.
Помимо описанного двоичного метода, в настоящее время для оценки весов
терминов используется главным образом следующие три модели:
−частотная модель,
−вероятностная модель,
−латентно-семантический анализ.
Остановимся на них более подробно.
2.5.1. Частотная модель
Частотная модель взвешивания терминов тесно связана с частотным методом
индексирования (раздел 2.4). Одна из наиболее известных весовых функций записы-
вается следующим образом []:
iii
IDFTFW
)()(
×=
.
Здесь
i
W
– вес, приписываемый термину
i
t
,
i
TF
)(
– частота термина в доку-
менте,
i
IDF
)(
– обратная документная частота.
Также на практике широко применяется весовая функция
i
i
i
IDF
TF
TF
W
)(
)(
)(
5.05.0
max
+=
,
где
max
)(
TF
– максимальная частота термина в
k
-ом документе, то есть ча-
стота термина, который встречается в документе чаще всего. Весовой коэффициент
i
W
отражает значимость термина
i
t
в
k
-ом документе.
При использовании различительной силы терминов их индексационные веса
могут быть вычислены по формуле
iii
DVTFW
)()(
×=
,
где
i
DV
)(
– значение различительной силы термина
i
t
. Полнота поиска здесь
может быть обеспечена путем поиска высокочастотных терминов, а точность поиска
определяется положительными значениями различительной силы.
2.5.2. Вероятностная модель
Недостатком частотных методов взвешивания терминов является тот факт, что
частотные веса рассчитываются формально, без учета реальных информационных
потребностей. Для того чтобы установить соответствие между истинной информаци-
24
Страницы
- « первая
- ‹ предыдущая
- …
- 22
- 23
- 24
- 25
- 26
- …
- следующая ›
- последняя »
