ВУЗ:
Составители:
Рубрика:
дексации оказывается тот термин, который отражает содержание отдельного доку-
мента и в то же время отличает один документ от другого.
В частотной модели индексирования предпочтительными для описания доку-
ментов являются те термины, которые встречаются с высокой частотой в отдельных
документах, а суммарная частота их появления в массиве низка [, ].
Определим документную частоту термина
i
t
как число документов массива, в
которых встречается этот термин, и обозначим ее
i
DF
)(
. Тогда взвешивающую
функцию, обратную документной частоте
1
, можно определить следующим образом:
i
i
DF
N
IDF
)(
log)(
=
, (2.4)
где
N
– общее число документов в информационном массиве. Функция (2.4)
приписывает наибольшие значения терминам, появляющимся лишь в нескольких до-
кументах. Чем чаще термин встречается в документах массива, тем меньше значе-
ние обратной документной частоты.
Несколько иной подход применяется при использовании методов оценки раз-
личительной силы термина. Здесь хорошим для индексации считается такой термин,
который делает документы максимально непохожими друг на друга. Тем самым
обеспечивается максимальное удаление одного документа от другого в про-
странстве индексирования. Плохим считается такой термин, который делает доку-
менты более похожими друг на друга, вследствие чего различить их становится
труднее.
Чем больше будет разделение отдельных документов, то есть чем менее похо-
жими будут соответствующие векторы поисковых образов, тем легче будет находить
одни документы, отбрасывая другие. Если же документы представлены похожими
векторами терминов, пространство индексирования сжимается, и обеспечить доста-
точное разграничение релевантных и нерелевантных документов затруднительно.
Значимость термина
i
t
измеряется его различительной силой
i
DV
)(
. Она
определяется как разность между средним попарным подобием документов, когда
термин
i
t
отсутствует в векторах документов массива, и средним попарным подоби-
ем, когда термин
i
t
присутствует. Если данный термин представляет ценность для
индексирования, его присутствие в векторе документа должно делать документы ме-
нее похожими друг на друга. Тогда среднее попарное подобие уменьшается, а раз-
1
IDF – англ. Inversed Document Frequency – обратная документная частота.
20
Страницы
- « первая
- ‹ предыдущая
- …
- 18
- 19
- 20
- 21
- 22
- …
- следующая ›
- последняя »