Введение в информационно-поисковые системы. Иванов В.К - 20 стр.

UptoLike

ВУЗ:

ТвГТУ | Тверь

Составители:

Рубрика:

Компьютерные сети и телекоммуникации

дексации оказывается тот термин, который отражает содержание отдельного доку-

мента и в то же время отличает один документ от другого.

В частотной модели индексирования предпочтительными для описания доку-

ментов являются те термины, которые встречаются с высокой частотой в отдельных

документах, а суммарная частота их появления в массиве низка [, ].

Определим документную частоту термина

как число документов массива, в

которых встречается этот термин, и обозначим ее

)(

. Тогда взвешивающую

функцию, обратную документной частоте

, можно определить следующим образом:

IDF

)(

log)(

, (2.4)

где

– общее число документов в информационном массиве. Функция (2.4)

приписывает наибольшие значения терминам, появляющимся лишь в нескольких до-

кументах. Чем чаще термин встречается в документах массива, тем меньше значе-

ние обратной документной частоты.

Несколько иной подход применяется при использовании методов оценки раз-

личительной силы термина. Здесь хорошим для индексации считается такой термин,

который делает документы максимально непохожими друг на друга. Тем самым

обеспечивается максимальное удаление одного документа от другого в про-

странстве индексирования. Плохим считается такой термин, который делает доку-

менты более похожими друг на друга, вследствие чего различить их становится

труднее.

Чем больше будет разделение отдельных документов, то есть чем менее похо-

жими будут соответствующие векторы поисковых образов, тем легче будет находить

одни документы, отбрасывая другие. Если же документы представлены похожими

векторами терминов, пространство индексирования сжимается, и обеспечить доста-

точное разграничение релевантных и нерелевантных документов затруднительно.

Значимость термина

измеряется его различительной силой

)(

. Она

определяется как разность между средним попарным подобием документов, когда

термин

отсутствует в векторах документов массива, и средним попарным подоби-

ем, когда термин

присутствует. Если данный термин представляет ценность для

индексирования, его присутствие в векторе документа должно делать документы ме-

нее похожими друг на друга. Тогда среднее попарное подобие уменьшается, а раз-

IDF – англ. Inversed Document Frequency – обратная документная частота.

Заказать работу

Введение в информационно-поисковые системы. Иванов В.К - 20 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Вы здесь

Введение в информационно-поисковые системы. Иванов В.К - 20 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Страницы