Введение в информационно-поисковые системы - 11 стр.

UptoLike

ВУЗ:

ТвГТУ | Тверь

Составители:

Рубрика:

Компьютерные сети и телекоммуникации

Здесь

– положительные константы, причем

1.2.2. Алгоритм наибольшего цитирования

Этот алгоритм также использует информацию о гиперссылках между докумен-

тами. Мера релевантности каждой страницы

определяется суммой числа терми-

нов запроса, содержащихся на других страницах, которые имеют ссылку на данную:

∑













∑

≠=













ikk

jkkiji

CILCR

,1 1

,,,

Цель данного алгоритма – приписать большие веса тем документам в множе-

стве найденных, которые цитируются (на которые ссылаются другие документы)

чаще всего. Аналогичный подход применяется также в ряде других алгоритмов, в

частности, в алгоритме PageRank, который используется в информационно-поиско-

вой системе Интернет Google [].

1.2.3. Векторный алгоритм поиска

Векторный алгоритм поиска, называемый

IDFTF

-алгоритмом, является

одним из самых распространенных. Он основан на векторной модели информаци-

онного массива, в которой для определения меры близости документов и запросов

используется значение косинуса угла между их векторами в многомерном про-

странстве информационного массива [, ].

Запросы и документы в векторной модели представляют множествами наборов

взвешенных терминов. Вектор запроса

в таком случае будет выглядеть так:

),,,,,(

WWWWq



где

– вес

-ого термина в запросе (вес термина

в запросе

Вектор документа

можно представить как

),,,,,(

,,,2,1

iMijiii

WWWWP



где

– вес термина

в документе

Функция совпадения векторов запроса и документа имеет вид:

∑∑

∑





































ijj

. (1.3)

Заказать работу

Введение в информационно-поисковые системы - 11 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Вы здесь

Введение в информационно-поисковые системы - 11 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Страницы