Введение в информационно-поисковые системы - 9 стр.

UptoLike

ВУЗ:

ТвГТУ | Тверь

Составители:

Рубрика:

Компьютерные сети и телекоммуникации

моделях, называются языками типа "найти похожее" (языки типа "Like This"). В этих

языках необязательно формулировать запросы с помощью булевых операторов.

Для вычисления меры подобия документов и запросов существует более трид-

цати различных алгоритмов [, ]. На сегодняшний день используется лишь несколько

из них. Мы рассмотрим четыре алгоритма []:

−расширенного булевого поиска,

−наибольшего цитирования,

−

IDFTF

алгоритм,

−расширенный векторный алгоритм поиска.

Алгоритмы расширенного булевого поиска и наибольшего цитирования основа-

ны на метаинформации гипертекстовых страниц.

IDFTF

алгоритм использует

статистические частотные оценки встречаемости терминов. Расширенный вектор-

ный алгоритм работает как с частотными оценками, так и с гипертекстами.

Прежде всего введем некоторые обозначения:

– число терминов в запросе.

– запрос, состоящий из

терминов (вектор запроса).

–

-й термин запроса,

– число документов в информационном массиве.

–

-й документ (поисковый образ

-го документа),

– релевантность (мера близости)

по отношению к запросу

– величина, характеризующая наличие

, определяемая по фор-

муле











∈

∉

. (1.1)

Для повышения качества поиска в выражении (1.1) вместо единицы можно так-

же использовать вес термина в документе

– величина, характеризующая наличие гиперссылки из

(входя-

щей гиперссылки

, если ссылки нет,

, если она есть.

IL – англ. Incoming Hyperlink – входящая гиперссылка.

Заказать работу

Введение в информационно-поисковые системы - 9 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Вы здесь

Введение в информационно-поисковые системы - 9 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Страницы