ВУЗ:
Составители:
Рубрика:
моделях, называются языками типа "найти похожее" (языки типа "Like This"). В этих
языках необязательно формулировать запросы с помощью булевых операторов.
Для вычисления меры подобия документов и запросов существует более трид-
цати различных алгоритмов [, ]. На сегодняшний день используется лишь несколько
из них. Мы рассмотрим четыре алгоритма []:
−расширенного булевого поиска,
−наибольшего цитирования,
−
IDFTF
×
алгоритм,
−расширенный векторный алгоритм поиска.
Алгоритмы расширенного булевого поиска и наибольшего цитирования основа-
ны на метаинформации гипертекстовых страниц.
IDFTF
×
алгоритм использует
статистические частотные оценки встречаемости терминов. Расширенный вектор-
ный алгоритм работает как с частотными оценками, так и с гипертекстами.
Прежде всего введем некоторые обозначения:
M
– число терминов в запросе.
q
– запрос, состоящий из
M
терминов (вектор запроса).
j
Q
–
j
-й термин запроса,
Mj
,1
=
.
N
– число документов в информационном массиве.
i
P
–
i
-й документ (поисковый образ
i
-го документа),
Ni
,1
=
.
qi
R
,
– релевантность (мера близости)
i
P
по отношению к запросу
q
.
ji
C
,
– величина, характеризующая наличие
j
Q
в
i
P
, определяемая по фор-
муле
∈
∉
=
ij
ij
ji
PQ
PQ
C
,1
,0
,
. (1.1)
Для повышения качества поиска в выражении (1.1) вместо единицы можно так-
же использовать вес термина в документе
ji
W
,
.
ki
IL
,
– величина, характеризующая наличие гиперссылки из
k
P
в
i
P
(входя-
щей гиперссылки
1
).
0
,
=
ki
IL
, если ссылки нет,
1
,
=
ki
IL
, если она есть.
1
IL – англ. Incoming Hyperlink – входящая гиперссылка.
7
Страницы
- « первая
- ‹ предыдущая
- …
- 7
- 8
- 9
- 10
- 11
- …
- следующая ›
- последняя »