ВУЗ:
Составители:
Рубрика:
Здесь
1
c
и
2
c
– положительные константы, причем
21
cc
>
.
1.2.2. Алгоритм наибольшего цитирования
Этот алгоритм также использует информацию о гиперссылках между докумен-
тами. Мера релевантности каждой страницы
i
P
определяется суммой числа терми-
нов запроса, содержащихся на других страницах, которые имеют ссылку на данную:
∑
∑
=
≠=
=
N
ikk
M
j
jkkiji
qi
CILCR
,1 1
,,,
,
.
Цель данного алгоритма – приписать большие веса тем документам в множе-
стве найденных, которые цитируются (на которые ссылаются другие документы)
чаще всего. Аналогичный подход применяется также в ряде других алгоритмов, в
частности, в алгоритме PageRank, который используется в информационно-поиско-
вой системе Интернет Google [].
1.2.3. Векторный алгоритм поиска
Векторный алгоритм поиска, называемый
IDFTF
×
-алгоритмом, является
одним из самых распространенных. Он основан на векторной модели информаци-
онного массива, в которой для определения меры близости документов и запросов
используется значение косинуса угла между их векторами в многомерном про-
странстве информационного массива [, ].
Запросы и документы в векторной модели представляют множествами наборов
взвешенных терминов. Вектор запроса
q
в таком случае будет выглядеть так:
),,,,,(
21
Mj
WWWWq
=
,
где
j
W
– вес
j
-ого термина в запросе (вес термина
j
Q
в запросе
q
).
Вектор документа
i
P
можно представить как
),,,,,(
,,,2,1
iMijiii
WWWWP
=
,
где
ij
W
,
– вес термина
j
Q
в документе
i
P
.
Функция совпадения векторов запроса и документа имеет вид:
∑∑
∑
=
=
=
=
M
j
ij
M
j
j
M
j
ijj
qi
WW
WW
R
1
2
,
1
2
1
,
,
. (1.3)
9
Страницы
- « первая
- ‹ предыдущая
- …
- 9
- 10
- 11
- 12
- 13
- …
- следующая ›
- последняя »