ВУЗ:
Составители:
Рубрика:
∑
+=
=
M
j
j
i
ji
qi
IDF
TF
TF
R
1
max,
,
,
)(
)(
)(
5.05.0
. (1.6)
Практика показывает, что упрощенный алгоритм (1.6) при поиске в Интернете
является более эффективным, чем полный алгоритм (1.5).
1.2.4. Расширенный векторный алгоритм поиска
Этот алгоритм является комбинацией векторного алгоритма и алгоритма наи-
большего цитирования. Сначала релевантность каждого документа вычисляется по
IDFTF
×
-алгоритму, а затем корректируется с учетом связанных документов.
Мера близости документа
i
P
и запроса
q
рассчитывается по формуле
∑
⋅⋅+=
≠=
N
ijj
qjji
qiqi
SILSR
,1
,,
,,
α
.
где
qi
S
,
и
qj
S
,
– релевантность документов, полученная по формуле (1.6);
α
– постоянный весовой коэффициент
)10(
<<
α
.
2. Классификация документов
Во время поиска часто бывает важно получить по возможности наибольшее
значение полноты, то есть выдать максимальную часть релевантных документов,
имеющихся в массиве. Исчерпывающий поиск может понадобиться, например, экс-
пертам организации, регистрирующей изобретения, которым необходимо составить
обзор всех существующих патентов. Увеличение числа релевантных документов
обычно приводит к выдаче дополнительных нерелевантных документов, то есть сни-
жается его точность (см. часть 1 методических указаний).
Для улучшения полноты поиска необходимы дополнительные совпадения тер-
минов запроса и документа. Это достигается использованием дополнительных тер-
минов-заместителей []. Термины-заместители либо добавляются к уже существую-
щим терминам запросов и документов, либо используются вместо них. Наиболее из-
вестным методом здесь является применение словаря синонимов (тезауруса), в ко-
тором термины сгруппированы в классы синонимии (классы эквивалентности).
С помощью тезауруса можно заменить каждый имеющийся в начальный мо-
мент поиска термин идентификаторами соответствующих классов тезауруса. При ис-
пользовании другого подхода идентификаторы этих классов можно добавлять к ис-
ходным терминам. В любом случае цель состоит в том, чтобы получить дополни-
11
Страницы
- « первая
- ‹ предыдущая
- …
- 11
- 12
- 13
- 14
- 15
- …
- следующая ›
- последняя »