ВУЗ:
Составители:
Рубрика:
При больших объемах информационного массива вес термина становится рав-
ным обратной документной частоте (2.4):
i
ii
DF
N
IDFW
)(
log)(
=≈
.
Когда информационно-поисковая система в ответ на запрос пользователя вы-
дает список документов, пользователь может оценить релевантность некоторых из
них. Если пользователь пометил несколько документов, которые являются перти-
нентными по отношению к его запросу, становится возможным определение значе-
ний
iR
DF
)(
и
R
и, как следствие, более точный расчет весов терминов согласно
выражению (2.10).
Процесс динамической подстройки весов терминов будет сходиться к некоторо-
му оптимальному значению для каждого термина, поскольку ошибочно завышенные
веса приведут к выдаче нерелевантных документов, в результате чего веса умень-
шатся, в то время как ошибочно заниженные веса вызовут соответствующее увели-
чение веса терминов [, , , ].
2.5.3. Латентно-семантический анализ
Основное предназначение взвешивания терминов, как отмечалось выше, за-
ключается в определении того, насколько полно они отражают содержание докумен-
та. Как показывает практика, частотные методы оценки весов имеют ряд недостат-
ков. Следствием этого является получение в результате поиска нерелевантных и от-
сутствие истинно релевантных документов.
Во-первых, описанные методы не учитывают тот факт, что частоты встречаемо-
сти различных терминов зависят друг от друга. Термины не появляются в документе
независимо от остальных терминов, они могут быть, например, объединены в слово-
сочетания, устоявшиеся обороты и т. п.
Другой проблемой является синонимия и полисемия (многозначность) [].
Под синонимией понимается тот факт, что любое явление или предмет могут
быть выражены различными способами. В зависимости от контекста, знаний челове-
ка, манеры письма одни и те же сведения описываются разными терминами (сино-
нимами). Например, синонимы «дисплей» и «монитор» определяют один и тот же
предмет.
Полисемия, напротив, заключается в том, что большинство слов в языке имеет
несколько значений. Один и тот же термин может обозначать абсолютно разные по-
нятия. Соответственно, наличие того или иного термина в некотором документе не
означает того, что документ является релевантным запросу, в котором содержится
28
Страницы
- « первая
- ‹ предыдущая
- …
- 26
- 27
- 28
- 29
- 30
- …
- следующая ›
- последняя »