ВУЗ:
Составители:
Рубрика:
2.5. Определение весов терминов
После того как из документа отобраны термины для поискового образа, возни-
кает вопрос об оценке их значимости для поиска.
Ценность того или иного термина определяется его способностью наиболее
адекватно характеризовать содержание документа. Обычно она характеризуется не-
которым весовым коэффициентом, который рассчитывается в процессе индексации.
Запрос, выражающий информационную потребность пользователя, состоит из
отдельных терминов. Во время выполнения поискового алгоритма происходит срав-
нение терминов запроса и поискового образа документа и определяется степень их
близости, то есть формальная релевантность. Чем больше вес термина в докумен-
те, тем более релевантным оказывается этот документ, и тем более высокую пози-
цию этот документ занимает в списке результатов поиска. Особенно актуальным та-
кое упорядочение представляется для крупных информационных массивов.
Таким образом, взвешивание терминов необходимо для решения главной зада-
чи поисковой системы – обеспечения пользователя релевантными документами.
Веса также влияют на составление поисковых образов документов. В предыду-
щих разделах при анализе частот встречаемости терминов был описан ряд критери-
ев, по которым происходит отбор индексационных терминов. Численной характери-
стикой этих критериев может быть вес терминов. Поскольку количество терминов,
которые могут быть использованы для индексации, ограничено, термины, получив-
шие наименьший вес, отбрасываются.
Наиболее простая и самая распространенная модель поиска – булева модель –
использует двоичную систему взвешивания терминов. Этот метод реализуется на
стадии отбора индексационных терминов, и заключается в том, что терминам, во-
шедшим в поисковый образ, приписывается единичный вес, а остальным терминам
– нулевой вес. Таким образом, все термины из поискового образа документа счита-
ются равнозначными [].
Недостатки булевой модели широко известны. В частности, использование аб-
солютных единичных весов приводит к значительным трудностям восприятия ре-
зультатов поиска, когда в ответ на запрос пользователю система выдает множество
неупорядоченных документов, поисковые образы которых содержат термины запро-
са. Выделение истинно релевантных документов из этого множества представляет
значительные трудности.
Выходом из такой ситуации является приписывание терминам дифференциро-
ванных весов. Термины поискового образа одного и того же документа в таком слу-
23
Страницы
- « первая
- ‹ предыдущая
- …
- 21
- 22
- 23
- 24
- 25
- …
- следующая ›
- последняя »