Введение в информационно-поисковые системы - 25 стр.

UptoLike

Составители: 

методами случайных выборок. Список релевантных документов может быть получен
на основе оценок релевантности только выданного множества документов.
Кроме того, классификация релевантности на основе бинарной логики не впол-
не адекватна понятию релевантности. Документ может быть частично релевантен
информационной потребности. Возможна ситуация, когда информационную потреб-
ность удовлетворяет совокупность из нескольких документов, и при этом релевант-
ность каждого из них можно охарактеризовать некоторым числом. При этом исполь-
зование формальной релевантности, значение которой рассчитывается для каждого
документа в ходе выполнения поискового алгоритма, является неприемлемым для
анализа качества работы системы с точки зрения потребителей [].
Специфика сети Интернет также накладывает существенные ограничения на
применение показателей полноты и точности для оценки эффективности поиска [].
К факторам, влияющим на расчет этих характеристик, относятся очень
большое количество документов, значительная доля релевантных документов, огра-
ниченность возможностей пользователя. Остановимся на них более подробно.
В настоящее время в сети Интернет находится несколько миллиардов докумен-
тов, причем их число постоянно увеличивается. В массивах поисковых образов наи-
более мощных ИПС содержатся сведения о части этих документов, которая состав-
ляет по разным оценкам от трех до восьми миллиардов документов, по состоянию
на конец 2002 года.
При определении коэффициента полноты поиска используется количество ре-
левантных документов, не выданных ИПС (3.7). Как отмечалось выше, оценить это
количество можно на основе изучения некоторой выборки этих документов. Однако
построение такой выборки вызывает существенные затруднения из-за невозможно-
сти охвата всех документов. Недостаточная представительность выборки обуслав-
ливает появление значительной систематической погрешности при расчете числа
невыданных релевантных документов.
В последние 5-8 лет происходит интенсивный процесс перевода в электронную
форму и размещения в сети Интернет основного массива наиболее значимых из со-
зданных ранее печатных документов. В тоже время многие вновь создаваемые доку-
менты практически сразу размещаются в сети. В результате большинству возникаю-
щих у пользователя информационных потребностей соответствуют десятки тысяч
релевантных документов, размещенных в сети. Вместе с тем релевантная информа-
ция во многих документах совпадает, и пользователю достаточно просмотреть лишь
несколько из них. Таким образом, высокое значение коэффициента полноты не яв-
ляется актуальным и может приближаться к нулю в случае успешного поиска. Сле-
23