Введение в информационно-поисковые системы - 25 стр.

UptoLike

ВУЗ:

ТвГТУ | Тверь

Составители:

Рубрика:

Компьютерные сети и телекоммуникации

методами случайных выборок. Список релевантных документов может быть получен

на основе оценок релевантности только выданного множества документов.

Кроме того, классификация релевантности на основе бинарной логики не впол-

не адекватна понятию релевантности. Документ может быть частично релевантен

информационной потребности. Возможна ситуация, когда информационную потреб-

ность удовлетворяет совокупность из нескольких документов, и при этом релевант-

ность каждого из них можно охарактеризовать некоторым числом. При этом исполь-

зование формальной релевантности, значение которой рассчитывается для каждого

документа в ходе выполнения поискового алгоритма, является неприемлемым для

анализа качества работы системы с точки зрения потребителей [].

Специфика сети Интернет также накладывает существенные ограничения на

применение показателей полноты и точности для оценки эффективности поиска [].

К факторам, влияющим на расчет этих характеристик, относятся очень

большое количество документов, значительная доля релевантных документов, огра-

ниченность возможностей пользователя. Остановимся на них более подробно.

В настоящее время в сети Интернет находится несколько миллиардов докумен-

тов, причем их число постоянно увеличивается. В массивах поисковых образов наи-

более мощных ИПС содержатся сведения о части этих документов, которая состав-

ляет по разным оценкам от трех до восьми миллиардов документов, по состоянию

на конец 2002 года.

При определении коэффициента полноты поиска используется количество ре-

левантных документов, не выданных ИПС (3.7). Как отмечалось выше, оценить это

количество можно на основе изучения некоторой выборки этих документов. Однако

построение такой выборки вызывает существенные затруднения из-за невозможно-

сти охвата всех документов. Недостаточная представительность выборки обуслав-

ливает появление значительной систематической погрешности при расчете числа

невыданных релевантных документов.

В последние 5-8 лет происходит интенсивный процесс перевода в электронную

форму и размещения в сети Интернет основного массива наиболее значимых из со-

зданных ранее печатных документов. В тоже время многие вновь создаваемые доку-

менты практически сразу размещаются в сети. В результате большинству возникаю-

щих у пользователя информационных потребностей соответствуют десятки тысяч

релевантных документов, размещенных в сети. Вместе с тем релевантная информа-

ция во многих документах совпадает, и пользователю достаточно просмотреть лишь

несколько из них. Таким образом, высокое значение коэффициента полноты не яв-

ляется актуальным и может приближаться к нулю в случае успешного поиска. Сле-

Заказать работу

Введение в информационно-поисковые системы - 25 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Вы здесь

Введение в информационно-поисковые системы - 25 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Страницы