ВУЗ:
Составители:
Рубрика:
где
n
– количество релевантных документов в массиве;
N
- объем всего массива
документов;
i
r
– ранг
i
-го релевантного документа в случае, когда документы рас-
положены в порядке уменьшения их сходства с запросом [, ].
В идеальной системе все релевантные документы находятся в верхней части
списка выданных документов, то есть
ir
i
=
при
ni
≤≤
1
. Нормализованные полно-
та и точность равны в этом случае единице.
3.3. Недостатки основных характеристик
Применение мер полноты и точности для оценки эффективности поиска имеет
ряд ограничений. Во-первых, из определений (3.7) и (3.8) ясно, что измерения
R
и
P
обычно привязаны к конкретному массиву документов и конкретному множеству
запросов. В пределах такой фиксированной среды имеется возможность варьиро-
вать методы и язык индексирования, методику поиска, и в результате можно опреде-
лить, как эти изменения влияют на работоспособность системы с точки зрения пол-
ноты и точности. Однако абсолютно неприемлемо сравнивать показатели полноты и
точности совершенно различных систем, основанных на разных массивах докумен-
тов, наборах запросов и группах пользователей.
Например, полнота и точность в той или иной степени зависят от размера ин-
формационного массива и среднего количества релевантных документов, находя-
щихся в массиве. Можно предполагать, что по мере роста объема массива полнота
и точность будут ухудшаться, если только количество релевантных документов не
будет увеличиваться пропорционально размеру массива. То же справедливо для
случая, когда при анализе эффективности используется новое множество запросов,
для которого среднее количество релевантных документов меньше, чем для перво-
начального множества запросов [, ].
Во-вторых, коэффициенты полноты и точности несложно вычислить только в
том случае, если каждый документ можно однозначно отнести либо к множеству ре-
левантных, либо нерелевантных. Когда размер информационного массива сравни-
тельно невелик (в локальных ИПС или тестовых наборах документов глобальных
ИПС), часто имеется возможность получить однозначные оценки релевантности каж-
дого документа по отношению к конкретным запросам.
В более крупных массивах исчерпывающие оценки релевантности обычно
невозможны. Здесь для получения достоверных показателей полноты бывает
необходимо оценить как общее число релевантных документов в массиве, так и
позицию (ранг) релевантных документов в списке выданных. Это можно сделать
22
Страницы
- « первая
- ‹ предыдущая
- …
- 22
- 23
- 24
- 25
- 26
- …
- следующая ›
- последняя »