Введение в информационно-поисковые системы - 21 стр.

UptoLike

Составители: 

заранее неизвестно количество документов, представляющих интерес в данной
предметной области. Это особенно характерно для глобальных ИПС сети Интернет.
Наиболее трудным как принципиально, так и практически, является определение
мер полноты и точности, то есть оценка качества результатов поиска.
3.2. Полнота и точность поиска
Коэффициент полноты это доля полученных релевантных документов по
сравнению с их общим количеством в поисковом массиве. Коэффициент точности
это доля релевантных документов среди выданных.
Введем обозначения []:
a
– количество полученных в результате поиска релевантных документов,
b
– количество нерелевантных документов, выданных ИПС,
c
– число релевантных документов в поисковом массиве, не выданных ИПС,
d
– число невыданных релевантных документов.
Табл. 2 иллюстрирует подобное разделение документов на подмножества.
Таблица 2. Разделение документов в процессе поиска
Документы Релевантные Нерелевантные
Всего
Выданные
Невыданные
Всего
a
b
c
d
db
+
ba
+
dc
+
dbca
+++
Тогда коэффициент полноты
1
R
и коэффициент точности
2
P
можно опреде-
лить по формулам:
ca
a
R
+
=
, (3.7)
ba
a
P
+
=
. (3.8)
Часто используются дополнительные меры оценки коэффициент выпаде-
ния
3
F
, характеризующий количество возвращаемых системой нерелевантных до-
кументов, и коэффициент ошибки
4
E
, описывающий правильность определения по-
исковой системой релевантности документов:
1
Полнота – англ. Recall.
2
Точность – англ. Precision.
3
Выпадение – англ. Fallout.
4
Ошибка – англ. Error.
19