Введение в информационно-поисковые системы. Иванов В.К - 19 стр.

UptoLike

Составители: 

число совпадений при сравнении терминов запроса и документа. Тем самым обеспе-
чивается выдача многих релевантных документов, то есть увеличивается полнота
поиска. С другой стороны, низкочастотные термины вносят относительно небольшой
вклад в поиск нужных документов, так как редкие термины дают малое число совпа-
дений образов запроса и документа. Но если они все же совпадают, то соответству-
ющий найденный документ почти наверняка является релевантным [, ].
Ширина и границы диапазона частот зависят от используемых механизмов по-
иска, а также от анализируемых документов, и отличаются друг от друга в разных
ИПС.
Во всех существующих методах индексирования применяется процедура ис-
ключения некоторых высокочастотных терминов, которые заведомо не являются
ценными для отражения содержания документа []. Для исключения общеупотреби-
тельных слов, к которым относятся предлоги, союзы, артикли, вспомогательные гла-
голы, частицы, местоимения и т. п., используются стоп-словари. Стоп-словарь
(стоп-лист, стоп-список, отрицательный словарь) это словарь служебных и неин-
формативных терминов, которые не должны входить в число терминов индексации.
Число служебных слов в отрицательном словаре составляет обычно несколько со-
тен, в зависимости от системы.
2.4. Анализ информационных массивов
2.4.1. Понятие относительной частоты
Использование во время индексации частоты встречаемости термина в доку-
менте (абсолютной частоты) эффективно лишь в случае очень малого объема ин-
формационного массива. В действительности же современные массивы данных об-
разованы тысячами и десятками тысяч документов, а в Интернете доступны милли-
арды информационных объектов. Поскольку число слов, используемых при индекса-
ции, ограничено числом слов в естественном языке и стоп-словарем, для индекса-
ции разных документов использовались бы одни и те же термины. Применение абсо-
лютных значений частоты привело бы к резкому уменьшению точности поиска из-за
постоянного использования при индексировании высокочастотных терминов, кото-
рые встречаются в большинстве документов.
Один из методов усовершенствования этих грубых частотных параметров за-
ключается в использовании относительных частот терминов в массиве. При этом
частота появления термина в данном документе сравнивается с частотой появления
этого же термина во всем информационном массиве. Наиболее адекватным при ин-
19