Введение в информационно-поисковые системы. Иванов В.К - 19 стр.

UptoLike

ВУЗ:

ТвГТУ | Тверь

Составители:

Рубрика:

Компьютерные сети и телекоммуникации

число совпадений при сравнении терминов запроса и документа. Тем самым обеспе-

чивается выдача многих релевантных документов, то есть увеличивается полнота

поиска. С другой стороны, низкочастотные термины вносят относительно небольшой

вклад в поиск нужных документов, так как редкие термины дают малое число совпа-

дений образов запроса и документа. Но если они все же совпадают, то соответству-

ющий найденный документ почти наверняка является релевантным [, ].

Ширина и границы диапазона частот зависят от используемых механизмов по-

иска, а также от анализируемых документов, и отличаются друг от друга в разных

ИПС.

Во всех существующих методах индексирования применяется процедура ис-

ключения некоторых высокочастотных терминов, которые заведомо не являются

ценными для отражения содержания документа []. Для исключения общеупотреби-

тельных слов, к которым относятся предлоги, союзы, артикли, вспомогательные гла-

голы, частицы, местоимения и т. п., используются стоп-словари. Стоп-словарь

(стоп-лист, стоп-список, отрицательный словарь) – это словарь служебных и неин-

формативных терминов, которые не должны входить в число терминов индексации.

Число служебных слов в отрицательном словаре составляет обычно несколько со-

тен, в зависимости от системы.

2.4. Анализ информационных массивов

2.4.1. Понятие относительной частоты

Использование во время индексации частоты встречаемости термина в доку-

менте (абсолютной частоты) эффективно лишь в случае очень малого объема ин-

формационного массива. В действительности же современные массивы данных об-

разованы тысячами и десятками тысяч документов, а в Интернете доступны милли-

арды информационных объектов. Поскольку число слов, используемых при индекса-

ции, ограничено числом слов в естественном языке и стоп-словарем, для индекса-

ции разных документов использовались бы одни и те же термины. Применение абсо-

лютных значений частоты привело бы к резкому уменьшению точности поиска из-за

постоянного использования при индексировании высокочастотных терминов, кото-

рые встречаются в большинстве документов.

Один из методов усовершенствования этих грубых частотных параметров за-

ключается в использовании относительных частот терминов в массиве. При этом

частота появления термина в данном документе сравнивается с частотой появления

этого же термина во всем информационном массиве. Наиболее адекватным при ин-

Заказать работу

Введение в информационно-поисковые системы. Иванов В.К - 19 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Вы здесь

Введение в информационно-поисковые системы. Иванов В.К - 19 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Страницы