Введение в информационно-поисковые системы - 17 стр.

UptoLike

Составители: 

эталонным документом, который заведомо принадлежит какому-либо определенно-
му классу. Эта мера часто вычисляется в зависимости от терминов, входящих в век-
торы этих документов, например по формуле (1.3). Поэтому классы документов не-
посредственно зависят от методов индексирования [, ].
2.2. Формирование рубрик
Типичный процесс формирования рубрик (классов) включает три основных про-
цесса (рис. Рис. 1) [].
Выбор рубрик
классификации
Распределение
информационных объектов
по рубрикам
Проверка свойств
классификации
Рис. 1. Процесс формирования рубрик
Во время начального процесса происходит определение рубрик. Часто эта опе-
рация сводится к выбору (в качестве центра исходных классов) объектов, размещен-
ных в плотных зонах пространства информационных объектов. Такими зонами обыч-
но считаются те, в окрестностях которых имеется большое количество подобных
объектов.
В процессе распределения информационные объекты систематизируются и
распределяются по имеющимся рубрикам путем отнесения объектов к тем классам,
с которыми они имеют достаточно высокий коэффициент подобия.
Завершающий этап связан с выполнением условий, при которых данный класс
считается окончательным и полным. Здесь устанавливается, удовлетворяют ли
сформированные рубрики заданному критерию классификации (например, обладают
ли они описанными в предыдущем параграфе свойствами).
Существует два основных метода классификации []:
1.Порождающие методы классификации по принципу снизу вверх.
2.Методы разбиения по принципу сверху вниз.
15