ВУЗ:
Составители:
Рубрика:
ду тематическими классами призваны подчеркнуть определенные типы предметных
ассоциаций и одновременно пренебречь другими. Статичный характер общеприня-
тых классификационных схем порождает проблемы в случае расширение предмет-
ных областей и развития знаний. Существующие иерархические схемы весьма слож-
ны, и на практике часто оказываются обязательными ручные (неавтоматические)
процессы классификации. Это приводит к тому, что согласованности между разными
системами классификации и поиска в процессах анализа содержания и распределе-
ния документов по рубрикам добиться трудно [, , ].
2.1. Основные свойства классификации
В ИПС процесс классификации документов происходит во время их индексиро-
вания. Термины запроса распределяются по рубрикам классификатора непосред-
ственно во время поиска. В обоих случаях документы и термины составляют множе-
ство классифицируемых объектов. Если множество объектов необходимо сопоста-
вить множеству классов, обычно требуется, чтобы получающаяся при этом класси-
фикация обладала следующими свойствами []:
1.Классификация должна быть корректно определенной так, чтобы для любого
заданного множества данных получался один результат.
2.Результаты классификации не должны зависеть от порядка обработки объек-
тов (независимость от порядка), то есть любая перестановка анализируемых
объектов не должна влиять на результат классификации.
3.Классификация должна быть устойчивой: незначительные изменения данных
должны вызывать незначительные изменения результатов классификации.
4.Классификация должна быть независимой от масштаба, поскольку умноже-
ние на константу значений характеристик, идентифицирующих объекты (идентифи-
каторов классов), не должно влиять на классификацию.
5.Объекты, обладающие большим сходством, не должны оказываться отнесен-
ными к разным классам.
Первые два свойства (корректность определения и независимость от порядка)
взаимосвязаны. Они могут быть обеспечены только при условии предварительного
анализа всех возможных подмножеств объектов, удовлетворяющих классификаци-
онным критериям. Однако при большом количестве объектов, подлежащих класси-
фицированию, такой исчерпывающий анализ может потребовать значительных за-
трат времени, что имеет место, например, в сети Интернет.
Если первый и второй критерии не удовлетворяются, то особую важность при-
обретает критерий устойчивости классификации. Он гарантирует, что добавление
13
Страницы
- « первая
- ‹ предыдущая
- …
- 13
- 14
- 15
- 16
- 17
- …
- следующая ›
- последняя »