Введение в информационно-поисковые системы - 16 стр.

UptoLike

Составители: 

новых свойств объектов, устранение уже выделенных свойств, а также исправление
незначительных ошибок вызовут лишь незначительные изменения в самих классах.
В классификациях, используемых в ИПС, обычно стараются получать устойчи-
вые классы терминов и документов особенно потому, что векторы свойств, характе-
ризующие объекты, не всегда точны и надежны. Это связано, например, с тем, что
некоторые термины, несущие важную смысловую нагрузку, могут игнорироваться
при автоматическом анализе содержания документов.
Системы классификации имеют также ряд формальных свойств []. Если все
члены одного и того же класса обладают одним общим признаком, то классификация
называется монотетической. В противном случае классификация становится полите-
тической. Классы могут быть непересекающимися, где объекты относятся самое
большее к одному классу, и пересекающимися. Наконец, классификация может быть
упорядоченной путем установления систематических отношений между различными
классами, а может быть и неупорядоченной.
В процессе разработки и проектирования систем классификации во всех случа-
ях предпочтительнее менее жесткие требования. Обычно ни документы, ни термины
не бывают определены настолько точно, чтобы имело смысл строить монотетиче-
ские классификации терминов или документов. По этой же причине наилучшими
классами должны считаться пересекающиеся классы, чтобы элемент (термин или
документ) мог включаться более чем в один класс.
В некоторых случаях целесообразно создание либо упорядоченных классифи-
каций терминов (иерархий терминов), либо упорядоченных классов документов. Од-
нако, когда не налагается никаких специальных требований, неупорядоченная клас-
сификация, как правило, дает более адекватное деление на классы. Таким образом,
в общем случае наиболее предпочтительными являются политетические пересекаю-
щиеся неупорядоченные классификации.
В любой ИПС существует тесная взаимосвязь между индексированием и клас-
сификацией. Часто два этих процесса осуществляются параллельно. Целью класси-
фикации терминов является формирование для каждого термина дополнительных
заместителей. Эти же термины используются и для идентификации документов.
Представление и классификация документов в ИПС также связаны между со-
бой. При индексации каждому документу обычно сопоставляется некоторый набор
индексационных терминов. Поэтому фактически используемые термины непосред-
ственно оказывают влияние как на классификацию терминов, так и на классифика-
цию документов. Например, во время автоматической классификации документов
определяется мера близости между классифицируемым документом и некоторым
14