Компьютерные решения задач многомерной статистики. Часть 1. Кластерный и дискриминантный анализ. Давнис В.В - 7 стр.

UptoLike

Рубрика: 

В случае, когда
Σ
является единичной матрицей, а
Λ
диагональной,
сходство между объектами измеряется величиной взвешенного Евклидова
расстояния
()
()
=
−=
p
j
kjijjki
xxw
1
2
., xx ρ (2.6)
Эта мера схожести применяется в тех случаях, когда каждому признаку
j
x
векторов наблюдений приписывается некоторый вес
j
w , пропорциональ-
ный степени важности
j
-го признака в решаемой задаче классификации.
Обычно
10
j
w
и
1
1
=
=
p
j
j
w
. Определение весовых коэффициентов, по
сути, является самостоятельной задачей, решение которой, чаще всего , по-
ручается экспертам.
Если все признаки измерены в номинальной шкале и задаются дихото-
мическими переменными, то степень схожести определяется с помощью
Хеммингово расстояния
()
=
−=
p
j
kjijki
xx
1
, xx ρ , (2.7)
равного числу несовпадений.
В некоторых случаях исходная информация об объектах, подлежащих
классификации, задается не признаковым пространством , а квадратной мат-
рицей
(
)
ik
r
=
R
, nki ,1, = , характеризующей взаимные расстояния между
объектами. Тогда отпадает необходимость в использовании выше рассмот-
ренных расстояний для определения меры сходства между объектами.
Наиболее распространенными алгоритмами кластерного анализа явля-
ется иерархические (деревообразные) процедуры . Они бывают двух типов:
агломеративные и дивизимные. В агломеративных алгоритмах начальным
является разбиение, состоящее из
n
- одноэлементных классов, а конечным
из одного класса . В дивизимных все наоборот: начальным является один
класс, а конечным
n
-одноэлементных классов.
Приницип, который положен в основу иерархических агломеративных
(дивизимных) алгоритмов, заключается в последовательном объединении
(разделении) групп элементов сначала самых близких (далеких), а затем все
более отдаленных (близких) друг от друга . Для реализации этого принципа
на каждом шаге классификации требуется построение матрицы взаимных
расстояний между объектами. Это делает чрезвычайно громоздкой вычис-
лительную схему, реализующую данный подход .
Более эффективным является метод классификации по дереву крат-
чайших расстояний, в котором оригинальна решена проблема пересчета
матрицы взаимных расстояний. В этом методе последовательно, шаг за ша-
     В сл у ча е, когд а Σ явл яет ся ед ин ичн ой м а т рицей, а Λ –д иа гон а л ь н ой,
сход ст во м еж д у объект а м и изм еряет ся вел ичин ой взве ше н н ого Евкл и дова
расстоян и я

                        ρ (x i , x k ) = ∑ w j (xij − xkj ) 2.
                                              p
                                                                                     (2.6)
                                             j =1
Э т а м ера схож ест и прим ен яет ся в т ех сл у ча ях, когд а ка ж д ом у призн а ку x j
векторов н а бл юд ен ий приписыва ет ся н екоторый вес w j , пропорцион а л ь -
н ый ст епен и ва ж н ост и j -го призн а ка в реш а ем ой за д а че кл а ссиф ика ции.
                             p
О бычн о 0 ≤ w j ≤ 1 и      ∑ w j = 1.       О пред ел ен ие весовых коэф ф ициен т ов, по
                             j =1
су т и, явл яет ся са м ост оят ел ь н ой за д а чей, реш ен ие кот орой, ча щ е всего, по-
ру ча ет ся эксперт а м .
      Е сл и все призн а ки изм ерен ы в н ом ин а л ь н ой ш ка л е и за д а ют ся д ихот о-
м ическим и перем ен н ым и, т о ст епен ь схож ест и опред ел яет ся с пом ощ ь ю
Хе м м и н гово расстоян и я
                                                     p
                                    ρ (xi , x k ) = ∑ xij − xkj ,                    (2.7)
                                                    j =1
ра вн ого числ у н есовпа д ен ий.
       В н екоторых сл у ча ях исход н а я ин ф орм а ция обобъект а х, под л еж а щ их
кл а ссиф ика ции, за д а ет ся н е призн а ковым прост ра н ст вом , а ква д ра т н ой м а т -
рицей R = (rik ) , i, k = 1, n , ха ра кт еризу ющ ей вза им н ые ра сст оян ия м еж д у
объект а м и. Т огд а от па д а ет н еобход им ость в испол ь зова н ии выш е ра ссм от -
рен н ых ра сстоян ий д л я опред ел ен ия м еры сход ст ва м еж д у объект а м и.
       Н а ибол ее ра спрост ра н ен н ым и а л горит м а м и кл а ст ерн ого а н а л иза явл я-
ет ся иера рхические (д еревообра зн ые) процед у ры. О н и быва ют д ву х т ипов:
а гл ом ера т ивн ые и д ивизим н ые. В а гл ом ера т ивн ых а л горит м а х н а ча л ь н ым
явл яет ся ра збиен ие, сост оящ ее из n - од н оэл ем ен т н ых кл а ссов, а кон ечн ым
–из од н ого кл а сса . В д ивизим н ых все н а оборот : н а ча л ь н ым явл яет ся од ин
кл а сс, а кон ечн ым –n -од н оэл ем ен т н ых кл а ссов.
       П рин ицип, который пол ож ен в осн ову иера рхических а гл ом ера т ивн ых
(д ивизим н ых) а л горит м ов, за кл юча ет ся в посл ед ова т ел ь н ом объед ин ен ии
(ра зд ел ен ии) гру пп эл ем ен тов сн а ча л а са м ых бл изких (д а л еких), а за т ем все
бол ее от д а л ен н ых (бл изких) д ру г от д ру га . Д л я реа л иза ции эт ого прин ципа
н а ка ж д ом ш а ге кл а ссиф ика ции требу ет ся пост роен ие м а трицы вза им н ых
ра сст оян ий м еж д у объект а м и. Э т о д ел а ет чрезвыча йн о гром озд кой вычис-
л ит ел ь н у ю схем у , реа л изу ющ у ю д а н н ый под ход .
       Бол ее эф ф ект ивн ым явл яется м етод кл а ссиф ика ции по д ереву кра т -
ча йш их ра сст оян ий, в кот ором оригин а л ь н а реш ен а пробл ем а пересчет а
м а т рицы вза им н ых ра сстоян ий. В эт ом м етод е посл ед ова т ел ь н о, ш а г за ш а -