Компьютерные решения задач многомерной статистики. Часть 1. Кластерный и дискриминантный анализ. Давнис В.В - 6 стр.

UptoLike

Рубрика: 

некоторой функции
(
)
ki
r xx , , характеризующей близость
i
-го и
k
-го объ -
ектов, либо по величине расстояния
(
)
ki
xx ,
ρ
между объектами, имея вви-
ду, что каждый объект может быть представлен точкой
p
-мерного про -
странства . Для функции схожести
(
)
ki
r xx , должны выполняться условия
симметрии, т.е.
(
)
(
)
ikki
rr xxxx ,,
=
, и условие максимального сходства с
самим собой
(
)
(
)
ki
k
ii
rr xxxx ,max,
=
. Для
(
)
ki
xx ,
ρ
эти условия выполня-
ются автоматически.
Выбор меры сходства является одним из узловых моментов в задачах
классификации, так как от нее, в основном , зависит при данном алгоритме
классификации окончательный вариант разбиения объектов на классы. В
каждом конкретном случае этот выбор осуществляется в зависимости от
цели исследования и природы самих классифицируемых объектов. В самом
общем случае, когда между показателями объектов существует взаимосвязь
и , кроме того, они имеют различную степень значимости для проводимой
классификации, используют обобщенное (взвешенное) расстояние Махала-
нобиса
T
ki
T
kiki
)()(),(
1
xxxxxx ΛΣΛ−=
ρ
, (2.4)
где
1
Σ
ковариационная матрица генеральной совокупности, из которой
извлечены наблюдения (объекты, подлежащие классификации);
Λ
некоторая симметрическая неотрицательно-определенная матрица
весовых коэффициентов (как правило, это матрица диагональная).
Во многих ситуациях для определения сходства между объектами ис-
пользуются частные случаи расстояния Махаланобиса . Так, при единичных
Λ
и
Σ
из (2.4) получается обычное Евклидово расстояние
()
()
=
−=
p
j
kjijki
xx
1
2
., xx ρ
(2.5)
Определять похожесть по этому расстоянию обычно рекомендуется в тех
случаях, когда:
1) наблюдения извлечены из генеральных совокупностей, имеющих
многомерное нормальное распределение с диагональной ковариационной
матрицей, а все компоненты векторов наблюдений
ki
xx ,
взаимно незави-
симы и имеют одну и ту же дисперсию;
2) все компоненты векторов наблюдений
ki
xx ,
одинаково важны для
классификации;
3) интуитивное представление о степени схожести между объектами
совпадает с понятием геометрического расстояния между ними в признако-
вом пространстве.
н екоторой ф у н кции r (x i , x k ), ха ра кт еризу ющ ей бл изость i -го и k -го объ-
ектов, л ибо по вел ичин е ра сст оян ия ρ (x i , x k ) м еж д у объект а м и, им ея вви-
д у , что ка ж д ый объект м ож ет быт ь пред ст а вл ен точкой p -м ерн ого про-
ст ра н ст ва . Д л я ф у н кции схож ест и r (x i , x k ) д ол ж н ы выпол н ят ь ся у сл овия
сим м ет рии, т .е. r (x i , x k ) = r (x k , x i ) , и у сл овие м а ксим а л ь н ого сход ст ва с
са м им собой r (x i , x i ) = max r (x i , x k ) . Д л я ρ (x i , x k ) эт и у сл овия выпол н я-
                                  k
ют ся а вт ом а т ически.
      В ыбор м еры сход ст ва явл яет ся од н им из у зл овых м ом ен т ов в за д а ча х
кл а ссиф ика ции, т а к ка к от н ее, в осн овн ом , за висит при д а н н ом а л горит м е
кл а ссиф ика ции окон ча тел ь н ый ва риа н т ра збиен ия объектов н а кл а ссы. В
ка ж д ом кон крет н ом сл у ча е эт от выбор осу щ ест вл яет ся в за висим ост и от
цел и иссл ед ова н ия и природ ы са м их кл а ссиф ициру ем ых объект ов. В са м ом
общ ем сл у ча е, когд а м еж д у пока за т ел ям и объект ов су щ ест ву ет вза им освязь
и, кром е т ого, он и им еют ра зл ичн у ю ст епен ь зн а чим ост и д л я провод им ой
кл а ссиф ика ции, испол ь зу ют обобщ ен н ое (взвеш ен н ое) расстоян и е М ахал а-
н оби са
                    ρ ( xi , x k ) = (x i − x k )ΛT Σ −1Λ( xi − x k )T ,               (2.4)
гд е Σ −1 –кова риа цион н а я м а т рица ген ера л ь н ой совоку пн ост и, из которой
извл ечен ы н а бл юд ен ия (объект ы, под л еж а щ ие кл а ссиф ика ции);
    Λ – н екот ора я сим м етрическа я н еот рица т ел ь н о-опред ел ен н а я м а трица
весовых коэф ф ициен т ов (ка к пра вил о, эт о м а трица д иа гон а л ь н а я).
    В о м н огих сит у а циях д л я опред ел ен ия сход ства м еж д у объект а м и ис-
пол ь зу ют ся ча ст н ые сл у ча и ра сст оян ия М а ха л а н обиса . Т а к, при ед ин ичн ых
Λ и Σ из (2.4) пол у ча ет ся обычн ое Евкл и дово расстоян и е

                                              ∑ (xij − xkj ) 2.
                                               p
                           ρ (x i , x k ) =                                             (2.5)
                                              j =1
О пред ел ят ь похож ест ь по эт ом у ра сстоян ию обычн о реком ен д у ет ся в т ех
сл у ча ях, когд а :
       1) н а бл юд ен ия извл ечен ы из ген ера л ь н ых совоку пн ост ей, им еющ их
м н огом ерн ое н орм а л ь н ое ра спред ел ен ие с д иа гон а л ь н ой кова риа цион н ой
м а т рицей, а все ком пон ен т ы векторов н а бл юд ен ий x i , x k вза им н о н еза ви-
сим ы и им еют од н у и т у ж е д исперсию;
       2) все ком пон ен т ы вект оров н а бл юд ен ий x i , x k од ин а ково ва ж н ы д л я
кл а ссиф ика ции;
       3) ин т у ит ивн ое пред ст а вл ен ие о ст епен и схож ест и м еж д у объект а м и
совпа д а ет с пон ят ием геом етрического ра сстоян ия м еж д у н им и в призн а ко-
вом прост ра н ст ве.