Компьютерные решения задач многомерной статистики. Часть 1. Кластерный и дискриминантный анализ. Давнис В.В - 4 стр.

UptoLike

Рубрика: 

2. КЛАСТЕРНЫЙ АНАЛИЗ
2.1. Теоретические основы
Кластерный анализ представляет собой статистические методы, ис-
пользуемые для классификации многомерных объектов или событий в от -
носительно однородные группы, которые называют кластерами. Объекты в
каждом кластере должны быть похожи друг на друга в большей степени,
чем на объекты других классов, и отличаться от объектов других кластеров
сильнее, чем от объектов собственного класса . Кластерный анализ также
называют классификационным анализом или численной таксономией.
В экономике он используется для достижения следующих целей: сег-
ментации рынка , изучения поведения покупателей, определения конкурен -
тоспособности нового товара , сокращения размерности данных и др.
Обычно в задачах кластерного анализа исходные данные представляют
в форме прямоугольной таблицы , каждая строка которой представляет ре -
зультат измерения
p
признаков на соответствующем объекте:
,
21
22221
11211
=
npnn
p
p
xxx
xxx
xxx
L
MLMM
L
L
X
(2.1)
где
n
число объектов, подлежащих классификации.
Числовые значения признаков, входящих в матрицу , могут соответст -
вовать трем типам переменных: качественным , ранговым и количествен -
ным. Качественные переменные, как правило, принимают два и более зна-
чений, которым , хотя и можно поставить в соответствие некоторые числа,
но эти числа не будут отражать какую-либо упорядоченность значений ка -
чественных переменных. И это нужно учитывать при определении близо -
сти. Значения ранговых переменных, в отличие от качественных, упорядо-
чены. Их можно пронумеровать натуральными числами. Однако арифмети-
ческие операции над этими числами не имеют смысла. Количественные пе-
ременные обладают свойством упорядоченности, и над ними, в отличие от
других, можно приводить арифметические операции.
Желательно, чтобы вся таблица исходных данных соответствовала од -
ному типу переменных. Если это не так, то разные типы переменных ста-
раются свести к какому -то одному типу переменных. Самый простой явля-
ется процедура сведения к качественным переменным . Суть этой процеду-
ры в следующем . Если есть количественные данные, то они сначала сводят-
ся к ранговым, для чего область значений количественных переменных раз-
бивается на интервалы, которые нумеруются числами натурального ряда.
Ранговые переменные можно считать качественными, если не учитывать
упорядоченность их значений. В свою очередь, качественные переменные
                            2. К Л А С Т ЕРН Ы Й А Н А Л И З

       2.1. Т ео рети чес к и е о с но вы
       К ласте рн ы й ан ал и з пред ст а вл яет собой ст а т ист ические м ет од ы, ис-
пол ь зу ем ые д л я кл а ссиф ика ции м н огом ерн ых объектов ил и событ ий в от -
н осит ел ь н о од н ород н ые гру ппы, которые н а зыва ют кл а ст ера м и. О бъект ы в
ка ж д ом кл а ст ере д ол ж н ы быт ь похож и д ру г н а д ру га в бол ь ш ей ст епен и,
чем н а объект ы д ру гих кл а ссов, и от л ича т ь ся от объект ов д ру гих кл а ст еров
сил ь н ее, чем от объект ов собст вен н ого кл а сса . К л а ст ерн ый а н а л из та кж е
н а зыва ют кл а ссиф ика цион н ым а н а л изом ил и числ ен н ой т а ксон ом ией.
       В экон ом ике он испол ь зу ет ся д л я д ост иж ен ия сл ед у ющ их цел ей: сег-
м ен т а ции рын ка , изу чен ия повед ен ия поку па т ел ей, опред ел ен ия кон ку рен -
т оспособн ост и н ового т ова ра , сокра щ ен ия ра зм ерн ост и д а н н ых и д р.
       О бычн о в за д а ча х кл а ст ерн ого а н а л иза исход н ые д а н н ые пред ст а вл яют
в ф орм е прям оу гол ь н ой т а бл ицы, ка ж д а я ст рока кот орой пред ст а вл яет ре-
зу л ь т а т изм ерен ия p призн а ков н а соответст ву ющ ем объект е:
                             x11       x12    L x1 p 
                                                     
                             x21       x22    L x2 p 
                          X=
                                               L M 
                                                       ,                             (2.1)
                               M         M
                                                     
                             xn1       xn 2   L xnp 
                            
гд е n –числ о объектов, под л еж а щ их кл а ссиф ика ции.
      Ч исл овые зн а чен ия призн а ков, вход ящ их в м а трицу , м огу т соот вет ст -
вова т ь т рем т ипа м перем ен н ых: ка чест вен н ым , ра н говым и кол ичествен -
н ым . К аче стве н н ы е пере м е н н ы е , ка к пра вил о, прин им а ют д ва и бол ее зн а -
чен ий, кот орым , хот я и м ож н о пост а вит ь в соот вет ст вие н екоторые числ а ,
н о эт и числ а н е бу д у т от ра ж а т ь ка ку ю-л ибо у поряд очен н ост ь зн а чен ий ка -
чествен н ых перем ен н ых. И это н у ж н о у чит ыва т ь при опред ел ен ии бл изо-
ст и. З н а чен ия ран говы х пере м е н н ы х , в от л ичие от ка чест вен н ых, у поряд о-
чен ы. Их м ож н о прон у м ерова т ь н а т у ра л ь н ым и числ а м и. О д н а ко а риф м ет и-
ческие опера ции н а д эт им и числ а м и н е им еют см ысл а . К оли че стве н н ы е пе -
ре м е н н ы е обл а д а ют свойст вом у поряд очен н ост и, и н а д н им и, в от л ичие от
д ру гих, м ож н о привод ит ь а риф м ет ические опера ции.
      Ж ел а т ел ь н о, чт обы вся т а бл ица исход н ых д а н н ых соот вет ст вова л а од -
н ом у т ипу перем ен н ых. Е сл и это н е т а к, то ра зн ые т ипы перем ен н ых ст а -
ра ют ся свест и к ка ком у -то од н ом у т ипу перем ен н ых. Са м ый прост ой явл я-
ет ся процед у ра свед ен ия к ка чест вен н ым перем ен н ым . Су т ь этой процед у -
ры в сл ед у ющ ем . Е сл и ест ь кол ичест вен н ые д а н н ые, т о он и сн а ча л а свод ят -
ся к ра н говым , д л я чего обл а сть зн а чен ий кол ичест вен н ых перем ен н ых ра з-
бива ет ся н а ин т ерва л ы, которые н у м еру ют ся числ а м и н а т у ра л ь н ого ряд а .
Ра н говые перем ен н ые м ож н о счит а т ь ка чест вен н ым и, есл и н е у чит ыва т ь
у поряд очен н ост ь их зн а чен ий. В свою очеред ь , ка чест вен н ые перем ен н ые