ВУЗ:
Составители:
Рубрика:
99
Пусть в нашем распоряжении есть 11 объектов, у которых измеряется
одна характеристика, то есть имеет место одномерный случай. Результаты
измерений в табл. 9.4.
Таблица 9.4.Исходные данные для кластеризации
Объекты 1 2 3 4 5 6 7 8 9 10 11
Результаты
измерений
8 4 2 2 4 8 2 6 4 8 2
Рассчитаем сумму квадратов отклонений:
(
)
27,64
11
1
2
=−
∑
=
i
i
xx .
Если теперь все эмпирическое множество данных разбить на 4
подмножества:
{}
8,8,8
1
=
А ,
{
}
4,4,4
2
=
А ,
{
}
2,2,2,2
3
=
А ,
{}
6
4
=А ,
то все внутриподмножественные суммы квадратов отклонений будут равны
0. В приведенном случае разбиение было очевидным и естественным. В
общем случае все несколько сложнее.
Пусть каждый
k-й объект характеризуется вектором измерений
)(k
x
,
имеющим длину
p. Тогда его можно представить как точку в p-мерном
пространстве. Пара объектов O
k
и O
l
будет попадать в один кластер, если
расстояние между ними будет мало.
Введем понятие расстояния между точками в
p-мерном пространстве.
Евклидово расстояние между точками определяется формулой
()
()
2
1
,
∑
=
−=
p
i
ikilkl
xxxxd ,
где
x
li
и x
ki
– i-е координаты векторов.
Расстояние Махаланобиса
()
(
)
(
)
k
l
T
k
l
k
l
xxWxxxxD −−=
−
12
,,
где W
-1
матрица, обратная матрице полной суммы квадратов и
произведений (матрица рассеяния).
Примеры наиболее успешного применения кластерного анализа
относятся к тем случаям, когда имеющаяся в наличии у экспериментаторов
предварительная информация позволяет заранее определить число
кластеров.
Пример. Проведем кластерный анализ для эмпирических данных о
политических предпочтениях респондентов.
Результаты представим в табл. 9.5. В качестве меры расстояния
использовалось расстояние Махаланобиса.
Страницы
- « первая
- ‹ предыдущая
- …
- 97
- 98
- 99
- 100
- 101
- …
- следующая ›
- последняя »