Статистические методы системного анализа. Гаибова Т.В - 15 стр.

UptoLike

Рубрика: 

15
3 Лабораторная работа 3. Применение кластерного
анализа для задач классификации при отсутствии априорной
информации
3.1 Теория вопроса
Кластерный анализ включает в себя набор различных алгоритмов
классификации для организации наблюдаемых данных в наглядные
структуры. Задачу классификации можно сформулировать следующим
образом /3/.
Имеется некоторое конечное множество объектов произвольной
природы, представленных совокупностью соответствующих векторов.
Необходимо классифицировать эти объекты, т.е. разбить их множество на
заданное или произвольное количество групп (кластеров, классов,
таксонов) таким образом, чтобы в каждую группу оказались включенными
объекты, близкие между собой в том или ином смысле. Априорная
информация о классификации объектов при этом отсутствует. Таким
образом, необходимо разбить множество векторов
X
на k попарно
непересекающихся классов
k
XX ,....,
1
так, чтобы
U
k
i
i
XX
1=
= , причем Mk
1 ,
где
M
- число векторов. Для оценки расстояния между двумя векторами
n
Ryx , могут быть использованы следующие меры:
1) евклидово расстояние:
2
1
)(
=
n
i
ii
yx ; (18)
2) квадрат евклидова расстояния:
2
1
)(
=
n
i
ii
yx ; (19)
3) расстояние городских кварталов (манхэттенское расстояние)
=
n
i
ii
yx
1
; (20)
3) расстояние Чебышева:
ii
yx max ; (21)
4) степенное расстояние:
=
n
i
r
p
ii
yx
1
1
)( (22)
где
r
p
, - параметры, задаваемые пользователем;
5) процент несогласия
число( iyx
ii
/)
.
3.2 Цель занятия
Закрепить теоретические знания и приобрести практические
навыки в обработке результатов кластерного анализа данных с
    3 Лабораторная работа №3. Применение кластерного
анализа для задач классификации при отсутствии априорной
информации

      3.1 Теория вопроса

       Кластерный анализ включает в себя набор различных алгоритмов
классификации для организации наблюдаемых данных в наглядные
структуры. Задачу классификации можно сформулировать следующим
образом /3/.
       Имеется некоторое конечное множество объектов произвольной
природы, представленных совокупностью соответствующих векторов.
Необходимо классифицировать эти объекты, т.е. разбить их множество на
заданное или произвольное количество групп (кластеров, классов,
таксонов) таким образом, чтобы в каждую группу оказались включенными
объекты, близкие между собой в том или ином смысле. Априорная
информация о классификации объектов при этом отсутствует. Таким
образом, необходимо разбить множество векторов X на k попарно
                                                                      k
непересекающихся классов X 1 ,...., X k так, чтобы                   UX     i   = X , причем 1 ≤ k ≤ M ,
                                                                     i =1

где M - число векторов. Для оценки расстояния между двумя векторами
x, y ∈ R n могут быть использованы следующие меры:
          1) евклидово расстояние:
                               n

                              ∑ (x
                              i =1
                                          i   − yi ) 2 ;                                      (18)
       2) квадрат евклидова расстояния:
                               n

                              ∑ (x
                              i =1
                                          i   − yi ) 2 ;                                      (19)
       3) расстояние городских кварталов (манхэттенское расстояние)
                                     n

                                   ∑x
                                   i =1
                                              i   − yi       ;                                (20)
       3) расстояние Чебышева:
                                   max xi − y i ;                                             (21)
       4) степенное расстояние:
                                     n                           1

                                   ∑ ( xi − y i ) r
                                                         p
                                                                                              (22)
                                   i =1

       где p, r - параметры, задаваемые пользователем;
       5) процент несогласия (число xi ≠ y i ) / i .

      3.2 Цель занятия

      Закрепить теоретические знания и приобрести практические
навыки в обработке результатов кластерного анализа данных с
15