Практикум по теории систем и системному анализу. Светлов Н.М. - 34 стр.

UptoLike

Составители: 

67
5. Проверка существенности связи между
переменными с помощью однофакторного
дисперсионного анализа
Однофакторный дисперсионный анализ проверяет гипотезу о равен-
стве дисперсий некоторой нормально распределённой переменной в не-
скольких выборках. Отклонение этой гипотезы указывает, что различие
между выборками заведомо не случайно, и тем самым выявляет существо-
вание зависимости между признаком, по которому осуществлялись выбор-
ки, и данной переменной.
Таким образом, он может быть использован для проверки наличия
существенной связи между двумя переменными, из которых по крайней
мере одна дискретна, а другая подчиняется нормальному закону распреде-
ления. Практически приемлемые результаты достигаются также для слу-
чая гамма-распределения: доверять им можно тем в большей степени, чем
меньше его асимметрия.
Для выполнения однофакторного дисперсионного анализа в Excel
следует расположить значения нормально распределённой переменной
(она может быть как непрерывной, так и дискретной, но, разумеется, чи-
словой; следовательно, процедуру можно проводить как до, так и после
дискретизации переменной, выступающей в качестве зависимой), соответ-
ствующие разным значениям дискретного влияющего фактора (он может
быть как числовым, так и нечисловым), в соседних столбцах. Число зна-
чений переменной в разных столбцах может быть различным. Над каждым
столбцом указывают соответствующее значение влияющего фактора.
Далее следует подключить надстройку «Анализ данных» (если она
не подключена) и дать команду Сервис ® Анализ данных либо Дан-
ные ® Анализ данных, смотря по версии программы. В качестве вход-
ного нужно указать интервал, охватывающий все ячейки со значениями
нормально распределённой переменной и притом не содержащий никаких
других текстовых или числовых данных, кроме меток влияющего фактора
в его первой строке. Переключатели Группирование: по столбцам и
Метки в первой строке должны быть включены. Выходной интервал
указывается таким образом, чтобы выводимые в него данные не перезапи-
сали уже имеющиеся (рекомендуется выводить результаты на новый лист).
68
Если по результатам анализа p-значение (уровень значимости) ока-
залось ниже величины
1
, дополняющей желаемый уровень доверия до еди-
ницы (например, меньше 0,05), то гипотеза о равенстве дисперсий пере-
менной при разных значениях влияющего фактора отвергается, что озна-
чает наличие связи между ним и нормально распределённой зависимой
переменной.
Применяя дисперсионный анализ в целях практикума, следует
иметь в виду, что в качестве влияющей переменной всегда выбирается
входная, а в качестве зависимой (нормально распределённой) может быть
использована как входная, так и выходная переменная. Основаниями для
исключения входной переменной из модели могут быть:
¨ невозможность отвергнуть гипотезу о равенстве дисперсий вы-
ходной переменной при разных значениях данной входной переменной
2
;
¨ отвергнутая гипотеза о равенстве дисперсий одной входной пе-
ременной при разных значениях другой.
В процедурах системного анализа, выполняемого по данной методи-
ке, нет необходимости использовать многофакторный дисперсионный ана-
лиз, более требовательный к числу наблюдений, так как формализм ус-
ловных вероятностей требует независимости входных переменных. При
данных обстоятельствах процедура однофакторного дисперсионного анали-
за даёт достаточные основания для принятия решения о наборе перемен-
ных, включаемых в модель.
6. Процедура расчёта энтропии, снимаемой с
переменной информацией о значении другой
переменной
Полная энтропия зависимой дискретной переменной на основе
имеющихся эмпирических данных рассчитывается следующим образом:
¨ если исходные данные по переменной дискретныпо формуле
1
Алгоритм расчёта приведён, например, в издании: Красс М.С., Чупрынов Б.П.
Математические методы и модели для магистрантов экономики: Учеб. пособие. СПБ.:
Питер, 2006. С. 171-172.
2
При большом числе входных переменных влияние каждой из них может быть
весьма слабым. В этом случае при использовании однофакторного дисперсионного ана-
лиза в целях определения набора входных переменных, включаемых в модель, следует
использовать уровни доверия, очень близкие к единице.
         5. Проверка существенности связи между                                 Если по результатам анализа p-значение (уровень значимости) ока-
         переменными с помощью однофакторного                            залось ниже величины1, дополняющей желаемый уровень доверия до еди-
                 дисперсионного анализа                                  ницы (например, меньше 0,05), то гипотеза о равенстве дисперсий пере-
                                                                         менной при разных значениях влияющего фактора отвергается, что озна-
       Однофакторный дисперсионный анализ проверяет гипотезу о равен-    чает наличие связи между ним и нормально распределённой зависимой
стве дисперсий некоторой нормально распределённой переменной в не-       переменной.
скольких выборках. Отклонение этой гипотезы указывает, что различие             Применяя дисперсионный анализ в целях практикума, следует
между выборками заведомо не случайно, и тем самым выявляет существо-     иметь в виду, что в качестве влияющей переменной всегда выбирается
вание зависимости между признаком, по которому осуществлялись выбор-     входная, а в качестве зависимой (нормально распределённой) может быть
ки, и данной переменной.                                                 использована как входная, так и выходная переменная. Основаниями для
       Таким образом, он может быть использован для проверки наличия     исключения входной переменной из модели могут быть:
существенной связи между двумя переменными, из которых по крайней               ¨ невозможность отвергнуть гипотезу о равенстве дисперсий вы-
мере одна дискретна, а другая подчиняется нормальному закону распреде-   ходной переменной при разных значениях данной входной переменной2;
ления. Практически приемлемые результаты достигаются также для слу-             ¨ отвергнутая гипотеза о равенстве дисперсий одной входной пе-
чая гамма-распределения: доверять им можно тем в большей степени, чем    ременной при разных значениях другой.
меньше его асимметрия.                                                          В процедурах системного анализа, выполняемого по данной методи-
       Для выполнения однофакторного дисперсионного анализа в Excel      ке, нет необходимости использовать многофакторный дисперсионный ана-
следует расположить значения нормально распределённой переменной         лиз, более требовательный к числу наблюдений, так как формализм ус-
(она может быть как непрерывной, так и дискретной, но, разумеется, чи-   ловных вероятностей требует независимости входных переменных. При
словой; следовательно, процедуру можно проводить как до, так и после     данных обстоятельствах процедура однофакторного дисперсионного анали-
дискретизации переменной, выступающей в качестве зависимой), соответ-    за даёт достаточные основания для принятия решения о наборе перемен-
ствующие разным значениям дискретного влияющего фактора (он может        ных, включаемых в модель.
быть как числовым, так и нечисловым), в соседних столбцах. Число зна-
чений переменной в разных столбцах может быть различным. Над каждым                 6. Процедура расчёта энтропии, снимаемой с
столбцом указывают соответствующее значение влияющего фактора.                      переменной информацией о значении другой
       Далее следует подключить надстройку «Анализ данных» (если она                                переменной
не подключена) и дать команду Сервис ® Анализ данных либо Дан-
ные ® Анализ данных, смотря по версии программы. В качестве вход-             Полная энтропия зависимой дискретной переменной на основе
ного нужно указать интервал, охватывающий все ячейки со значениями       имеющихся эмпирических данных рассчитывается следующим образом:
нормально распределённой переменной и притом не содержащий никаких            ¨ если исходные данные по переменной дискретны — по формуле
других текстовых или числовых данных, кроме меток влияющего фактора
в его первой строке. Переключатели Группирование: по столбцам и
Метки в первой строке должны быть включены. Выходной интервал
указывается таким образом, чтобы выводимые в него данные не перезапи-           1
                                                                                  Алгоритм расчёта приведён, например, в издании: Красс М.С., Чупрынов Б.П.
сали уже имеющиеся (рекомендуется выводить результаты на новый лист).    Математические методы и модели для магистрантов экономики: Учеб. пособие. СПБ.:
                                                                         Питер, 2006. — С. 171-172.
                                                                                2
                                                                                  При большом числе входных переменных влияние каждой из них может быть
                                                                         весьма слабым. В этом случае при использовании однофакторного дисперсионного ана-
                                                                         лиза в целях определения набора входных переменных, включаемых в модель, следует
                                                                         использовать уровни доверия, очень близкие к единице.

                                                                   67    68