ВУЗ:
Составители:
Рубрика:
67
5. Проверка существенности связи между
переменными с помощью однофакторного
дисперсионного анализа
Однофакторный дисперсионный анализ проверяет гипотезу о равен-
стве дисперсий некоторой нормально распределённой переменной в не-
скольких выборках. Отклонение этой гипотезы указывает, что различие
между выборками заведомо не случайно, и тем самым выявляет существо-
вание зависимости между признаком, по которому осуществлялись выбор-
ки, и данной переменной.
Таким образом, он может быть использован для проверки наличия
существенной связи между двумя переменными, из которых по крайней
мере одна дискретна, а другая подчиняется нормальному закону распреде-
ления. Практически приемлемые результаты достигаются также для слу-
чая гамма-распределения: доверять им можно тем в большей степени, чем
меньше его асимметрия.
Для выполнения однофакторного дисперсионного анализа в Excel
следует расположить значения нормально распределённой переменной
(она может быть как непрерывной, так и дискретной, но, разумеется, чи-
словой; следовательно, процедуру можно проводить как до, так и после
дискретизации переменной, выступающей в качестве зависимой), соответ-
ствующие разным значениям дискретного влияющего фактора (он может
быть как числовым, так и нечисловым), в соседних столбцах. Число зна-
чений переменной в разных столбцах может быть различным. Над каждым
столбцом указывают соответствующее значение влияющего фактора.
Далее следует подключить надстройку «Анализ данных» (если она
не подключена) и дать команду Сервис ® Анализ данных либо Дан-
ные ® Анализ данных, смотря по версии программы. В качестве вход-
ного нужно указать интервал, охватывающий все ячейки со значениями
нормально распределённой переменной и притом не содержащий никаких
других текстовых или числовых данных, кроме меток влияющего фактора
в его первой строке. Переключатели Группирование: по столбцам и
Метки в первой строке должны быть включены. Выходной интервал
указывается таким образом, чтобы выводимые в него данные не перезапи-
сали уже имеющиеся (рекомендуется выводить результаты на новый лист).
68
Если по результатам анализа p-значение (уровень значимости) ока-
залось ниже величины
1
, дополняющей желаемый уровень доверия до еди-
ницы (например, меньше 0,05), то гипотеза о равенстве дисперсий пере-
менной при разных значениях влияющего фактора отвергается, что озна-
чает наличие связи между ним и нормально распределённой зависимой
переменной.
Применяя дисперсионный анализ в целях практикума, следует
иметь в виду, что в качестве влияющей переменной всегда выбирается
входная, а в качестве зависимой (нормально распределённой) может быть
использована как входная, так и выходная переменная. Основаниями для
исключения входной переменной из модели могут быть:
¨ невозможность отвергнуть гипотезу о равенстве дисперсий вы-
ходной переменной при разных значениях данной входной переменной
2
;
¨ отвергнутая гипотеза о равенстве дисперсий одной входной пе-
ременной при разных значениях другой.
В процедурах системного анализа, выполняемого по данной методи-
ке, нет необходимости использовать многофакторный дисперсионный ана-
лиз, более требовательный к числу наблюдений, так как формализм ус-
ловных вероятностей требует независимости входных переменных. При
данных обстоятельствах процедура однофакторного дисперсионного анали-
за даёт достаточные основания для принятия решения о наборе перемен-
ных, включаемых в модель.
6. Процедура расчёта энтропии, снимаемой с
переменной информацией о значении другой
переменной
Полная энтропия зависимой дискретной переменной на основе
имеющихся эмпирических данных рассчитывается следующим образом:
¨ если исходные данные по переменной дискретны — по формуле
1
Алгоритм расчёта приведён, например, в издании: Красс М.С., Чупрынов Б.П.
Математические методы и модели для магистрантов экономики: Учеб. пособие. СПБ.:
Питер, 2006. — С. 171-172.
2
При большом числе входных переменных влияние каждой из них может быть
весьма слабым. В этом случае при использовании однофакторного дисперсионного ана-
лиза в целях определения набора входных переменных, включаемых в модель, следует
использовать уровни доверия, очень близкие к единице.
5. Проверка существенности связи между Если по результатам анализа p-значение (уровень значимости) ока- переменными с помощью однофакторного залось ниже величины1, дополняющей желаемый уровень доверия до еди- дисперсионного анализа ницы (например, меньше 0,05), то гипотеза о равенстве дисперсий пере- менной при разных значениях влияющего фактора отвергается, что озна- Однофакторный дисперсионный анализ проверяет гипотезу о равен- чает наличие связи между ним и нормально распределённой зависимой стве дисперсий некоторой нормально распределённой переменной в не- переменной. скольких выборках. Отклонение этой гипотезы указывает, что различие Применяя дисперсионный анализ в целях практикума, следует между выборками заведомо не случайно, и тем самым выявляет существо- иметь в виду, что в качестве влияющей переменной всегда выбирается вание зависимости между признаком, по которому осуществлялись выбор- входная, а в качестве зависимой (нормально распределённой) может быть ки, и данной переменной. использована как входная, так и выходная переменная. Основаниями для Таким образом, он может быть использован для проверки наличия исключения входной переменной из модели могут быть: существенной связи между двумя переменными, из которых по крайней ¨ невозможность отвергнуть гипотезу о равенстве дисперсий вы- мере одна дискретна, а другая подчиняется нормальному закону распреде- ходной переменной при разных значениях данной входной переменной2; ления. Практически приемлемые результаты достигаются также для слу- ¨ отвергнутая гипотеза о равенстве дисперсий одной входной пе- чая гамма-распределения: доверять им можно тем в большей степени, чем ременной при разных значениях другой. меньше его асимметрия. В процедурах системного анализа, выполняемого по данной методи- Для выполнения однофакторного дисперсионного анализа в Excel ке, нет необходимости использовать многофакторный дисперсионный ана- следует расположить значения нормально распределённой переменной лиз, более требовательный к числу наблюдений, так как формализм ус- (она может быть как непрерывной, так и дискретной, но, разумеется, чи- ловных вероятностей требует независимости входных переменных. При словой; следовательно, процедуру можно проводить как до, так и после данных обстоятельствах процедура однофакторного дисперсионного анали- дискретизации переменной, выступающей в качестве зависимой), соответ- за даёт достаточные основания для принятия решения о наборе перемен- ствующие разным значениям дискретного влияющего фактора (он может ных, включаемых в модель. быть как числовым, так и нечисловым), в соседних столбцах. Число зна- чений переменной в разных столбцах может быть различным. Над каждым 6. Процедура расчёта энтропии, снимаемой с столбцом указывают соответствующее значение влияющего фактора. переменной информацией о значении другой Далее следует подключить надстройку «Анализ данных» (если она переменной не подключена) и дать команду Сервис ® Анализ данных либо Дан- ные ® Анализ данных, смотря по версии программы. В качестве вход- Полная энтропия зависимой дискретной переменной на основе ного нужно указать интервал, охватывающий все ячейки со значениями имеющихся эмпирических данных рассчитывается следующим образом: нормально распределённой переменной и притом не содержащий никаких ¨ если исходные данные по переменной дискретны — по формуле других текстовых или числовых данных, кроме меток влияющего фактора в его первой строке. Переключатели Группирование: по столбцам и Метки в первой строке должны быть включены. Выходной интервал указывается таким образом, чтобы выводимые в него данные не перезапи- 1 Алгоритм расчёта приведён, например, в издании: Красс М.С., Чупрынов Б.П. сали уже имеющиеся (рекомендуется выводить результаты на новый лист). Математические методы и модели для магистрантов экономики: Учеб. пособие. СПБ.: Питер, 2006. — С. 171-172. 2 При большом числе входных переменных влияние каждой из них может быть весьма слабым. В этом случае при использовании однофакторного дисперсионного ана- лиза в целях определения набора входных переменных, включаемых в модель, следует использовать уровни доверия, очень близкие к единице. 67 68
Страницы
- « первая
- ‹ предыдущая
- …
- 32
- 33
- 34
- 35
- 36
- …
- следующая ›
- последняя »