Практикум по теории систем и системному анализу. Светлов Н.М. - 32 стр.

UptoLike

Составители: 

63
за тем, чтобы как фактическая, так и теоретическая численность наблюде-
ний в каждом классе была не меньше 68. Если это не выполняется, ма-
лочисленные классы объединяют; при этом численность классов не долж-
на оказаться меньше пяти. В случае невыполнимости этих требований
критерию
c
2
доверять нельзя
1
. Если данная процедура порождает очень
много пустых классов, а случайная величина строго положительна, то це-
лесообразно перейти к исследованию распределения её логарифмов.
Численность наблюдений, относящихся к каждому классу, обычно
определяется по ранжированному ряду наблюдаемых данных с помощью
функции Excel =СЧЁТЕСЛИ(Ряд,Условие).
Теоретическая численность наблюдений для каждого класса опреде-
ляется как (F(x
2
) F(x
1
))·N, где F(·)функция выбранного теоретическо-
го распределения , Nчисло имеющихся наблюдений, x
2
и x
1
соответ-
ственно верхняя и нижняя границы класса.
Значение критерия
c
2
рассчитывается по формуле
2
1
()
,
k
ii
i
i
nn
n
=
¢
-
¢
å
где k число классов, n
i
число фактических наблюдений в классе i,
n'
i
теоретическая численность наблюдений в классе i. При различных
разбиениях на классы значение
c
2
оказывается различным, но при выпол-
нении требований к числу наблюдений всего и в каждом классе, сформу-
лированных выше, вероятность статистически существенных различий не-
велика.
Критическое значение может быть определено с помощью формулы
Excel
=ХИ2ОБР(1-УровеньДоверия;СтепениСвободы),
где в ячейке УровеньДоверия содержится требуемая доверительная ве-
роятность (выраженная в долях, а не в процентах), а в ячейке
СтепениСвободы величина, равная числу классов за вычетом увели-
ченного на единицу числа параметров теоретического распределения, оп-
ределённых с использованием эмпирических данных. В MathCad аналогич-
ный расчёт выполняется с помощью формулы
1
В учебных заданиях данного практикума разрешается смягчать эти требова-
ния в соответствии с указаниями преподавателя, обязательно отмечая в отчёте, что ре-
зультат проверки гипотезы о согласии теоретического и эмпирического распределений
недостоверен по причине недостаточной численности имеющихся наблюдений.
64
qchisq(1-УровеньДоверия;СтепениСвободы).
Если значение
c
2
превышает критическое, гипотезу о согласии рас-
пределений отвергают с выбранным уровнем доверия. В противном слу-
чае гипотеза не отвергается (что, разумеется, не означает её безуслов-
ной истинности: быть может, этот результат случаен, а может, действи-
тельное распределение мало отличается от гипотетического).
Расчёты по проверке согласованности теоретического и эмпириче-
ского распределений рекомендуется выполнять в таблице, строки которой
(кроме итоговой) соответствуют классам, а столбцы этапам вычисле-
ний. В частности, в ней должны быть представлены величины n
i
, n'
i
и (n
i
n'
i
)
2
/n'
i
.
3. Проверка статистических гипотез относительно
многовершинных распределений
Многовершинность эмпирического распределения обычно свиде-
тельствует о смешении совокупностей с разными качественными характе-
ристиками. Строгий подход к исследованию таких совокупностей состоит в
отыскании критерия, по которому наблюдения можно отнести к каждой из
качественно различных совокупностей, которые затем исследуются от-
дельно. В частности, для каждой из них формулируется и проверяется от-
дельная гипотеза о распределении вероятностей значений исследуемых пе-
ременных.
Распределения наблюдений по качественно различающимся сово-
купностям необходимо выполнять всегда, когда имеется возможность для
этого.
На этапе системного анализа часто отсутствуют данные, необходи-
мые для выполнения такой процедуры. Возможны две ситуации: либо от-
сутствуют данные о показателях, необходимых для построения критерия
отнесения наблюдения к различным совокупностям, либо наблюдений
слишком мало, так что после классификации они вообще не будут подда-
ваться анализу.
В подобных случаях совокупность разбивают в точках минимума
между вершинами, после чего для получившихся совокупностей выдвига-
ют гипотезы о распределениях, не подвергая их проверке. В результате
получают функции распределения F
1
(x), F
2
(x) и т.д.
за тем, чтобы как фактическая, так и теоретическая численность наблюде-                           qchisq(1-УровеньДоверия;СтепениСвободы).
ний в каждом классе была не меньше 6…8. Если это не выполняется, ма-
лочисленные классы объединяют; при этом численность классов не долж-                           Если значение c2 превышает критическое, гипотезу о согласии рас-
на оказаться меньше пяти. В случае невыполнимости этих требований                      пределений отвергают с выбранным уровнем доверия. В противном слу-
критерию c2 доверять нельзя1. Если данная процедура порождает очень                    чае гипотеза не отвергается (что, разумеется, не означает её безуслов-
много пустых классов, а случайная величина строго положительна, то це-                 ной истинности: быть может, этот результат случаен, а может, действи-
лесообразно перейти к исследованию распределения её логарифмов.                        тельное распределение мало отличается от гипотетического).
       Численность наблюдений, относящихся к каждому классу, обычно                            Расчёты по проверке согласованности теоретического и эмпириче-
определяется по ранжированному ряду наблюдаемых данных с помощью                       ского распределений рекомендуется выполнять в таблице, строки которой
функции Excel =СЧЁТЕСЛИ(Ряд,Условие).                                                  (кроме итоговой) соответствуют классам, а столбцы — этапам вычисле-
                                                                                       ний. В частности, в ней должны быть представлены величины ni, n'i и (ni –
       Теоретическая численность наблюдений для каждого класса опреде-
ляется как (F(x2) – F(x1))·N, где F(·) — функция выбранного теоретическо-               n'i)2/n'i.
го распределения, N — число имеющихся наблюдений, x2 и x1 — соответ-
ственно верхняя и нижняя границы класса.                                                    3. Проверка статистических гипотез относительно
       Значение критерия c2 рассчитывается по формуле                                               многовершинных распределений
                                    k
                                        (ni - n¢i )2
                                   å
                                   i =1     ni¢
                                                     ,                                        Многовершинность эмпирического распределения обычно свиде-
                                                                                       тельствует о смешении совокупностей с разными качественными характе-
где k — число классов, ni — число фактических наблюдений в классе i,                   ристиками. Строгий подход к исследованию таких совокупностей состоит в
n'i — теоретическая численность наблюдений в классе i. При различных                   отыскании критерия, по которому наблюдения можно отнести к каждой из
разбиениях на классы значение c2 оказывается различным, но при выпол-                  качественно различных совокупностей, которые затем исследуются от-
нении требований к числу наблюдений всего и в каждом классе, сформу-                   дельно. В частности, для каждой из них формулируется и проверяется от-
лированных выше, вероятность статистически существенных различий не-                   дельная гипотеза о распределении вероятностей значений исследуемых пе-
велика.                                                                                ременных.
      Критическое значение может быть определено с помощью формулы                            Распределения наблюдений по качественно различающимся сово-
Excel                                                                                  купностям необходимо выполнять всегда, когда имеется возможность для
                                                                                       этого.
            =ХИ2ОБР(1-УровеньДоверия;СтепениСвободы),
                                                                                              На этапе системного анализа часто отсутствуют данные, необходи-
где в ячейке УровеньДоверия содержится требуемая доверительная ве-                     мые для выполнения такой процедуры. Возможны две ситуации: либо от-
роятность (выраженная в долях, а не в процентах), а в ячейке                           сутствуют данные о показателях, необходимых для построения критерия
СтепениСвободы — величина, равная числу классов за вычетом увели-                      отнесения наблюдения к различным совокупностям, либо наблюдений
ченного на единицу числа параметров теоретического распределения, оп-                  слишком мало, так что после классификации они вообще не будут подда-
ределённых с использованием эмпирических данных. В MathCad аналогич-                   ваться анализу.
ный расчёт выполняется с помощью формулы                                                      В подобных случаях совокупность разбивают в точках минимума
                                                                                       между вершинами, после чего для получившихся совокупностей выдвига-
       1                                                                               ют гипотезы о распределениях, не подвергая их проверке. В результате
         В учебных заданиях данного практикума разрешается смягчать эти требова-
ния в соответствии с указаниями преподавателя, обязательно отмечая в отчёте, что ре-   получают функции распределения F1(x), F2(x) и т.д.
зультат проверки гипотезы о согласии теоретического и эмпирического распределений
недостоверен по причине недостаточной численности имеющихся наблюдений.

                                                                                 63    64