Анализ статистической совокупности в программе MS Excel. Акжигитова А.Н - 41 стр.

UptoLike

Рубрика: 

41
ское применение становится неприемлемым.
Сопоставление средних отклоненийквадратического σ и линейного
d
позволяет сделать вывод об устойчивости индивидуальных значений
признака
, т.е. об отсутствии среди них «аномальных» вариантов значений.
В условиях симметричного и нормального, а также близких к ним
распределений между показателями σ и
d
имеют место равенства
d25,1
σ ,
σ
8,0d ,
поэтому отношение показателей
d
и σ может служить индикатором ус-
тойчивости данных
: если
σ
d
> 0,8, (21)
то значения признака неустойчивы, в них имеются «аномальные» выбросы.
Следовательно, несмотря на визуальное обнаружение и исключение
нетипичных единиц наблюдений при выполнении задания 1, некоторые
аномалии в первичных данных продолжают сохраняться. В этом случае их
следует выявить (например, путем поиска значений, выходящих за границы
(
х
± 2σ)) и рассматривать их исключение из выборки.
По значениям показателей
х
и σ можно определить границы диапа-
зонов рассеяния значений признака
относительно средней
х
, т.е. устано-
вить, какая доля значений признака попадает в тот или иной диапазон от-
клонений от
х
.
Согласно вероятностной теореме П. Л. Чебышева, следует ожидать,
что
независимо от формы распределения 75% значений признака будут
находиться в диапазоне (
х
± 2σ), а 89% значенийв диапазоне (
х
± Зσ).
В
нормально распределенных и близких к ним рядах вероятност-
ные оценки диапазонов рассеяния значений признака таковы:
– 68,3% войдет в диапазон (
х
± σ);
– 95,4% попадет в диапазон (
х
± 2σ); (22)
– 99,7% появится в диапазоне (
х
± Зσ).
Соотношение (22) известно как
правило «трех сигм».
Для выборочной совокупности значения
х
и σ
n
рассчитаны и являют-
ся точными, поэтому, основываясь на правиле «трех сигм», можно точно
оценить границы всех трех диапазонов рассеяния признака и определить,
сколько значений
x
i
попадает в каждый из диапазонов.
В случае генеральной совокупности точно известна только величина
σ
n
, а для средней
х
рассчитаны лишь предельные ошибки выборки . По-
этому для генеральной совокупности оценки рассеяния значений признака
по трем диапазонам являются прогнозными и обычно задаются в форме
(22) с конкретным числовым значением параметра σ
n
.
Учитывая правило «трех сигм», в статистической практике величину
ское применение становится неприемлемым.
      Сопоставление средних отклонений – квадратического σ и линейного
d позволяет сделать вывод об устойчивости индивидуальных значений
признака, т.е. об отсутствии среди них «аномальных» вариантов значений.
      В условиях симметричного и нормального, а также близких к ним
распределений между показателями σ и d имеют место равенства
                           σ ≈ 1,25d , d ≈ 0,8σ ,

поэтому отношение показателей d и σ может служить индикатором ус-
тойчивости данных: если
                                  d
                                    > 0,8,                              (21)
                                  σ
то значения признака неустойчивы, в них имеются «аномальные» выбросы.
       Следовательно, несмотря на визуальное обнаружение и исключение
нетипичных единиц наблюдений при выполнении задания 1, некоторые
аномалии в первичных данных продолжают сохраняться. В этом случае их
следует выявить (например, путем поиска значений, выходящих за границы
( х ± 2σ)) и рассматривать их исключение из выборки.
       По значениям показателей х и σ можно определить границы диапа-
зонов рассеяния значений признака относительно средней х , т.е. устано-
вить, какая доля значений признака попадает в тот или иной диапазон от-
клонений от х .
       Согласно вероятностной теореме П. Л. Чебышева, следует ожидать,
что независимо от формы распределения 75% значений признака будут
находиться в диапазоне ( х ± 2σ), а 89% значений – в диапазоне ( х ± Зσ).
       В нормально распределенных и близких к ним рядах вероятност-
ные оценки диапазонов рассеяния значений признака таковы:
       – 68,3% войдет в диапазон ( х ± σ);
       – 95,4% попадет в диапазон ( х ± 2σ);                            (22)
       – 99,7% появится в диапазоне ( х ± Зσ).
       Соотношение (22) известно как правило «трех сигм».
       Для выборочной совокупности значения х и σn рассчитаны и являют-
ся точными, поэтому, основываясь на правиле «трех сигм», можно точно
оценить границы всех трех диапазонов рассеяния признака и определить,
сколько значений xi попадает в каждый из диапазонов.
       В случае генеральной совокупности точно известна только величина
σn, а для средней х рассчитаны лишь предельные ошибки выборки . По-
этому для генеральной совокупности оценки рассеяния значений признака
по трем диапазонам являются прогнозными и обычно задаются в форме
(22) с конкретным числовым значением параметра σn.
       Учитывая правило «трех сигм», в статистической практике величину
                                    41