Практикум по математической статистике. Панков А.Р - 36 стр.

UptoLike

Составители: 

70 ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ § 11.
2) По таблице 13.3 находим квантиль k
α
(r) уровня α = 1 p распре-
деления χ
2
(r), где r = K 1.
3) Строим критическую
p
= (k
α
(r), +) и доверительную
p
=
= [0; k
α
(r)] области.
4) Если g
n
p
, то H
0
отвергается на уровне значимости p. Если же
g
n
p
, то на указанном уровне значимости H
0
принимается.
Описанный алгоритм называется хи-квадрат критерием (критерием
согласия К. Пирсона) для проверки непараметрической гипотезы H
0
. На
практике обычно полагают, что p = 0,05.
Если F
0
(x) задает распределение СВ X непрерывного типа, то про-
верка H
0
по хи-квадрат критерию провод ится после предварительной
группировки данных. Для этого область V
X
всех возможных значений
СВ X, имеющей распределение F
0
(x), разбивается на K > 1 непересе-
кающихся интервалов {δ
m
: m = 1, . . . , K}:
K
[
m=1
δ
m
= V
X
, δ
m
δ
i
= ,
m 6= i. Статистика G
n
по-прежнему вычисляется по формуле (11.2), где
n
m
число элементов выборки, попавших в промежуток δ
m
, а p
m
теоретическая вероятность попадания X .е. любого элемента выборки)
в δ
m
(при условии, что H
0
верна). Например, если δ
m
= [a
m
; a
m+1
), то
p
m
= F
0
(a
m+1
) F
0
(a
m
), m = 1, . . . , K.
Далее проверка H
0
проводится точно так же, как и в случае дискрет-
ного р аспределен ия F
0
(x).
Если F
0
(x) = f(x; θ), где θ вектор неизвестных параметров размера
(l ×1), то в критерии Пирсона следует предварительно заменить θ на его
МП-оценку
b
θ
n
. В этом случае предельное распределение статистики G
n
будет (при весьма общих условиях) по-прежнем у хи-к вадрат распреде-
лением H
r
, но уже с числом степеней свободы r = K l 1, где l число
неизвестных параметров распределения F
0
(x).
На практике критерием Пирсона можно пользоваться, если объем
выборки достаточно велик (n > 50), а при проведении группировки
данных соблюдено условие n·p
m
> 5, m = 1, . . . , K. При выборе числа K
интервалов группировки можно воспользоваться формулой С терджеса:
K = 1 + {3,32 lg n}, где {a} целая часть числа a.
Хи-квадрат критерием можно воспользоваться так же для проверки
непараметрической гипотезы H
0
о независимости случайных величин
X и Y дискретного типа.
Пусть СВ X принимает значения {a
1
, . . . , a
s
} с вероятностями p
i
=
= P(X = a
i
), i = 1, . . . , s, а СВ Y значения {b
1
, . . . , b
t
} с вероятностями
q
j
= P(X = b
j
), j = 1, . . . , t. Предположим, что имеется двумерная вы-
§ 11. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ Г ИПО ТЕЗ 71
борка Z
n
, порожденная случайным вектором W = {X, Y }
. Обозначим
через n
ij
число опытов, в которых W принимал з начение {a
i
, b
j
}, i =
= 1, . . . , s; j = 1, . . . , t. Пусть также N
i
=
t
X
j=1
n
ij
, M
j
=
s
X
i=1
n
ij
.
Рассмотрим статистику хи-квадрат, аналогичную (11.1):
b
G
n
=
s
X
i=1
t
X
j=1
(n
ij
np
i
q
j
)
2
np
i
q
j
, (11.3)
где p
i
=
N
i
n
и q
j
=
M
j
n
частоты появления a
i
и b
j
соответственно. Если
гипотеза H
0
о независимости X и Y верна, то можно показать, что
b
G
n
d
χ
r
2
H
r
, n ,
где r = (s 1)(t 1).
Таким образом, H
0
отвергают, если реализация bg
n
статистики
b
G
n
попадает в критическую область
p
= (k
α
(r), +), где α = 1 p, p
уровень значимости критерия.
Заметим, что
b
G
n
удобнее вычислять по формуле
b
G
n
= n
s
X
i=1
t
X
j=1
(n
ij
)
2
N
i
M
j
1
!
. (11.4)
Для случая s = t = 2, часто встречающегося на практике, форму-
ла (11.4) принимает весьма простой вид
b
G
n
=
n(n
11
n
22
n
12
n
21
)
2
N
1
N
2
M
1
M
2
. (11.5)
11.2. Примеры.
П р и м е р 11.1. Монета подброшена n = 4000 раз, в результате чего
“герб” выпал 2028 раз. Проверить на уровне значимости p = 0,05 гипотезу
H
0
: монета симметрична.
Р е ш е н и е. Свяжем с k подбрасыванием монеты случайную ве-
личину X
k
: {X
k
= 1} означает, что выпал “герб”, {X
k
= 0} выпала
“решка”. Очевидно, что X
k
Bi(1; p
1
), где p
1
= P(X
k
= 1) вероятность
выпадения “герба”. Если гипотеза H
0
справедлива, то p
1
=
1
2
= p
2
, где
p
2
= 1 p
1
вероятность выпадения “решки”. Отсюда np
1
= np
2
= 2000.
70                  ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ                         § 11.   § 11.                   ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ                                   71

    2) По таблице 13.3 находим квантиль k α(r) уровня α = 1 − p распре-                борка Z n, порожденная случайным вектором W = {X, Y }⊤ . Обозначим
деления χ2 (r), где r = K − 1.                                                         через n ij число опытов, в которых W принимал значение {a i, b j }, i =
    3) Строим критическую ∆ p = (k α(r), +∞) и доверительную ∆ p =                                                                           t
                                                                                                                                             X                    s
                                                                                                                                                                  X
                                                                                       = 1, . . . , s; j = 1, . . . , t. Пусть также N i =         n ij , M j =         n ij .
= [0; k α(r)] области.
                                                                                                                                             j=1                  i=1
    4) Если g n ∈ ∆ p, то H 0 отвергается на уровне значимости p. Если же
                                                                                          Рассмотрим статистику хи-квадрат, аналогичную (11.1):
g n ∈ ∆ p , то на указанном уровне значимости H 0 принимается.
                                                                                                                          s X
                                                                                                                            t
    Описанный алгоритм называется хи-квадрат критерием (критерием                                                  b =
                                                                                                                          X   (nij − np∗i qj∗ )2
                                                                                                                   G n                                ,                          (11.3)
согласия К. Пирсона) для проверки непараметрической гипотезы H 0. На                                                      i=1 j=1
                                                                                                                                        np∗i qj∗
практике обычно полагают, что p = 0,05.
    Если F 0(x) задает распределение СВ X непрерывного типа, то про-                              N           M
                                                                                       где p ∗i = i и q ∗j = j — частоты появления a i и b j соответственно. Если
верка H 0 по хи-квадрат критерию проводится после предварительной                                 n          n
группировки данных. Для этого область V X всех возможных значений                      гипотеза H 0 о независимости X и Y верна, то можно показать, что
СВ X, имеющей распределение F 0(x), разбивается на K > 1 непересе-
                                                     K                                                              b −d    2
                                                     [                                                              G n → χ r ∼ H r , n → ∞,
кающихся интервалов {δ m : m = 1, . . . , K}:             δ m = V X , δ m ∩ δ i = ∅,
                                                    m=1                                где r = (s − 1)(t − 1).
m 6= i. Статистика G n по-прежнему вычисляется по формуле (11.2), где                                                                                     b
                                                                                          Таким образом, H 0 отвергают, если реализация gbn статистики G
n m — число элементов выборки, попавших в промежуток δ m, а p m —                                                                                           n
                                                                                       попадает в критическую область ∆ p = (k α(r), +∞), где α = 1 − p, p —
теоретическая вероятность попадания X (т.е. любого элемента выборки)
                                                                                       уровень значимости критерия.
в δ m (при условии, что H 0 — верна). Например, если δ m = [a m; a m+1), то                               b удобнее вычислять по формуле
p m = F 0(a m+1) − F 0(a m), m = 1, . . . , K.                                            Заметим, что G    n

    Далее проверка H 0 проводится точно так же, как и в случае дискрет-                                                                !
                                                                                                                      s X
                                                                                                                      X   t        2
ного распределения F 0(x).                                                                                     b =n         (n ij )
                                                                                                               G n                   −1 .              (11.4)
    Если F 0(x) = f (x; θ), где θ — вектор неизвестных параметров размера                                                              Ni Mj
                                                                                                                             i=1 j=1
(l × 1), то в критерии Пирсона следует предварительно заменить θ на его
МП-оценку θbn. В этом случае предельное распределение статистики G n                      Для случая s = t = 2, часто встречающегося на практике, форму-
будет (при весьма общих условиях) по-прежнему хи-квадрат распреде-                     ла (11.4) принимает весьма простой вид
лением H r, но уже с числом степеней свободы r = K − l − 1, где l — число                                                                    2
неизвестных параметров распределения F 0(x).                                                                        b = n(n11 n22 − n12 n21 ) .
                                                                                                                    G                                                            (11.5)
                                                                                                                      n        N1 N2 M1 M2
    На практике критерием Пирсона можно пользоваться, если объем
выборки достаточно велик (n > 50), а при проведении группировки
данных соблюдено условие n · p m > 5, m = 1, . . . , K. При выборе числа K                 11.2. Примеры.
интервалов группировки можно воспользоваться формулой Стерджеса:                           П р и м е р 11.1. Монета подброшена n = 4000 раз, в результате чего
K = 1 + {3,32 lg n}, где {a} — целая часть числа a.                                    “герб” выпал 2028 раз. Проверить на уровне значимости p = 0,05 гипотезу
    Хи-квадрат критерием можно воспользоваться так же для проверки                     H 0: монета симметрична.
непараметрической гипотезы H 0 о независимости случайных величин                           Р е ш е н и е. Свяжем с k-м подбрасыванием монеты случайную ве-
X и Y дискретного типа.                                                                личину X k: {X k = 1} означает, что выпал “герб”, {X k = 0} — выпала
    Пусть СВ X принимает значения {a 1, . . . , a s} с вероятностями p i =             “решка”. Очевидно, что X k ∼ Bi(1; p 1), где p 1 = P(X k = 1) — вероятность
= P(X = a i), i = 1, . . . , s, а СВ Y — значения {b 1, . . . , b t} с вероятностями   выпадения “герба”. Если гипотеза H 0 справедлива, то p 1 = 21 = p 2, где
q j = P(X = b j ), j = 1, . . . , t. Предположим, что имеется двумерная вы-            p 2 = 1 − p 1 — вероятность выпадения “решки”. Отсюда np 1 = np 2 = 2000.