ВУЗ:
Составители:
Рубрика:
70 ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ § 11.
2) По таблице 13.3 находим квантиль k
α
(r) уровня α = 1 − p распре-
деления χ
2
(r), где r = K − 1.
3) Строим критическую ∆
p
= (k
α
(r), +∞) и доверительную ∆
p
=
= [0; k
α
(r)] области.
4) Если g
n
∈ ∆
p
, то H
0
отвергается на уровне значимости p. Если же
g
n
∈
∆
p
, то на указанном уровне значимости H
0
принимается.
Описанный алгоритм называется хи-квадрат критерием (критерием
согласия К. Пирсона) для проверки непараметрической гипотезы H
0
. На
практике обычно полагают, что p = 0,05.
Если F
0
(x) задает распределение СВ X непрерывного типа, то про-
верка H
0
по хи-квадрат критерию провод ится после предварительной
группировки данных. Для этого область V
X
всех возможных значений
СВ X, имеющей распределение F
0
(x), разбивается на K > 1 непересе-
кающихся интервалов {δ
m
: m = 1, . . . , K}:
K
[
m=1
δ
m
= V
X
, δ
m
∩ δ
i
= ∅,
m 6= i. Статистика G
n
по-прежнему вычисляется по формуле (11.2), где
n
m
— число элементов выборки, попавших в промежуток δ
m
, а p
m
—
теоретическая вероятность попадания X (т.е. любого элемента выборки)
в δ
m
(при условии, что H
0
— верна). Например, если δ
m
= [a
m
; a
m+1
), то
p
m
= F
0
(a
m+1
) − F
0
(a
m
), m = 1, . . . , K.
Далее проверка H
0
проводится точно так же, как и в случае дискрет-
ного р аспределен ия F
0
(x).
Если F
0
(x) = f(x; θ), где θ — вектор неизвестных параметров размера
(l ×1), то в критерии Пирсона следует предварительно заменить θ на его
МП-оценку
b
θ
n
. В этом случае предельное распределение статистики G
n
будет (при весьма общих условиях) по-прежнем у хи-к вадрат распреде-
лением H
r
, но уже с числом степеней свободы r = K −l −1, где l — число
неизвестных параметров распределения F
0
(x).
На практике критерием Пирсона можно пользоваться, если объем
выборки достаточно велик (n > 50), а при проведении группировки
данных соблюдено условие n·p
m
> 5, m = 1, . . . , K. При выборе числа K
интервалов группировки можно воспользоваться формулой С терджеса:
K = 1 + {3,32 lg n}, где {a} — целая часть числа a.
Хи-квадрат критерием можно воспользоваться так же для проверки
непараметрической гипотезы H
0
о независимости случайных величин
X и Y дискретного типа.
Пусть СВ X принимает значения {a
1
, . . . , a
s
} с вероятностями p
i
=
= P(X = a
i
), i = 1, . . . , s, а СВ Y — значения {b
1
, . . . , b
t
} с вероятностями
q
j
= P(X = b
j
), j = 1, . . . , t. Предположим, что имеется двумерная вы-
§ 11. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ Г ИПО ТЕЗ 71
борка Z
n
, порожденная случайным вектором W = {X, Y }
⊤
. Обозначим
через n
ij
число опытов, в которых W принимал з начение {a
i
, b
j
}, i =
= 1, . . . , s; j = 1, . . . , t. Пусть также N
i
=
t
X
j=1
n
ij
, M
j
=
s
X
i=1
n
ij
.
Рассмотрим статистику хи-квадрат, аналогичную (11.1):
b
G
n
=
s
X
i=1
t
X
j=1
(n
ij
− np
∗
i
q
∗
j
)
2
np
∗
i
q
∗
j
, (11.3)
где p
i
∗
=
N
i
n
и q
j
∗
=
M
j
n
— частоты появления a
i
и b
j
соответственно. Если
гипотеза H
0
о независимости X и Y верна, то можно показать, что
b
G
n
d
−→ χ
r
2
∼ H
r
, n → ∞,
где r = (s − 1)(t − 1).
Таким образом, H
0
отвергают, если реализация bg
n
статистики
b
G
n
попадает в критическую область ∆
p
= (k
α
(r), +∞), где α = 1 − p, p —
уровень значимости критерия.
Заметим, что
b
G
n
удобнее вычислять по формуле
b
G
n
= n
s
X
i=1
t
X
j=1
(n
ij
)
2
N
i
M
j
− 1
!
. (11.4)
Для случая s = t = 2, часто встречающегося на практике, форму-
ла (11.4) принимает весьма простой вид
b
G
n
=
n(n
11
n
22
− n
12
n
21
)
2
N
1
N
2
M
1
M
2
. (11.5)
11.2. Примеры.
П р и м е р 11.1. Монета подброшена n = 4000 раз, в результате чего
“герб” выпал 2028 раз. Проверить на уровне значимости p = 0,05 гипотезу
H
0
: монета симметрична.
Р е ш е н и е. Свяжем с k-м подбрасыванием монеты случайную ве-
личину X
k
: {X
k
= 1} означает, что выпал “герб”, {X
k
= 0} — выпала
“решка”. Очевидно, что X
k
∼ Bi(1; p
1
), где p
1
= P(X
k
= 1) — вероятность
выпадения “герба”. Если гипотеза H
0
справедлива, то p
1
=
1
2
= p
2
, где
p
2
= 1 −p
1
— вероятность выпадения “решки”. Отсюда np
1
= np
2
= 2000.
70 ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ § 11. § 11. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ 71 2) По таблице 13.3 находим квантиль k α(r) уровня α = 1 − p распре- борка Z n, порожденная случайным вектором W = {X, Y }⊤ . Обозначим деления χ2 (r), где r = K − 1. через n ij число опытов, в которых W принимал значение {a i, b j }, i = 3) Строим критическую ∆ p = (k α(r), +∞) и доверительную ∆ p = t X s X = 1, . . . , s; j = 1, . . . , t. Пусть также N i = n ij , M j = n ij . = [0; k α(r)] области. j=1 i=1 4) Если g n ∈ ∆ p, то H 0 отвергается на уровне значимости p. Если же Рассмотрим статистику хи-квадрат, аналогичную (11.1): g n ∈ ∆ p , то на указанном уровне значимости H 0 принимается. s X t Описанный алгоритм называется хи-квадрат критерием (критерием b = X (nij − np∗i qj∗ )2 G n , (11.3) согласия К. Пирсона) для проверки непараметрической гипотезы H 0. На i=1 j=1 np∗i qj∗ практике обычно полагают, что p = 0,05. Если F 0(x) задает распределение СВ X непрерывного типа, то про- N M где p ∗i = i и q ∗j = j — частоты появления a i и b j соответственно. Если верка H 0 по хи-квадрат критерию проводится после предварительной n n группировки данных. Для этого область V X всех возможных значений гипотеза H 0 о независимости X и Y верна, то можно показать, что СВ X, имеющей распределение F 0(x), разбивается на K > 1 непересе- K b −d 2 [ G n → χ r ∼ H r , n → ∞, кающихся интервалов {δ m : m = 1, . . . , K}: δ m = V X , δ m ∩ δ i = ∅, m=1 где r = (s − 1)(t − 1). m 6= i. Статистика G n по-прежнему вычисляется по формуле (11.2), где b Таким образом, H 0 отвергают, если реализация gbn статистики G n m — число элементов выборки, попавших в промежуток δ m, а p m — n попадает в критическую область ∆ p = (k α(r), +∞), где α = 1 − p, p — теоретическая вероятность попадания X (т.е. любого элемента выборки) уровень значимости критерия. в δ m (при условии, что H 0 — верна). Например, если δ m = [a m; a m+1), то b удобнее вычислять по формуле p m = F 0(a m+1) − F 0(a m), m = 1, . . . , K. Заметим, что G n Далее проверка H 0 проводится точно так же, как и в случае дискрет- ! s X X t 2 ного распределения F 0(x). b =n (n ij ) G n −1 . (11.4) Если F 0(x) = f (x; θ), где θ — вектор неизвестных параметров размера Ni Mj i=1 j=1 (l × 1), то в критерии Пирсона следует предварительно заменить θ на его МП-оценку θbn. В этом случае предельное распределение статистики G n Для случая s = t = 2, часто встречающегося на практике, форму- будет (при весьма общих условиях) по-прежнему хи-квадрат распреде- ла (11.4) принимает весьма простой вид лением H r, но уже с числом степеней свободы r = K − l − 1, где l — число 2 неизвестных параметров распределения F 0(x). b = n(n11 n22 − n12 n21 ) . G (11.5) n N1 N2 M1 M2 На практике критерием Пирсона можно пользоваться, если объем выборки достаточно велик (n > 50), а при проведении группировки данных соблюдено условие n · p m > 5, m = 1, . . . , K. При выборе числа K 11.2. Примеры. интервалов группировки можно воспользоваться формулой Стерджеса: П р и м е р 11.1. Монета подброшена n = 4000 раз, в результате чего K = 1 + {3,32 lg n}, где {a} — целая часть числа a. “герб” выпал 2028 раз. Проверить на уровне значимости p = 0,05 гипотезу Хи-квадрат критерием можно воспользоваться так же для проверки H 0: монета симметрична. непараметрической гипотезы H 0 о независимости случайных величин Р е ш е н и е. Свяжем с k-м подбрасыванием монеты случайную ве- X и Y дискретного типа. личину X k: {X k = 1} означает, что выпал “герб”, {X k = 0} — выпала Пусть СВ X принимает значения {a 1, . . . , a s} с вероятностями p i = “решка”. Очевидно, что X k ∼ Bi(1; p 1), где p 1 = P(X k = 1) — вероятность = P(X = a i), i = 1, . . . , s, а СВ Y — значения {b 1, . . . , b t} с вероятностями выпадения “герба”. Если гипотеза H 0 справедлива, то p 1 = 21 = p 2, где q j = P(X = b j ), j = 1, . . . , t. Предположим, что имеется двумерная вы- p 2 = 1 − p 1 — вероятность выпадения “решки”. Отсюда np 1 = np 2 = 2000.
Страницы
- « первая
- ‹ предыдущая
- …
- 34
- 35
- 36
- 37
- 38
- …
- следующая ›
- последняя »