Оценка надежности классифицирующих алгоритмов. Гуров С.И. - 20 стр.

UptoLike

Составители: 

{ˆp
W
}
{ˆp
W
} =
m
w
(m m
w
)
(m + 2)
2
(m 1)
.
{ˆp
W
} < {ˆp} {ˆp
W
} (m+2)
2
/m
2
p
d
p
d
= (1 + b
0
m
(p))
2
, b
m
(p)
ˆp = p +
1 2p
m + 2
, b
m
(p) =
1 2p
m + 2
, b
0
m
(p) =
2
m + 2
, (1 + b
0
m
(p))
2
=
µ
m
m + 2
2
.
è îöåíêà, î÷åâèäíî, ñîñòîÿòåëüíà.
   Ëåãêî âèäåòü, ÷òî íåñìåù¼ííàÿ îöåíêà D{p̂W } äèñïåðñèè ïîëó÷åííîé îöåíêè ðàâíà

                                                  mw (m − mw )
                                     D{p̂W } =                    .
                                                 (m + 2)2 (m − 1)

Èìååì D{p̂W } < D{p̂} è äèñïåðñèÿ îöåíêè D{p̂W } â (m+2)2 /m2 ðàç ìåíüøå ìèíèìàëüíîé
ãðàíè÷íîé ïî íåðàâåíñòâó Êðàìeðà-Ðàî.
   Óêàçàííîå îáñòîÿòåëüñòâî îáúÿñíÿåòñÿ òåì, ÷òî ïîëó÷åííàÿ áàéåñîâñêàÿ îöåíêà åñòü
îöåíêà ñìåù¼ííàÿ è ïîíèçèòü äèñïåðñèþ îöåíêè óäàëîñü èìåííî çà ñ÷åò âûõîäà èç
êëàññà íåñìåù¼ííûõ (äëÿ êîòîðûõ è âûâåäåíî íåðàâåíñòâî Êðàìeðà-Ðàî). Åñòåñòâåííî,
òîò æå ðåçóëüòàò ïîëó÷èòñÿ, åñëè ñðàçó âîñïîëüçîâàòüñÿ ôîðìóëîé äëÿ íèæíåé
ãðàíèöû ñìåù¼ííîé îöåíêè [49]21 . ßñíî, ÷òî âûèãðûø â äèñïåðñèè îöåíêè áóäåò
îñîáåííî ñóùåñòâåííûì ïðè ìàëûõ âûáîðêàõ. Ñëåäóåò, îäíàêî, èìåòü â âèäó, ÷òî äëÿ
ñìåù¼ííîé îöåíêè äèñïåðñèÿ ñëóæèò ìåðîé áëèçîñòè íå ê îöåíèâàåìîìó ïàðàìåòðó, à
ê ìàòåìàòè÷åñêîìó îæèäàíèþ îöåíêè. Ïîýòîìó âàæíîå çíà÷åíèå ïðèîáðåòàåò âîïðîñ îá
èñòèííîì âèäå ðàñïðåäåëåíèÿ âåðîÿòíîñòè p.

5.2.2 Îáñóæäåíèå ïîëó÷åííûõ îöåíîê. Äðóãèå òî÷å÷íûå îöåíêè
Ñ îáùåé òî÷êè çðåíèÿ íåò íèêàêèõ îñíîâàíèé, êðîìå óäîáñòâà ìàòåìàòè÷åñêèõ
ñâîéñòâ (à òàêæå òðàäèöèè ïðàêòèêîâ), âûäåëÿòü ðàâåíñòâî èñòèííîìó çíà÷åíèþ
èìåííî ìàòåìàòè÷åñêîãî îæèäàíèÿ îöåíêè â êà÷åñòâå êðèòåðèÿ íåñìåù¼ííîñòè. Âìåñòî
ìàòåìàòè÷åñêîãî îæèäàíèÿ ìîãóò òàêæå áûòü âûáðàíû ìåäèàíà ðàñïðåäåëåíèÿ èëè åãî
ìîäà (ò.í. ìåäèàííàÿ íåñìåù¼ííîñòü èëè íåñìåù¼ííîñòü ïî ìîäå22 ).  íàøåì ñëó÷àå
ìû ñòîëêíóëèñü ñ ñèòóàöèåé, êîãäà ñìåù¼ííàÿ îöåíêà èìååò äèñïåðñèþ ìåíüøå, ÷åì
íåñìåù¼ííàÿ, à çíà÷èò è áîëüøóþ ýôôåêòèâíîñòü23 . Ìû ñ÷èòàåì ýòî äîñòàòî÷íûì
îñíîâàíèåì äëÿ òîãî, ÷òîáû îòêàçàòüñÿ îò ðàññìîòðåíèÿ ëèøü êëàññà íåñìåù¼ííûõ
îöåíîê.
   Âî-ïåðâûõ, ïîëó÷åííàÿ îöåíêà îáëàäàåò ñâîéñòâîì àñèìïòîòè÷åñêîé íåñìåù¼ííîñòè, à
ñàìî ñìåùåíèå íåâåëèêî.
   Âî-âòîðûõ, ïðåäñòàâëÿåòñÿ ÿñíûì, ÷òî äëÿ ñëó÷àÿ ìàëûõ âûáîðîê, èìåííî
ýôôåêòèâíîñòü ÿâëÿåòñÿ îñíîâíûì êðèòåðèåì êà÷åñòâà îöåíêè (cð. [14]). Íàëè÷èå ó îöåíîê
ïîñëåäíåãî íåðàññìîòðåííîãî îñíîâíîãî ñâîéñòâà  ñîñòîÿòåëüíîñòè  èìååò öåííîñòü âñ¼
æå â îñíîâíîì ïðè òåîðåòè÷åñêèõ èññëåäîâàíèÿõ.
   È, íàêîíåö, â òðåòüèõ, ÌÏ-îöåíêè, êàê ïðàâèëî, ïîëó÷àþòñÿ íåóñòîé÷èâûìè [58],
à èíîãäà è ¾êàòàñòðîôè÷åñêè íåóñòîé÷èâûìè¿24 ê ìàëûì îòêëîíåíèÿì îò çàêîíà
ðàñïðåäåëåíèÿ. Ïîýòîìó òàêàÿ îöåíêà íåóäîáíà è ñ òî÷êè çðåíèÿ ðîáàñòíîñòè
(óñòîé÷èâîñòè ïî îòíîøåíèþ ê ïîñòóëèðóåìûì ðàñïðåäåëåíèÿì).
   Çàìåòèì, ÷òî, íåôîðìàëüíî ðàññóæäàÿ, ïðèíÿòèå ÌÏ-îöåíêè (ïî ìîäå) áóäåò
ïðèâîäèòü ê îøèáêàì, âîîáùå ãîâîðÿ, ðåäêèì, íî, âîçìîæíî, çíà÷èòåëüíûì, à áàéåñîâñêàÿ
  21 Äèñïåðñèè   ñìåù¼ííûõ Dd è íåñìåù¼ííûõ D îöåíîê ïàðàìåòðà p ñâÿçàíû ôîðìóëîé
Dd = (1 + b0m (p))2 D , ãäå bm (p)  ñìåùåíèå.  íàøåì ñëó÷àå
                                                                                    µ         ¶2
                       1 − 2p            1 − 2p 0            2                 2         m
              p̂ = p +        , bm (p) =       , bm (p) = −     , (1 + b0m (p)) =                  .
                       m+2               m+2                m+2                         m+2

  22 Cì.,íàïðèìåð, [29], [43].
  23 Îöåíêó  ñ ìåíüøåé äèñïåðñèåé ìû ñ÷èòàåì áîëåå ýôôåêòèâíîé.
 24 Ñì. Tukey, J.W. A survey of sampling from contaminated distribution / Contributions to Prob. and Stat.
Ed. I. Olkin et al. Stanford: Stanford Univ. Press, 1960, p. 446-486.