Pravdepodobnosť chybných hlasov

Marek Pícha píše:

Dejme tomu, že kandidát na prezidenta odevzdá 60 000 hlasů. Práh je 50 000 dobrých hlasů. Předpokládejme, že kandidát tedy potřebuje šanci 5:1 ve prospěch dobrých hlasů, tj. hypotéza, že projde, má prior probability 83 %. Ukázalo se ale, že průměrná chybovost ve vzorku 17 000 hlasů je 20 %. Jak se změní pravděpodobnost hypotézy s ohledem na tato nová data? Lze to vměstnat do Bayesova teorému? A dozvím se tím vlastně něco zajímavého?

To zadanie rozviniem a preformulujem do žargónu bayesiánskej analýzy. Modelujeme pravdepodobnosť platnosti hlasu ako parameter t s hodnotami medzi 0 a 1. Naše apriori vedomosti sú dané ako rozdelenie pravdepodobnosti p(t). Tu začínajú zmätky, lebo nás zaujíma pravdepodobnosť pravdepodobnosti. Lepšie je vnímať t ako parameter, ktorého hodnoty sú zhodou okolností v rozhraní 0 až 1. Volajme t jednoducho platnosť hlasu. Povedzme že naša apriori informácia je, že pravdepodobnosť platnosti hlasu t je rovnomerne rozdelená medzi hodnotami t 0 až 1. Platí teda napríklad, že p(t>0.75)= p(0.75>t>0.5)= p(0.5>t>0.25)= p(t<0.25)=0.25 a vo všeobecnosti p(t=r)=1 pre každé 0<r<1. Ďalej sme sa dozvedeli, že bolo zozbieraných N=60k hlasov. Na základe nášho apriori p(t) sa pýtame aká je pravdepodobnosť pre H1: minimálne 50k hlasov je platných? Označme počet platných hlasov ako K. Platí (pomocou marginalizácie) p(H1)=p(K>50k)=\sum_r p(K>50k|t=r,N)p(t=r) = \sum_r p(K>50k|t=r,N). Povedzme, že p(K>50k|t,N)= 1/N ak t>K/N a inak 0. Inak povedané pozriem sa na každé t medzi 0 a 1 na základe t a N odhadnem K ako K=t*N a pozriem sa, či K>50k. Zrátam prípady všetkých t pre ktoré K>50k platí a vydelím N. Tým dostanem 83%.

Teraz prichádza na radu bayes. Dostaneme informáciu, že N1 = 17k a K1 = 13.6k. Ako prvé zistíme posterior pre parameter t: p(t|N1,K1)= p(N1,K1|t) p(t)/p(N1,K1). Potom môžeme odhadnúť pravdepodobnosť H1 ako p(H1|N1,K1)=p(K2>36.4k)=\sum_r p(K2>36.4k|t=r,N2)p(t=r|N1,K1), pričom som definoval N=N1+N2 a K=K1+K2. Konkrétny výsledok závisí od voľby p(N1,K1|t). Napríklad môžeme povedať, že N1 a K1 sú jednoznačne a bez akýchkoľvek pochybností determinované parametrom t. Potom platí, že p(N1,K1|t)=1 pre t=K1/N1 a 0 pre všetky ostatné t. Následne p(H1|N1,K1)=0, jednoducho preto lebo 13.6/17 = 0.79 < 0.847 = 36.4/43. Zmysluplnejšia voľba pre p(N1,K1|t) by bolo binomiálne rozdelenie.

Potom očakávaná hodnota pre p(t|N1,K1) je znova 0.79 ale štandardná odchýlka je ca. 1% a teda nenulová. Na výsledku p(H1)=0 to však moc nezmení, keďže 0.847 je vzdialené až ca. 5 štandardných odchýlok od 0.79. Analýzu by bolo možno ďalej vylepšiť tým, že by sme pri výpočte p(K>50k|t=r,N) neodhadovali K=t*N deterministicky, ale počítali napr. pomocou binomiálneho rozdelenia ako vyššie pre p(N1,K1|t). Výsledok sa mi nechcelo rátať takže som ho simuloval. Nižšie vidieť v histograme že žiadna z 10k simulovaných vzoriek nebola vyššia ako K=35200.

Zaujímavé je podľa mňa, že stratégia výpočtu, ktorú používa MP pre 0.83 zahŕňa implicitný predpoklad,že apriori rozdelenie p(t) je rovnomerné. Takýto predpoklad značne uľahčuje výpočet, ale nedáva moc zmysel. Napríklad p(t=0) (všetky chybné) je oveľa menej pravdepodobná ako povedzme p(t=0.999). Bayesiánska analýza odkrýva tento predpoklad a umožňuje zvoliť plauzibilnejšie rozdelenie pravdepodobnosti.

EDIT 30/11/2012: Opravil som čísla pre N1,K1 a K2 aby boli konzistentné so zadaním a doplnil výsledky. Pôvodné znenie článku nesprávne rátalo s N1=20k a K1=17k.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s