E.T. Jaynes: Probability Theory, Kapitola 3 a 4

V minulom príspevku sme videli, že Jaynes chápe teóriu pravdepodobnosti ako rozšírenú logiku. V prvej kapitole Jaynes predstavil 5 základných axiómov. V druhej kapitole pomocou nich odvodil definíciu pravdepodobnosti a 2 základné pravidlá: pravidlo násobenia a pravidlo sumy.

V tretej kapitole Jaynes ukazuje, že pomocou týchto základných pravidiel možno odvodiť zaujímavé výsledky. Napríklad, ak máme viaceré navzájom vylučujúce sa (a vyčerpávajúce) tvrdenia A, B, C, tak vieme, že p(C)=1-p(A)-p(B).

Ak pridáme dodatočné informácie o procese, ktorý pravdepodobnosti ovplyvňuje získame komplikovanejšie rozdelenia pravdepodobnosti. Jaynes preberá rôzne rozdelenia vyplývajúce z pravidiel kombinatoriky. Tieto možno intuitívne formulovať ako ťahanie lôpt z urny. V urne je určitý počet červených a bielych lôpt. Lopty postupne z urny náhodne ťaháme (bez vrátenia do urny) a zaujíma nás pravdepodobnosť rôznych udalostí vyplývajúcich z ťahov. Aká je pravdepodobnosť, že prvá lopta je biela? Aká je pravdepodobnosť, že druhá lopta je biela? Aká je pravdepodobnosť, že prvá a druhá lopta sú biele? Aká je pravdepodobnosť, že v prvých troch ťahoch vytiahneme presne dve biele lopty? Pomocou pravidiel pravdepodobnosti (a s trochou matematiky) nie je ťažké tieto výsledky odvodiť. V poslednom prípade dáva odpoveď tzv. hypergeometrické rozdelenie, ktoré určuje pravdepodobnosť, že vytiahneme b bielych lôpt pri n ťahoch (nezávisle od ich poradia).

Hypergeometrické rozdelenie je prvé rozdelenie pravdepodobnosti, s ktorým sa v knihe stretávame. Jaynes diskutuje niekoľko konceptov dôležitých v súvislosti s rozdeleniami: vytvárajúca funkcia, kumulatívne rozdelenie, quantily, medián a stredovú hodnotu. Pri tejto diskusii sa Jaynes dostáva k prvému prípadu, ktorý spôsobuje zmätky. Lopty vyberáme z urny bez vrátenia. Ich počet v urne sa znižuje a tým pádom sa menia aj ich pravdepodobnosti. Ak sme začali s piatimi bielymi a piatimi červenými a v prvom ťahu sme vytiahli bielu loptu tak pravdepodnobnosť, že v druhom ťahu vytiahneme bielu nie je 0.5 ale 4/9. Predchádzajúce udalosti majú kauzálny vplyv na súčasný výpočet pravdepodobnosti. Čo však v prípade ak sme v druhom ťahu vytiahli bielu loptu? Aká je pravdepodobnosť, že v prvom ťahu vytiahneme bielu. Intuitívne druhý ťah by nemal mať vplyv na predchádzajúcu udalosť. Na začiatku je v urne rovnaký počet bielych a červených lôpt a pravdepodobnosť je 0.5. Niektorí vedci dokonca zašli tak ďaleko, že vyhlásili takto chápaný princíp kauzality za axióm teórie pravdepodobnosti. Podobne nerozvážne sa vyjadroval aj Popper. Dotyční však dostanú od Jaynesa po zadku. Mýlia si totiž fyzikálny stav sveta s informačným stavom nášho robota. Informácie môžu pôsobiť spätne, ak je minulosť neznáma. Na tom je koniec koncov založená aj archeológia, paleontológia a ďalšie vedné obory. Intuíciu fyzikálnej kauzality je možné vyvrátiť pomocou jednoduchého príkladu. Ak máte v urne jednu bielu a jednu červenú loptu a v druhom ťahu ste vytiahli červenú loptu, aká je pravdepodobnosť, že v prvom ťahu vytiahnete červenú loptu? Pravdepodobnosť evidentne nie je 50:50, ale je nulová. Zmätky ohľadom fyzikálnej a informačnej kauzality zrejme znemožňujú mnohým aj správne vyriešiť Monty Hallov problém.

Jaynes uvádza ďalšie rozdelenia pravdepodobnosti: Binomiálne a multinomiálne. Tieto získame z hypergeometrického rozdelenia. V prípade keď je počet lôpt v urne veľký, majú predchádzajúce ťahy minimálny vplyv na pravdepodobnosť a táto teda ostáva konštantná. Napríklad pri 500000 bielych a 500000 červených je pravdepodobnosť po prvom ťahu 499999/1000000, čo je zanedbateľná odchýlka od 0.5.

V ďalšom odseku sa zaoberá Jaynes ťažším prípadom, keď lopty po vytiahnutí z urny vraciame naspäť. Problém vzniká tým, že máme informáciu o tom, že sme vložili loptu naspäť do urny. Väčšinou bude niekde na vrchu a teda pravdepodobnosť, že ju znova vytiahneme je vyššia. Ako máme však modelovať túto dodatočnú informáciu?  Jaynes popisuje postup s jemu typickým sarkazmom:

In probability theory there is a very clever trick for handling a problem that becomes too difficult. We just solve it anyway by:
(1) Making it still harder;
(2) Redefining what we mean by “solving” it, so that it becomes something we can do;
(3) Inventing a dignified and technical sounding word to describe this procedure, which has the psychological efect of concealing the real nature of what we have done, and making it appear respectable (Jaynes, s. 319)

Jaynes navrhuje, že sa dodatočnej informácie vzdáme tým, že urnu po vrátení premiešame tak že nasledujúci ťah je znovu náhodný. Tým sa problém stane na oko ťažším, keďže sme sa vzdali užitočnej informácie (1). Zároveň sme problém trochu obmenili, keďže sme zaviedli miešanie (2). V štatistike sa tomuto postupu hovorí randomizácia (3).

K téme náhodilosti a randomizácie nasleduje ďalšia kázeň od Jaynesa. Vedci si totiž znova mýlia fyzikálny stav sveta s informačným stavom. Náhodilosť ako fyzikálny stav neexistuje a reprezentuje len našu neznalosť:

Shaking does not make the result “random”, because that term is basically meaningless as an attribute of the real world; it has no clear definition applicable in the real world. The belief that “randomness” is some kind of real property existing in Nature is a form of the Mind Projection Fallacy which says, in effect, “I don’t know the detailed causes therefore Nature does not know them.” What shaking accomplishes is very different. It does not affect Nature’s workings in any way; it only ensures that no human is able to exert any wilful influence on the result. Therefore nobody can be charged with “fixing” the outcome. (s. 320)

Randomizácia je teda len metódou ako pridať do problému neznalosť. Jaynes diskutuje aj možnosť, že urnu nepremiešame a informáciu o vytiahnutej lopte zahrnieme do výpočtov. Jaynes modeluje situácie pomocou jednoduchej Markovskej reťaze prvého stupňa. Výsledky týchto výpočtov sú však nepresné a nepraktické. Výpočet je komplikovaný a zároveň model je moc jednoduchý na to aby popísal reálnu komplexitu a teda, aby poskytol efektívne predpovede.

Jaynes uzatvára kapitolu o rozdeleniach pravdepodobnosti varovaním, že v praktických prípadoch je dôležité zamyslieť sa nad tým, či spomenuté situácie s urnami a loptami zodpovedajú nášmu reálnemu problému. Ak tomu tak nie je, musíme sa vrátiť späť k základným pravidlám a odvodiť potrebné rozdelenie pomocou nich.

Tretia kapitola vychádzala z toho, že máme určité hypotézy o procese generujúcom dáta (urna, farebné lopty, náhodnosť) a pomocou týchto hypotéz určíme pravdepodobnosť dát p(D|H). V reálnom výskume nás ale zaujíma iný prípad. Dáta sú dané a nás zaujíma pravdepodobnosť hypotéz p(H|D). V štvrtej kapitole sa Jaynes zaoberá metódami testovania hypotéz.

Pravdepodobnosť p(H|D) získame z p(D|H) jednoducho pomocou Bayesovej vety p(H|D)= p(D|H)p(H) / p(D). Diskusia rozdelení v tretej kapitole teda nebola zbytočná, keďže tieto využijeme p(D|H) aj pri testovaní hypotéz. Zatiaľčo p(H|D) označuje aposteriórnu pravdepodobnosť, p(H) označuje apriori pravdepodobnosť alebo skrátene prior. Prior neimplikuje časové poradie dát. Výsledok je v zásade rovnaký nezávisle, na tom ktorá časti dát tvorí prior a ktorá posterior.

V ďalšom odstavci Jaynes demonštruje ako testovať binárne hypotézy pomocou fiktívnych dát z prístroja, ktorý produkuje chybné produkty. Binárnou hypotézou môže byť napríklad, že stroj produkuje chybné produkty s pravdepodobnosťou 1/11 (H1) alebo s komplementárnou pravdepodobnosťou 10/11 (H2). Evidencia v prospech H1 je daná ako e(H1|D) = 10 log[ p(H1|D)/ p(H2|D)]. Jaynes uprednostňuje logaritmus s bázou 10, ale v zásade by sme mohli použiť aj inú hodnotu. Výsledok je tak daný v decibeloch. Pozitívny vysoký výsledok hovorí v prospech H1. Negatívny výsledok v prospech H2 a výsledok okolo nuly indikuje, že o respetívnej platnosti hypotéz nemožno na základe dát spoľahlivo rozhodnúť.

V prípade viacerých hypotéz potrebujeme pre každú hypotézu H nájsť pravdepodobnosť komplementárnej negácie H a dosadiť ju za p(H2|D). Vo väčšine prípadov sú naše hypotézy navzájom vylučujúce a vyčerpávajúce takže túto pravdepodobnosť môžeme získať pomocou našich dvoch základných pravidiel.

V druhej časti kapitoly sa Jaynes zaoberá spojitými rozdeleniami. V prvom rade Jaynes poznamenáva, že striktne vzaté sú všetky v počítačoch uložené dáta diskrétne – sú kvantizované a digitalizované. Spojité rozdelenia však môžu prakticky uľahčiť naše výpočty a preto sú zaujímavé. Spojité rozdelenia možno odvodiť z tých diskrétnych. Jaynes zdôrazňuje, že mapovanie od diskrétneho k spojitému rozdeleniu si vždy treba uvedomiť a rozmyslieť, inak sa môžeme pri neskorších výpočtoch s integrálmi dopracovať k paradoxom.

Praktickým dôsledkom spojitých rozdelení je, že pravdepodobnosť rozdelenia hypotéz môžeme modelovať pomocou spojitého rozdelenia a tým pádom môžeme testovať nekonečný počet hypotéz. Napríklad v prípade chybných produktov môžeme testovať celú škálu poruchovosti od 0 až po 100 percent chybných produktov. Nakoniec si Jaynes kladie otázku ako zvoliť kontinuálne p(H) v prípade keď nemáme žiadne apriórne vedomosti o relatívnej pravdepodobnosti hypotéz. V tomto prípade nemôžeme uprednostniť žiadnu hypotézu a použijeme rovnomerné rozdelenie.

Zatiaľčo vo frekventistickej literatúre je testovanie viacerých hypotéz kontroverzné, Jaynes ukazuje, že z pohľadu teórie pravdepodobnosti ako rozšírenej logiky to nie je žiadny problém. Takýto bayesiánsky prístup má samozrejme praktické výhody, keďže sa nemusíme snažiť skomprimovať výskum komplexného fenoménu do série binárnych otázok a odpovedí.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s