Monty Hall Problém: Ľudia verzus holuby

V porovnaní s ostatnými živočíchmi sú ľudia veľmi schopní v riešení neznámych komplexných problémov. Hlavným kľúčom k úspechu sú ich predchádzajúce bohaté vedomosti a skúsenosti. Tieto neobsahujú len zbierku pamäťových stôp, ale sú štrukturované do intuitívnych teórii o fungovaní sveta. V zopár (našťastie zriedkavých) prípadoch tento teoretický rezervoár žalostne zlyhá. Monty Hall problém (MHP) je takýto problém. Človek by v týchto prípadoch spravil najlepšie, keby hodil svoje intuície za hlavu a začal na prázdno.

MHP funguje nasledovne. Ste v televíznej súťaži. Moderátor menom Monty Hall vám dá na výber jedni z troch dverí. Za jednými z dverí je skrytá odmena. Ak trafíte správne dvere vyhráte, v opačných dvoch prípadoch prehráte. Po tom čo ste si dvere vybrali, moderátor otvorí jedny z dvoch zostávajúci dverí, za ktorými výhra nie je. Následne máte možnosť zmeniť svoju voľbu alebo zostať pri voľbe pôvodnej.

Zmena má dvojtretinovú pravdepodobnosť úspechu a tvorí optimálnu stratégiu. Ľudia si myslia, že obidve zostávajúce dvere sú rovnako pravdepodobné a svoju voľbu nezmenia, resp. volia zmiešanú stratégiu.

Psychologický výskum poukázal na viaceré faktory, ktoré hrajú pri nesprávnom rozhodovaní rolu. Ľudia zanedbávajú fakt, že pozícia výhry ovplyvnila voľbu dverí, ktoré moderátor otvoril. Ak zadanie vyzdvihne tento kauzálny súvis výkon probandov sa zlepší. Ak je odmena vyššia výkon sa takisto zlepší. (Odmenu možno zvýšiť napríklad aj zvýšením počtu dverí. Ak proband hladá výhru medzi 10 dvermi a otvoríme mu 8 z 9 zostávajúcich dverí, zmena voľby dverí má 90 percentnú šancu na úspech.) Vzdelanie môže takisto hrať určitú rolu. Žiaci po ukončení základky z veľkej časti volia optímálnu stratégiu. Zotrvanie pri pôvodnej voľbe môže byť dôsledkom ilúzie kontroly. Ak prvú voľbu vykoná niekto iný, probandi sú ochotnejší následne zvoliť optimálnu stratégiu.

Vo všetkých vyššie uvedených manipuláciách však ľudia neadaptujú optimálnu stratégiu na sto percent ani po výdatnom tréningu. Tento fakt stojí v kontraste s učením holubov. Herbranson a Schroeder (2010) trénovali holubov s adaptovanou verziou MHP. Holuby zobali pri troch osvetlených pákach. Po prvom zobe, dvere zhasli na pol sekundy potom boli dve páky znova osvietené (pričom dvere ktoré zostali zhasnuté neboli cieľom prvého zobu a ani za nimi nebola odmena). Po ďalšom zobe holub buď dostal odmenu alebo nasledoval time-out. Ako kontrolná skupina slúžili ľudia, ktorý dostali MHP bez inštrukcie a museli sa naučiť nájsť odmenu podobne ako holuby na základe feedbacku. Holuby sa naučili správnu stratégiu – zmeniť pozíciu potom čo páka bola osvetlená a aplikovali ju prakticky na sto percent. Výkon ľudskej kontrolnej skupiny konvergoval ku 67 percentám. V druhom experimente autori otočili pravdepodobnosti výhry aby overili či charakter samotnej odpovede (zmena vs. žiadna zmena) nehrá určitú rolu. Výhra bola v dvoch tretinách prípadov za dverami, ktoré súťažiaci zvolil. Inak bol priebeh MHP rovnaký. Tentokrát bolo optimálnou stratégiou voľbu nemeniť. Výsledok bol však prakticky identický k prvému experimentu. Holuby aj v tomto prípade adaptovali optimálnu stratégiu na 100 percent zatiaľčo ľudia konvergovali ku 67 percentám.

Autori interpretujú rozdiely v riešení problému ľudmi a holubmi ako kvalitatívny dôsledok rozdielneho kognitívneho spracovania problému. Ľudia so svojím balíčkom predpojatosti a intuícii zlyhajú, lebo tieto nepasujú na danú situáciu. Holuby sú tiež schopné, čo sa týka riešenia nových neznámych problémov. Ich stratégiou však nie je vytvárať bohaté štruktúrované teórie. Holuby zohľadňujú frekventovanosť pozitívnych udalostí v závislosti svojho správania a správanie hrabivo adaptujú. Behavioristi nazvali takéto učenie operantné kondicionovanie a holuby sú v ňom obzvlášť úspešné. Preto ich Skinner a co. mali za model správania.

Nasledujú moje komentáre k experimentom a k interpretácii. V prvom rade MHP je ľahko obmenená. Úloha neobsahuje inštrukciu. Inštrukcia je kľúčovým faktorom. Naopak v scenároch bez inštrukcie môžu hrať iné faktory rolu. Zistiť, ktoré faktory sa podielajú na riešení v tejto verzí MHP by vyžadovalo ďalšiu dávku experimentovania. Jedna možnosť, na ktorú autori poukazujú je zaujímavá. Frekvencia aplikácie úspešnej stratégie korešponduje s pravdepodobnosťou odmeny – je dvojtretinová v oboch experimentoch. Prečo by sa ľudia snažili emulovať pravdepodobnosť odmeny? Tento fenomén bol pozorovaný aj u iných problémov a má nasledovné možné vysvetlenie. Pomocou optimálnej stratégie môžem dosiahnuť maximálne dvojtretinovú úspešnosť. Akú stratégiu mám zvoliť ak chcem byť úspešný vo viac ako dvoch tretinách prípadov? V zásade musím trafiť správne jednu tretinu prípadov, keď je odmena za dverami ktoré som pôvodne zvolil a dve tretiny prípadov, keď je odmena za susednými dverami. Ideálny výkon teda pozostáva z frekvencie zmeny v dvoch tretinách prípadov. Samozrejme, keďže probandi nie sú jasnozrivý, takáto stratégia nedáva zmysel. Ilúzia jasnozrivosti by však nebola prekvapujúca. Táto interpretácia je zaujímavá, ale nie je mi jasné prečo by mala byť dominantným faktorom práve v tejto verzii MHP a nie v ostatných verziách. Skôr sa mi zdá že samotné percento úspešnosti vzniká v každej verzii odlišnou konšteláciou aktivovaných biasov a odmien a interpretovať konkrétne číslo nie je moc zmysluplné.

Apropo odmeny. Problémom komparatívneho výskumu je, že odmeny sa vždy líšia. Holuby dostanú pri úspechu nažrať. Ľudia dostanú len feedback a možno nejaký vnútorný pocit úspechu a satisfakcie. Možným vysvetlením rozdielov je že holuby adaptujú optimálnu stratégiu, lebo im ide o veľa. Naopak ľudia si žonglujú s pravdepodobnosťami, lebo v ich experimente o nič nejde. Zaujímavé by bolo ľudom zmeniť odmeny, resp. pridať tresty (napr. elektrošok do genitálie v prípade nesprávne zvolených dverí). Je dosť možné, že ľudia by veľmi rýchlo vytriezveli zo svojich biasov a predviedli optimálny výkon.

Herbranson, W. T., & Schroeder, J. (2010). Are birds smarter than mathematicians? Pigeons (Columba livia) perform optimally on a version of the Monty Hall Dilemma. Journal of Comparative Psychology, 124, 1–13.

Herbranson, W. T. (2012). Pigeons, Humans, and the Monty Hall Dilemma. Current Directions in Psychological Science, 21, 297-300.

John Craig a matematické princípy kresťanskej teológie

V tomto článku chcem naviazať na predchádzajúci príspevok o filozofii tráviaceho traktu. Myslím, že férová námietka by znela, že v skutočnosti som v článku nepreberal filozofiu ale teológiu tráviaceho traktu. Chemero by asi namietol, že nech už filozofiu a teológiu odlíšime akokoľvek, techniky a výsledky sú podobné – absurdné aprioristické argumenty a myšlienkové experimenty vedú k pomýlenému pohľadu na svet. V závere som hodnotil, či závery takéhoto rozumovania reflektujú kognitívne kategórie, alebo skôr kultúrny proces, ktorý dokáže popohnať argumentáciu do neobmedzeného stupňa absurdnosti. Pri tejto otázke dáva zmysel zvážiť vplyv teológie. V jej prípade by bol totiž kultúrny rámec jasne daný kresťanským náboženstvom a konkrétnejšie teologickými predstavami daného veku v danej krajine. Plauzibilnou alternatívou je, že zatiaľčo filozofia a myslenie rádových veriacich sa drží kognitívnych limitov a v rámci toho si zachováva určitú dávku zdravého pragmatického rozumu, teológia týmto “obmedzeniam” nepodlieha. Filozofia a jej argumentačné nástroje sa tak stali len obeťou zvrátených motivácii teológov. V takom prípade by sme očakávali, že obeťou by sa nestala len filozofia ale aj ostatné vznikajúce oblasti bádania – napríklad v štatistike.

V Jaynesovej knihe som našiel odkaz na dielo Johna Craiga. Craig bol škósky matematik, píšuci na na prelome 17. a 18. storočia. Craig bol priateľom Isaaca Newtona a vo viacerých svojich menších dielach sa zaoberal matematickými nástrojmi, ktoré Newton zaviedol. Craigovo hlavné dielo sa však týkalo štatistiky a pravdepodobnosti. Matematické princípy kresťanskej teológie (Theologiae Christianae Principia Mathematica, 1698) sa zaoberali pravdepodobnosťou historických udalostí. Konkrétna udalosť, ktorej pravdepodobnosť Craiga zaujímala, bol život Ježiša Krista. Craig vymyslel následujúci model pravdepodobnosti:

p = cz + bx + (n-1)s + T^2 d / t^2.

V prvom rade treba povedať, že koncept pravdepodobnosti ako hodnota medzi 0 a 1 v Craigovej dobe neexistoval. Craigova pravdepodobnosť naberala hodnoty od 0 až po nekonečno, pričom vyššie hodnoty znamenali vyššiu pravdepodobnosť. Rôzne členy sumy vyjadrovali vplyv rôznych faktorov na pravdepodobnosť. Preberme si tieto faktory jeden za druhým. cz vyjadruje historickú pravdepodobnosť, ktorú udalosti dávajú primárny historici. c označoval počet nezávislých primárnych historikov a podľa Craiga nimi boli štyria apoštoli a s ich menami spojené kanonické evanjelia. x bola pravdepodobnosť, ktorú danej udalosti pridal jeden priamy svedok, ktorý udalosť zažil. Počet priamych svedkov b bol v 17. storočí 0 a tak je tento člen pre náš výpočet irelevantný. s je negatívnou hodnotou a tvorí takzvané podozrenie vznikajúce kopírovaným priamych zdrojov. n je počet takýchto kopírovacích udalostí – od historickej udalosti až po dnes. Keďže kopírovaním prichádza k omylom, čím je počet kopírovania vyšší, tým nižšia je pravdepodobnosť danej udalosti. Posledný člen je takisto nedatívny a vyjadruje mieru podozrenia vznikajúcu s plynúcim časom, nezávisle od kopírovania. Formu tohoto člena Craig okopíroval od Newtona a má vyjadrovať niečo ako akceleráciu podozrenia v závislosti od času. Primárnym zmyslom kvadratickej formy člena bolo zrejme dodať formulke glanc odbornosti.

Craigova formulka má zopár neduhov, ktorých si už aj Craig bol vedomý. V prvom rade pravdepodobnosť ktorú definoval ako pozitívnu sa môže stať negatívnou pri vysokom počte kopírovaní. Craig tento problém nedokázal vyriešiť a jednoducho nariadil, že negatívne hodnoty treba vnímať ako nulové. Ďalej Craigova rovnica obsahuje nedefinované parametre z,n,s,d. Craig navrhol, že n je zhruba proporčné času a že jedno kopírovanie sa udeje každých 200 rokov. z a s vyjadril Craig v jednotkách pravdepodobnosti získanej očitými svedkami. Zvesť jedného primárneho historika mala hodnotu 10 správ očitých svedkov z=10x. Ďalej s zvolil Craig tak, že 100 kopírovaní bolo potrebných, aby bola správa jedného očitého svedka anulovaná s= -x/100. Nakoniec k= -x/100, čiže priznanie očitého svedka opozdenené o 50 rokov je ekvivalentné jednému kopírovaniu. Po dosadení dostal Craig  pre T=0, p=40x a pre T=1696, p=28x. Pravdepodobnosť udalosti bola teda pôvodne 40 očitých svedkov a časom klesla na 28 očitých svedkov. Znamená to, že veľký Džéjkéj naozaj existoval? To samozrejme nebola otázka ktorá Craiga zaujímala. O autenticite evanjelií a v nich popísaných udalostí nemal Craig pochýb. Craiga zaujímali pre aké T klesne p na nulu. Podľa Craiga totiž pasáž Lukáš 18:8 implikovala, že koniec sveta príde v čase keď v Krista už nikto viac nebude veriť. Inak povedané keď historická pravdepodobnosť udalosti klesne na nulu nastane koniec sveta. Craig vyrátal, že sa tak stane v roku 3150.

Zatiaľčo kresťania si teda ešte počkajú, my ostatní môžeme oslávovať – napríklad už tento týždeň. Mozgostroje Vám týmto prajú veselý koniec sveta.

Nash, R. (1991). John Craige’s Mathematical principles of Christian theology. Southern Illinois University Press.

Stigler, S. (1986). John Craig and the Probability of History: From the Death of Christ to the Birth of Laplace. Journal of the American Statistical Association, 81, 396, 879-887.

Jaynes: Probability Theory, Kapitola 8

8. kapitola ponúka diskusiu zopár vybraných štatistických konceptov (hlavne z frekventistickej literatúry). Pre bayesiánsku štatistiku sú tieto koncepty nepotrebné resp. vyplývajú automaticky v dôsledku definície pravdepodobnosti. Jaynes kontrastuje ad-hoc postulovanie týchto konceptov s princípmi teórie pravdepodobnosti ako rozšírenej logiky, ktorá je pevne vystavaná na axiómoch.

Postačujúca štatistika vyjadruje súhrn informácie z dát potrebný pre odhad. Napríklad aritmetický priemer tvorí postačujúcu štatistiku pre ML odhad strednej hodnoty gausovho rozdelenie. Aritmetický priemer tvorí redukovanú informáciu. Napr. trojice (3,3,3), (3,0,6) a (1,2,6) tvoria rozličné pozorovania, avšak ich aritmetický priemer je rovnaký a tým pádom aj ML odhad parametra je rovnaký. Keďže postačujúca štatistika nepoužíva celkovú informáciu v dátach, frekventisti musia odôvodniť prečo je takýto spôsob výpočtu, ktorý zanedbáva informácie valídny. V bayesiánskej analýze sa objavuje postačujúca štatistika automaticky. Bayesiánska analýza však na nej nie je závislá. Napríklad Cauchyho rozdelenie nemá postačujúcu štatistiku, čo nebráni jeho využitiu v bayesiánskej analýze. Zaujímavé je, že v bayesiánskej analýze závisí voľba postačujúcej štatistiky od voľby apriori rozdelenia. Ak totiž dáta poskytujú informáciu, ktorú už prior zahŕňa, táto informácia môže byť zanedbaná a postačujúca štatistika ju nezohľadní. Ako u postačujúcej štatistiky tak aj v prípade anticilárnej štatistiky a likelihood princípu, Jaynes konštatuje, že tieto koncepty sú z pohľadu štatistiky ako rozšírenej logiky zbytočné.

Jaynes diskutuje ako kombinovať evidenciu z viacerých experimentov. Typickým spôsobom sú metaanalýzy. V bayesiánskej analýze je kombinovanie dát z viacerých experimentov jednoduché. Výsledné aposteriórne pravdepodobnosti slúžia ako prior pre následné analýzy. Jaynes však varuje, že určité podmienky musia byť splnené a bayesiánska analýza (na rozdiel napr. od frekventistických meta-analýz) tieto podmienky explikuje.  Napríklad základný prior (predtým než sme videli akékoľvek dáta) musí byť spoločný pre všetky dáta. Takisto dáta musia byť kondicionované všetkými predchádzajúcimi dátami. Často predpokladáme, že dáta sú navzájom nezávisle, avšak tento predpoklad nie je samozrejmosťou. Jaynes ilustruje pomocou následného príkladu. Podľa istej čínskej bájky sa pokúsime odhadnúť výšku cisára na základe názoru jeho poddaných. Ak spriemerujeme názor milióna opýtaných obyvateľov dostaneme odhad výšky cisára s milimetrovou presnosťou. Problém je v tom, že názory obyvateľov nie sú navzájom nezávislé. Väčšina obyvateľov panovníka nikdy nevideli a svoj názor si nevytvorila nezávisle od ostatných ale na základe šíriacich sa klebiet.

Jaynes diskutuje nasledujúcu námietku voči teórii pravdepodobnosti ako rozšírenej logiky. Problém sa týka voľby množiny hypotéz a tvrdení, ktorých pravdepodobnosť chceme zistiť. Napríklad môžeme zvoliť výrok “pes beží”. Tento môžeme rozsekať na elementárne výroky “pes sa odrazil prednou pravou nohou od zeme”,”dopadol na ľavú zadnú nohu”… Akú mieru detailu zvoliť? Jaynes ukazuje, že v hraničných prípadoch detailná voľba precíznosti výsledok výpočtu neovplyvní a delenie hypotéz si môžeme odpustiť. Napr. ak nás zaujíma pravdepodobnosť či pes nebeží tak informáciu, ktorá konkrétna laba sa odrazila od zeme si môžeme odpustiť. Úplne stačí, že vieme že sa pes odrazil od zeme.

Jaynes diskutuje ešte zopár ďalších ad-hoc trikov a problémov. Zároveň konštatuje:

Since there is no end to the conceivable arbitrary devices that might be invented, we see no way to prove once and for all that no such attempt will succeed, other than pointing to Cox’s theorems. But for any particular device we can always find a direct proof that it will not work; that is, the device cannot change our conclusions unless it also violates one of our Chapter 2 desiderata. (s. 264-265)

Podľa Jaynesa ad-hoc pravidlá sú populárne vďaka ich intuitívnosti, avšak rigorózne odvodenie z axiómov nemôžu nahradiť:

Clever tricks are always pleasant diversions, and useful in a temporary way, when we want only to convince someone as quickly as possible. Also, they can be valuable in understanding a result; having found a solution by tedious calculation, if we can then see a simple way of looking at it that would have led to the same result in a few lines, this is almost sure to give us a greater con dence in the correctness of the result, and an intuitive understanding of how to generalize it. […] But the road to success in probability theory is through mastery of the general, systematic methods of permanent value. (s. 269)

Jaynes: Probability Theory, Kapitola 7

Siedma kapitola diskutuje Gaussovo rozdelenie a obsahuje mnoho mne doposiaľ neznámych detailov. Jaynes diskutuje rôzne možnosti ako toto rozdelenie odvodiť. Táto diskusia je pekne zasadená v historickom kontexte.

John Herschel (1850) sa zaoberal rozdelením odchýliek pri pozorovaniach pozície hviezdy. Ak predpokladáme, že horizontálna a vertikálna pozícia sp nezávislé a že pravdepodobnosť je symetrická okolo stredu rozdelenia, získame dvojdimenzionálne kruhové symetrické gaussovo rozdelenie:

p(x,y)=\frac{\alpha}{\pi} exp(-\alpha(x^2 + y^2))

, kde \alpha je voľný parameter skrývajúci rozptyl. Maxwell (1860) odvodil podobným spôsobom analogické rozdelenie pre tri dimenzie. Zaujímavé na týchto odvodeniach je že v podstate nepoužívajú teóriu pravdepodobnosti, ale vychádzajú z určitých geometrických podmienok, ktoré gaussovo rozdelenie spĺňa.

Gauss (1809) odvodil svoje rozdelenie iným spôsobom. V predchádzajúcom článku sme videli, že aritmetický priemer tvorí ML odhad pre vzorku nezávislých pozorovaní s gausovým rozdelením. Gauss postupoval presne opačne. Vychádzal z toho, že aritmeticky priemer je nejako zaujímavý a pomocou neho spätne odvodil, že pozorovania vo vzorke musia podliehať gausovmu rozdeleniu. Gauss zároveň ukázal, že gaussovo rozdelenie je nutnou podmienkou, aby sme dostali aritmetický priemer.

Vernon Landon (1941) študoval vlastnosti frekvenčného rozdelenia elektrického napätia rôznych zdrojov šumu. Rozličné zdroje vykazovali podobné vlastnosti a Landon sa snažil nájsť teoretické zdôvodnenie pre túto uniformitu. Landon vychádzal z toho, že rozdelenie napätia v závisí len od E(v^2)= \sigma teda p(v| \sigma). Napätie sa iteratívne mení v_2=v_1+\eta, kde \eta je drobné v porovnaní s \sigma a podlieha rozdeleniu q(\eta). Nové rozdelenie pravdepodobnosti získame sumou cez všetky možné \eta

f(v_2)= \int \! p(v_1| \sigma) q(\eta) \, \mathrm{d} \eta = \int \! p(v_2-\eta| \sigma) q(\eta) \, \mathrm{d} \eta

Aproximáciou získame

f(v_2|\sigma)=p(v_2| \sigma) - E(\eta) \frac{\partial p(v_2| \sigma)}{\partial v_2} + \frac{1}{2}E(\eta^2)\frac{\partial^2 p(v_2| \sigma)}{\partial^2 v_2} + ...

Landon ďalej postuloval, že E(\eta)= 0, teda odchýlky sú s rovnakou pravdepodobnosťou kladné aj záporné. Zároveň platí, že E(v_2^2)= E(v_1^2)+E(\eta^2) = \sigma^2 + E(\eta^2) a teda f(v_2|\sigma)=p(v_2| \sigma)+ E(\eta^2) \frac{\partial p(v_2| \sigma)}{\partial \sigma^2} . Z dvoch vyššie získaných definícii pre f(v_2|\sigma) získame diferenciálnu rovnicu, ktorej riešením je gaussovo rozdelenie
p(v|\sigma)= \frac{1}{\sqrt{2\pi \sigma^2}} exp(- \frac{v^2}{2 \sigma^2})

Zaujímavé na tejto derivácii je, že výsledné rozdelenie je nezávislé od rozdelenia odchýliek q(\eta) (pre E(\eta)= 0). To z časti vysvetľuje všadeprítomnosť a dôležitosť gaussovho rozdelenia.

Tým sa končí historický prehľad a Jaynes diskutuje interpretáciu gaussovho rozdelenia. Pre frekventistov tvorí voľba gaussovho rozdelenia ako modelu vierohodnosti predpoklad, že ak by sme pozorovali frekventovanosť meraných hodnôt tieto budú konvergovať do gaussovho rozdelenia. Podľa Jaynesa takáto interpretácia nie je vôbec potrebná. Gaussovo rozdelenie vyjadruje našu apriori vedomosť, že iba prvé dve stredné momenty rozdelenia sú relevantné. V prípade predpovedí znie bayesiánska interpretácia nasledovne. Očakávame, že len prvé dve momenty zostanú medzi pozorovanou a novou vzorkou konštantné. Pritom nie je vôbec dôležité, aké je rozdelenie pozorovaných hodnôt. Ak sú len prvé dve momenty relevantné, tak gaussovo rozdelenie minimalizuje chybu v predpovediach, a to nezávisle od aktuálneho rozdelenia hodnôt.

Jaynesovu interpretáciu vnímam kriticky. Kladie prílišný dôraz na predpovede. Presné predpovede sú dôležité pre inžinierov a fyzikov. V psychológii je však dôležitejšia explikačná hodnota modelov. Preto je aj samotná forma rozdelenia je zaujímavá a dôležitá. Samozrejme, Jaynesov argument možno akceptovať vo forme “Ak máme len informáciu, že len prvé dve momenty sú relevantné, tak postulujeme gausovské rozdelenie pre naše parametre”.

Jaynes rozpracuváva svoju interpretáciu gaussovho rozdelenia. Ak definujeme len prvé dve momenty a hľadáme rozdelenie s maximálnou entropiou – t.j. s maximálnou neistotou, získame práve gaussovské rozdelenie. Ďalším dôležitým faktorom je, že ak akceptujeme gaussovské rozdelenie, tak pri ňom aj ostaneme. Nové dáta ovplyvnia len odhad dvoch parametrov. Deje sa tak vďaka viacerým matematickým vlastnostiam gausových funkcii. Napríklad produkt dvoch gausových funkcii je znova gaussova krivka. Fourierova transformácia gausovej krivky má znova formu gausovej krivky, v dôsledku čoho aj konvolúcia dvoch gausových kriviek tvorí gausovu krivku. Jaynes demonštruje toto fungovanie gausovej krivky na príklade Galtonových modelov výšky ľudskej populácie. Rozdelenie výšky tvorí gausovu krivku. Zároveň rozdelenie výšky detí rodičov vykazuje variabilitu gausovho rozdelenia. Výška ľudí v novej generácii tak bude znova vykazovať gausovo rozdelenie. Galton zároveň odvodil aký musí byť pomer rozptylu dvoch konvoluovaných gausových rozdelení aby bol rozptyl výšky následných generácii stabilný. Jaynes diskutuje paralely medzi podobnými stabilnými gausovými rozdeleniami v biológii, fyzike a ekonómii.

Ku konci kapitoly Jaynes zmieňuje potenciál použitia gaussovských funkcii ako stavebných kameňov pre komplexnejšie funkcie a komplikovanejšie rozdelenia pravdepodobnosti. V priebehu 19. storočia napr. viacerý vedci predpokladali, že gausovské rozdelenia tvoria základné kamene inferencie, ktoré sú výsledkom procesu ťahania vzoriek. Každé ne-gausove rozdelenie ukrýva viaceré gausove rozdelenia a úlohou vedca má byť zistiť aké faktory tvoria a ovplyvňujú tieto subpopulácie. Takýto predpoklad je problematický, keďže aj gaussove rozdelenie možno rekurzívne rozdeliť na ďalšie gaussove rozdelenia. Ďalej takmer vždy existuje viacero možných kombinácii ako negausovskú krivku rozložiť. Matematicky nie je tento inverzný problém jasne definovaný. Jaynes však ukazuje, že ak vezmeme tento problém ako problém inferencie, tak voľba apriori pravdepodobnosti parametrov gausovských stavebných kamienkov môže ponúknuť dostatok informácie, aby bol problém matematicky jednoznačne definovaný. Snaha o dekompozíciu teda nie je celkom stratená. Jaynes sa vo svojich víziách rozhodne nemýlil. Dnes tvoria metódy tzv. gausovských procesov aktívnu oblasť výskumu v obore strojového učenia.

Jaynes: Probability Theory, Kapitola 6

Šiesta kapitola sa zaoberá odhadom parametrov. Touto témou som sa zaoberal už v predchádzajúcom článku. Ako som už tam uviedol bayesiáni optimalizujú aposteriórnu pravdepodobnosť, zatiaľčo frekventisti optimalizujú vierohodnosť. Jaynes samozrejme zastáva bayesiánsky prístup. Jaynes sa v tejto kapitole snaží ukázať, že odhad parametrov možno vnímať ako proces testovania hypotéz, kde je počet hypotéz nekonečný – hypotézy zahŕňajú všetky hodnoty parametra. Jaynes ilustruje svoj pohľad na dvoch príkladoch. V prvom sa vracia k situácii s loptami dvoch farieb a rôznej početnosti. V predchádzajúcich kapitolách bola početnosť lôpt v nádobe známa a zaujímalo nás pravdepodobnosť farby lôpt pri náhodných ťahoch. V tejto kapitole však Jaynes problém otočil. Početnosť lôpt v nádobe je neznáma, máme však informáciu o výsledku ťahov. Ak sme v piatich ťahoch vytiahli 3 biele a 2 červené lopty, dozvedeli sme sa tým niečo o celkovom počte lôpt a ich farebnej proporcii? Zjavne celkový počet lôpt N musí byť väčší-rovný ako pozorovaný počet n=5. Aké konkrétne N>4 zvoliť nám však dáta nepovedia. Podobne čo sa týka celkového počtu červených aj tu vieme len,  že R>=r a R<=N. Konkrétne p(R|D) závisí od apriórneho p(R). Jaynes demonštruje fungovanie inferencie pomocou rovnomerného rozdelenia  p(R). Odhad R a N nemusí byť zaujímavý len sám o sebe. Jaynes ukazuje ako možno použiť odhad R a N na predpovedanie budúcich ťahov. Tieto predpovede možno trochu prekvapivo nepredpovedajú zlomok červených lôpt z celkového počtu ako r/n ale ako (r+1)/(n+2). Vďaka tomu môžeme získať zmysluplné odhady aj pre extrémne prípady ako n=0. Jaynes ukazuje, že je možné zvoliť p(R) tak, aby sme dostali odhad frekvencie r/n.

Jaynes preberá ďalšie možné voľby pre p(R) – ak vieme že nádoba obsahuje minimálne jednu bielu a červenú loptu, alebo ak pravdepodobnosť farebnosti každej lopty je nezávisle 0.5. Posledne zmienený prior má zaujímavú vlastnosť, že vedie k aposteriórnemu odhadu frekvencie ktorý je nezávislý od dát a rovný 0.5.

Šiesta kapitola pokračuje odhadovaním spojitých parametrov. Jaynes ukazuje, že parameter binomiálneho rozdelenia môžeme odhadnúť znova ako (r+1)/(n+2). Výsledná formulka je rovnaká ako v diskrétnom prípade, keďže hypergeometrické rozdelenie konverguje do binomiálneho pre nekonečné N. Keďže odhad frekvencie je nezávislý od N matematický výraz je rovnaký.

Po jednoduchom príklade nasleduje krátka odbočka, ktorá je pre nás však zaujímavá. Týka sa predčasného zastavenia zberu dát. Vo frekventistickej štatistike je dôležité definovať počet pozorovaní dopredu, alebo sa aspoň postarať o to, aby tento počet bol zvolený nezávisle od pozorovaných výsledkov. Z pohľadu teórie pravdepodobnosti ako rozšírenej logiky však nemá vôbec zmysel dopredu definovať veľkosť vzorky n, ak nám túto informáciu poskytnú dáta. Platí p(n|n)=1, čo je probabiliskou verziou tautológie AA = A, teda “A je pravde a A je pravda” je ekvivalentné ku “A je pravda”. Bayesiánska analýza teda netrpí problémom predčasného zastavenia.

Jaynes pokračuje komplikovanejším príkladom odhadu parametrov. Tento má následnú štruktúru. Zdroj emituje častice s určitou pravdepodobnosťou p. Emitované častice sú registrované senzorom s pravdepodobnosťou q. Jaynes odvodzuje z binomiálneho rozdelenie (pre N nekonečné a r blízke nule) Poissonovo rozdelenie, ktoré sa bežne používa pre odhad počtu udalostí v určitom časovom rozhraní, v našom prípade počet emitovaných častíc (napr.) za sekundu. Jaynes preberá ako odhadnúť počet emitovaných častíc z počtu registrovaných častíc a zo znalosti sily zdroja (ktorá vyjadruje priemerný počet emitovaných častíc pre Poissonovo rozdelenie) a znalosti spoľahlivosti meracieho prístroja. Jaynes diskutuje variabilitu a spoľahlivosť tohoto odhadu. Týmto sa Jaynes dostáva k alternatívnym možnostiam ako odhadnúť parameter. Pomocou minimalizácie štvorcov získame priemer ako odhad centrálneho parametra. Cez minimalizáciu absolútnej odchylky získame medián. Jaynes vyzdvihuje robustnosť mediánu voči extrémnym hodnotám. Ďalšou možnosťou je najpravdepodobnejšia hodnota rozdelenia. Poslednú stratégiu využívajú metódy ML a MAP, ktoré som diskutoval už v svojom predchádzajúcom článku. Jaynes samozrejme uprednostňuje bayesiánsky MAP.

Zvyšok kapitoly je venovaný obšírnej diskusii, dvoch verzii situácie so zdrojom emitujúcim častice a s nepresným meracím zariadením. V oboch verziách pozorujeme viacej vzoriek. V jednej verzii však vieme, že vzorky pochádzajú zo zdroja s rovnakou silou. V druhej verzii nám táto informácia chýba. Vďaka poznatku, že častice pochádzajú zo spoločného zdroja môžeme odhad budúcich pozorovaní postupne vylepšiť, keďže vieme, že tieto pozorovania sú podmienené zdrojom s rovnakými vlastnosťami. V prvej verzii nám však pozorovania nepomôžu vylepšiť náš odhad budúcich pozorovaní, keďže si nemôžeme byť istý, že vlastnosti zdroja sú konštantné.

Kapitola diskusiou odhadu parametra v tzv. problémy taxíka. Povedzme, že sme v neznámom meste a zbadáme taxík s číslom 27. Ak vychádzame, že taxíky sú označené celými číslami od 1 až po N, aký je počet taxíkov v meste. Jaynes diskutuje len analogický problém so spojitým parametrom N a riešenie diskrétneho problému necháva na čitateľa. Môj výpočet je nasledujúci. Zvoľme apriori rovnomerne rozdelenie pravdepodobnosti počtu taxíkov p(N) v rozmedzí 1 až M. Ďalej platí p(D|N) = N^{-k} pre k pozorovaní x_i i=1,..,k a pre $N>m=max_i(x_i)$. Zjavne pozorované číslo taxíka x musí byť väčšie ako ich celkový počet a v opačnom prípade teda platí  p(D|N)=0. Pomocou bayesovej vety získame riešenie

p(N|D)= \frac{N^{-k}}{\sum_{n=m}^M n^{-k}}

Zaujímavé je že suma v deliteli pre k=1 a nekonečné M nekonverguje a teda problém nemá riešenie ak sme pozorovali len jeden taxík. Pre dve hodnoty je síce p(N|D) definované ale odhad centrálnej hodnoty E(N|D) nie je. E(N|D) získame až v prípade troch taxíkov

E(N|D)= \frac{\sum_{n=m}^\infty n^{-2}}{\sum_{n=m}^\infty n^{-3}}

Ak je najvyššie pozorované číslo taxíka m=27, tak získame odhad celkového počtu taxíkov N=54, čo zodpovedá našej intuícii. Postupne, čím počet pozorovaných taxíkov rastie tým viac sa bude približovať náš odhad k najvyššiemu pozorovanému číslo, čo znova zodpovedá našej intuícii. Ak som pozoroval všetky taxíky od 1 až po 27 a niektoré aj viackrát tak s vysokou pravdepodobnosťou bude počet taxíkov 27.

Keď deti posudzujú morálnosť správania mimozemšťanov

Väčšina čitateľov tohoto blogu už zrejme počula o výskume Jonathana Haidta (napr. Schnall et al., 2008) o vplyve hnusu na morálne rozhodovanie. Rottman a Kelemen (2012) vyskúšali ako ovplyvňuje pocit hnusu a znalosť prirodzenosti správania morálne rozhodovanie u 7 ročných detí.

Autori dali deťom posúdiť správanie mimozemšťanov v krátkych príbehoch. Príbehy sa týkali schválne abstraktného správania (maľovanie tváre na bielo, striekanie modrej tekutiny do jazera) mimozemšťanov, aby sa zamedzil vplyv už získaných vedomostí o následkoch a získaných morálnych názorov na rozhodovanie. Autori skúmali dva faktory – vplyv pocitu hnusu a informácie o prirodzenosti správania, a ich vzájomnú interakciu. Autori zozbierali dáta v štyroch skupinách detí. V prvej skupine bola atmosféra experimentu tajne vylepšená smradľavým sprejom. Následne experimentátor ukázal deťom obrázok mimozemšťanov pričom niektorí znázorňovali dané správanie. Experimentátor zvolal “Pozri si na toto, títo Kulvawovia si maľujú tváre na bielo. Ale to je naozaj nechutné, aby si Kulwalovia maľovali tváre na bielo. Je to hnusné!”. Deti následne hodnotili čí je dané správanie správne alebo nesprávne.
Ďalšia skupina detí sa dozvedela, že maľovanie tváre na bielo nepatrí k prirodzenosti mimozemšťanov: “Pozri sa na toto! Niektorí Kulvawovia si maľujú tváre na bielo. Avšak Kulvawovom nikdy nebolo určené aby si maľovali tváre na bielo. Takéto správanie je naozaj neprirodzené”. Autori zahrnuli ešte dve ďalšie skupiny. V kombinovanej skupine miestnosť smrdela a zvolanie experimentátora zahŕňalo hnus aj prirodzenosť. V kontrolnej skupine sa deti dozvedeli, že Kulvawovia občas maľujú tváre na bielo, ale potom ich to onudí a tak s tým prestanú. Každé dieťa posúdilo dokopy 12 situácii. Nižšie je sú znázornené výsledky – počet situácii, v ktorých deti posúdili správanie ako nesprávne.

Rozdiely medzi skupinami nie sú moc veľké. Každopádne vidieť, že aj pocity hnusu aj údaje o prirodzenosti ovplyvňujú morálny úsudok. Ich interakcia je aditívna, nie multiplikatívna. Podľa autorov tieto výsledky podkopávajú väčšinu teórii morálneho vývinu (napr. Kohlberg, Piaget a ich moderný potomkovia), ktoré tvrdia, že deti si tvoria morálny úsudok na základe pozorovaných následkov správania. Mnohé (napr. náboženské) normy a hodnoty však majú neutrálne následky resp. ich následky nemožno pozorovať. Rottman a Keleman ukazujú, že už v detskom veku sú ľudia schopní posúdiť a akceptovať takéto normy na základe negatívnych pocitov a esencialistických predstav o prirodzenosti.

Rottman, J. & Kelemen, D. (2012). Aliens behaving badly: Children’s acquisition of novel purity-based morals. Cognition, 124, p. 356-360.

Schnall, S., Haidt, J., Clore, G. L., & Jordan, A. H. (2008). Disgust as embodied moral judgment. Personality and Social Psychology Bulletin, 34(8), 1096–1109.