Experimentálna Metóda

Experimentálna psychológia má v Nemecku istý šmrnc. Vo filozofii  ťahali Nemci (Kant, Hegel, Schopenhauer) čo sa týka zrozumiteľnosti, pregnantnosti vyjadrovania a naturalizácie riešení za kratší koniec ako briti (Locke, Hume, Spencer, Huxley). No, čo sa týka experimentálnej psychológie boli to Anglosasi, čo pumpovali intuície, písali poézieu (James, Dewey) a  Nemci (Wundt, Fechner) naučili svet ako rigorózne skúmať ľudskú myseľ.

Slová Williama Jamesa visia dnes zarámované v pracovni každého nemeckého experimentálneho psychológa:

But psychology is passing into a less simple phase. Within a few years what one may call a microscopic psychology has arisen in Germany, carried on by experimental methods, asking of course every moment for introspective data, but eliminating their uncertainty by operating on a large scale and taking statistical means. This method taxes patience to the utmost, and could hardly have arisen in a country whose natives could be bored. Such Germans as Weber, Fechner, Vierordt, and Wundt obviously cannot ; and their success has brought into the field an array of younger experimental psychologists, bent on studying the elements of the mental life, dissecting them out from the gross results in which they are embedded, and as far as possible reducing them to quantitative scales. The simple and open method of attack having done what it can, the method of patience, starving out, and harassing to death is tried ; the Mind must submit to a regular siege, in which minute advantages gained night and day by the forces that hem her in must sum themselves up at last into her overthrow. There is little of the grand style about these new prism, pendulum, and chronograph-philosophers. They mean business, not chivalry. What generous divination, and that superiority in virtue which was thought by Cicero to give a man the best insight into nature, have failed to do, their spying and scraping, their deadly tenacity and almost diabolic cunning, will doubtless some day bring about.

William James, Principles of Psychology, Kap. 7.

Reklamy

Statistics vs. Machine Learning

Strojové učenie (Machine Learning, SU) je časť informatiky, ktorá má ku kognitívnym vedám v súčastnosti najbližšie. SU možno považovať historicky za vetvu umelej inteligencie. Zatiaľčo GOFAI sa sústredila na rigidné programy, ktoré programátor obdaril všetkými ich vedomosťami a schopnosťami, SU aplikácie sa snažia extrahovať vedomosti priamo z dát a prostredia, čo vedie k ich väčšej adaptívnosti a flexibilite. Príkladmi SU sú neurónové siete, support vector machines, a bayesiánske modely. Patria sem však aj genetické a evolučné algoritmy.

Z pohľadu štatistikou je celý rozruch a nadšenie okolo SU nemiestny. Vecne vzaté, SU rieši rovnaké problémy ako štatistici a aj riešenia sú v zásade rovnaké. Ako sa už niektorí komentátori pozastavili, dôsledky môžu byť dosť zvláštne. Napriklad na Stanforde učí Andrew Ng  SU pre informatikov a trio Hastie, Friedman, Tibshirani učia štatistické učenie študentov štatistiky. Témy prednášok sú v zásade tie isté. Líšia sa študenti a ich cieľová kvalifikácia. Takisto je zaujímavé, že síce oba obory hovoria o rovnakých veciach používajú odlišnú terminológiu. Kde SU hovorí o neurónoch, závažiach, učení a zovšeobecnovaní štatistici hovoria o parametroch, optimalizácii a validácii. SU je proste viac sexy a tomu zodpovedá aj kvalita doktorandov,  výška financovania a popularita SU. Tieto rozdiely sa teda týkajú iba kultúry a sociálneho prostredia oboch oborov. To znamená, že štatistici za svojimi kolegami v SU zaostávajú len v schopnosti predať výsledky svojej práce.

Takáto analýza myslím, že trochu moc lichotí štatistikom. Jeden zásadný rozdiel existuje a ten je podľa mňa veľmi dôležitý. Striktne vzaté kvantitatívne metódy sú len formalizáciou a kompletizáciou našich intuícii. SU výskumníci sú ochotní doviesť tento proces formalizácie do dôsledkov. Teoreticky je pre nich možné ľudský faktor úplne vyňať z celého vedeckého procesu. Cieľom je teda postaviť stroj, ktorý vzorkuje realitu, vyhodnocuje dáta a v konečnom dôsledku nám induktívne ponúkne teóriu všetkého. Reálna implementácia takéhoto stroja je science fiction. Ide skôr o ideál postupnej redukcie závislosti stroja od rodičovskej ruky vedca, o ktorú sa SU výskum snaží. Dôležitím prínosom tohoto je prístupu, je že nám umožní rigorózne posúdiť otázky, či je možné zvnútra popísať fungovanie vesmíru a ktoré skupiny strojov, procesov a algoritmov a s akou konvergenciou nám k tomu môžu dopomôcť. Inštrumenty, pre svoju prácu si požičia SU z iných oborou matematiky a informatiky ako sú algoritmika, teória komplexity a teória automatov.

Štatistika sa zaoberá konvergenciou ale iba u analýzy dát. Proces špecifikovania otázky a hypotéz, návrhu experimentu a budovania teórii je vo výsostnej kompetencii výskumníka a žiadny stroj ho nenahradí.  Priznám sa, že mi nie je známy koherentný argument prečo by tomu tak malo byť. (Rád sa ale nechám poučiť v diskusii.) Myslím, že dôvody tohoto pohľadu sú čisto historické. Na prelome začiatku 20. storočia, keď vznikala štatistika ako vedný odbor neexistovali počítače. Experimenty nebolo možné automatizovať pomocou počítačov a štatistické analýzy sa museli počítať ručne. Vedci sa preto snažili vymyslieť pokiaľ možno generickú a logisticky nenákladnú metódu výskumu. Výsledkom bola NHST v štatistike a deduktívny vedecky prístup, o ktorého presadzovanie sa zaslúžil najviac filozof Karl Popper.  Tvorba vedeckých teórii a stanovenie hypotéz sa stalo u Poppera metafyzickou záležitosťou nepodliehajúcou vedeckému aparátu a tobôž simuláciam alebo analýzam pomocou strojov.

Lenže čas sa pohol. Nielenže máme rýchle počítače ale matematici a informatici začali nahlodávať otázky, ktoré predtým patrili do pôsobnosti filozofie. Okrem toho že nám SU umožňuje vyvinúť silné aplikácie pre analýzu dát poskytuje aj odpovede na otázky riešené v rámci epistemológie a teórie vedy. Teória učenia nám umožňuje postaviť stroje, ktoré sa učia ale aj zistiť ako sa optimálne učiť  a teda ako by sa mali optimálne učiť vedci. Štatistika odpovede na tieto otázky neumožňuje. Samotné otázky sú jej cudzie.

Cieľom tohoto príspevku bolo uviesť strojové učenie v kontraste so štatistikou. Čo konkrétne také úžasne SU zjavila v oblastiach epistemológie svetu si nechám na nasledujúce príspevky. Na tomto miesto len spomeniem, že v podstate Popperov deduktívny prístup obrátila na ruby. Je to dedukcia, ktorá sa ukazuje ako nemožná a indukcia je cestou napred. Tí nedočkaví môžu nazrieť do nasledujúcich referencii.

Harman, G., Kulkarni, S. (2012). Reliable Reasoning: Induction and Statistical Learning Theory. MIT Press, Cambridge, MA.

Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer, NY.

Feeling the Future: Daryl Bem a Psi

Ak ste posledný rok nežili v úplnej izolácii od vedeckej komunity, tak ste už zrejme počuli o tom čo Daryl Bem a Journal of Personality and Social Psychology vyviedli. Bem je rešpektovaným výskumníkom na poli sociálnej psychológie s občasnou záľubou v parapsychologických experimentoch. Vo svojej poslednej parapsychologickej štúdii Bem (2011) predstavil 9 experimentov testujúcich prekogníciu (teda schopnosť predpovedať budúcnosť). Experimenty boli variácie jednoduchých psychologických experimentov akurát mali Bemove  experimenty opačný priebeh ako tradičné verzie. Manipulácia prišla až pod meranej reakcii. V prvom experimente mali napr. probandi na výber jednu z dvoch záclon. Za jednou záclonou sa skrýval objekt a úlohou probandov bolo tento objekt správne “tipnúť”.  V prvom experimente boli predmetom erotické obrázky. Inštrukcia pre probandov znela nasledovne Bem(2011, s.410):

this is an experiment that tests for ESP. It takes about 20 minutes and is run completely by computer. First you will answer a couple of brief questions. Then, on each trial of the experiment, pictures of two curtains will appear on the screen side by side. One of them has a picture behind it; the other has a blank wall behind it. Your task is to click on the curtain that you feel has the picture behind it. The curtain will then open, permitting you to see if you selected the correct curtain. There will be 36 trials in all.

Tretí a štvrtý experiment Bem boli otočené priming experimenty. Piaty, šiesty a siedmy testovali habituáciu a ôsmy a deviati experiment testovali pamäť. V 8 z 9 experimentov získal Bem signifikantné výsledky v prospech existencie Psi. Bem poslal svoje výsledky do JPSP, čo je najprestížnejší žurnál v pod-obore sociálnej psychológie. Vlna pobúrenia prišla už počas review procesu, keď manuskript cirkuloval vedeckou komunitou. JPSP sa nakoniec rozhodli Bemov článok, čo spôsobilo obrovskú kontroverziu. Čo nasledovalo popisujú Wagenmakers  a kolegovia (2011b):

Bem’s findings—and, perhaps more importantly, the fact that they were going to be published in a major journal—created a storm of media attention. In the New York Times, several researchers voiced strong opinions: Dr. Ray Hyman, a long-time critic of ESP research, questioned the quality of the refereeing process as he believed that the publication of Dr. Bem’s article was “(…) pure craziness (…) an embarrassment for the entire field” , and Dr. Douglas Hofstadter argued for “(…) a cutoff for craziness, and when that threshold is exceeded, then the criteria for publication should get far, far more stringent.” Bem’s article was also discussed in Science and many other media throughout the world. A Google search on “Bem” and “feeling the future” generates over 50,000 hits. Bem himself appeared on the popular US television show The Colbert Report, where the host described Bem’s work as “extrasensory pornception” referring to the fact that Experiment 1 in Bem found that precognition was present only for erotic pictures. In the New York Times, Bem was quoted as saying “What I showed was that unselected subjects could sense the erotic photos, but my guess is that if you use more talented people, who are better at this, they could find any of the photos.”

Okrem značnej pozornosti médii nasledovala aj silná reakcia vedeckej komunity – desiatky publikovaných komentárov a stovky blogov. Na scénu samozrejme nabehli aj profesionálni skeptici s nespočetnými vysvetleniami ako sa mohol Bem k svojim nesprávnym výsledkom dopracovať.

Sledovať celú diskusiu a kontroverzie okolo Bemovej štúdie je úmorné. Štúdiu je možné rozobrať zo všetkých uhlov a ako v každej štúdii je možné nájsť pochybenia. V zásade však treba dodať, že Bemova štúdia zodpovedá  štandardom pre design, prevedenie a publikovanie experimentov v sociálnej psychológii resp. v mnohých bodoch tento štandard aj predčila (a to bol aj jeden z argumentov prečo sa editori rozhodli štúdiu publikovať). Výsledky teda implikujú, že buď Psi existuje a prekognícia funguje alebo psychologická metodológia vedie k nesprávnym výsledkom. Najlepšou metódou uzavrieť túto problematiku je replikácia.  Ritchie a kolegovia (2012) predstavili tri replikácie s celkovou vzorkou 150 probandov, ďalšie 4 labáky pod vedením Josepha Simmonsa (Galak et al., 2012.) vykonali celoplošnú replikáciu s celkovou vzorkou 3289 (!!!) pokusných osôb a mnohé ďalšie nasledovali. PSI sa v žiadnom z týchto prípadov replikovať nepodarilo. Kombinovaná meta-analýza (teda aj s Bemovými výsledkami) ukázala že celkový efekt nie je významne odlišný od nuly (d=.04). Výsledky tejto metaanalýzy a zároveň výsledky všetkých replikácii vyzerajú nasledovne:

Vľavo sú zoradené všetky štúdie a graf vpravo znázorňuje veľkosť efektu aj s konfidenčným intervalom. Veľkosť čiernej bodky ilustruje veľkosť vzorky a teda váhu konkrétnej štúdie. (Tieto replikácie sa týkajú experimentov 8, 9, ktoré sa z technického hľadiska dajú najľahšie zopakovať. Experiment 9 mal okrem toho najsilnejší efekt zo všetkých experimentov v Bemovej štúdii.) Dole je znázornený celkový efekt všetkých dát, ktorého konfidenčný interval zahŕňa nulu.

To znamená, že fyzika je zachránená a psychológia má problém. Možeme identifikovať niekoľko problémových miest. 1. experimentálna metodika a spôsob vyhodnocovania dát. Ako je možné, že Bem získal signifikantné výsledky pomocou štandardných metód? 2. Publikačný proces. Ako je možné, že Bem publikoval svoju štúdiu v prestížnom vedeckom periodiku? 3. Pokusy o replikáciu. Prečo JPSP nepublikoval replikácie?

1. Jedna možnosť je samozrejme, že motyka vystrelí a Bem náhodou získal signifikatné výsledky. Náhoda zrejme zohrala rolu, avšak pri vyše tisíc probandoch má skôr malý vplyv. Problémy teda treba hľadať v metodike. Nie v Bemovej metodike, ale v metodike psychologického výskumu. V predchádzajúcom príspevku som spomenul zopár hriechov a môžeme si ich po jednom prejsť v súvislosti s Bemovou štúdiou.

1.1 viaceré merané hodnoty. V tomto prípade nie je Bemovi čo vyčítať. Ak sa sústredíme na Bemovu hypotézu, že ľudia dokážu predpovedať za ktorou oponou sa obrázok objaví, tak v tomto prípade bola v každom experimente meraná hodnota len jedna a jasne definovaná – počet úspešných predpovedí.

1.2 priebežná analýza dát a ukončenie testovania pri signifikantných výsledkoch. Vo všetkých Bemových experimentoch bolo testovaných 50,100,150 alebo 200  probandov. Tieto uhladené čísla indikujú že veľkosť vzorky bola plánovaná vopred. Na druhej strane sa však zdá, že ktorý násobok päťdesiatky sa realizuje, o tom bolo rozhodnuté na základe veľkosti efektu, a teda na základe priebežnej analýzy dát. Obrázok nižšie ukazuje koreláciu medzi veľkosťou vzorky a veľkosťou efektu.

1.3 viaceré kovariáty. Bem dal svojim probandom aj viaceré psychologické testy, ktoré aj vyhodnocuje (napr. extraverti sú lepší v prekognícii) avšak jeho základné výsledky platia pre celú vzorku a nezávisle od týchto ostatných faktorov.

1.4 viaceré manipulácie. Experimenty boli prehľadné a používali len jedinú manipuláciu. Všeobecne, Bem používal etablované paradigmy, v ktorých je manipulácia a meraná hodnota jednoznačná takže Bem sa nenaskytol veľký priestor v týchto oblastiach pre pochybenia.

Môžeme pokračovať ďalej s inými potenciálnymi faktormi. 1.5 File-drawer (FD) problém: signifikantné výsledky sú publikované zatiaľčo tie nesignifikatné skončia v zásuvke a nikto sa o nich nedozvie. V parapsychológii toto nie je až taký problém. Na jednej strane, keďže nie je toľko labákov zaoberajúcich sa parapsychológiou, výskumníci sa navzájom poznajú, výskum je priehľadný a vedia navzájom o sebe, na čom sa v ostatných labákoch pracuje. Na druhej strane nie je celkom jasné, čo je nultá hypotéza a čo je alternatívna hypotéza. Chýbajúca Psi je tiež dôležitý výsledok, ktorý treba publikovať. No a keď sme už pri publikovaní, tak signifikantnú štúdiu asi rovnako ťažké publikovať ako nesignifikantné výsledky (Bemova štúdia je výnimka, 99 % parapsychológie skončí v bezvýznamných publikáciach špecializovaných na parapsychológiu a iné bizarnosti). Tieto faktory znižujú možnosti ale aj motiváciu selektívneho publikovania signifikantných výsledkov. Ďalšej variantou FD je selektívne rozdelenie probandov medzi pilotovaním a testovaním. Bem diskutuje túto možnosť, no tvrdí, že snáď s výnimkou prvého a druhého experimentu, žiadne pilotovanie nebolo potrebné.

1.6 nesprávna aplikácia NHST. Treba povedať, že Bemom merané efekty nie sú moc silné v dôsledku čoho väčšina p-hodnôt kolíše medzi .01 a .05 (ako sme videli tu, šance na replikáciu nie sú moc vysoké). Takisto bolo Bemovi vyčítané, že aplikoval testy jednosmerných hypotéz a síce, že probandi budú signifikantne lepší a nie signifikatne horší ako 50 % pri svojich predpovediach. Problémom je, ako už bolo spomenuté, že nie je jasné čo je v tomto prípade nulová hypotéza a čo je alternatívna hypotéza. Pre Bema je nulová hypotéza, že výkon je 50 % a menej, lebo ho zaujíma PSI. Pre skeptika je nulová hypotéza 50% a alternatívou je všetko pod tým a nad tým. (Aj tento prípad pekne ilustruje ako p hodnota zase závisí od úmyslov experimentátora.) V Experimentoch 5,6 a 7 pritom ani smer efektu v súvislosti s Bemovou hypotézou nie je jasný. Bem testuje aký ma manipulácia vplyv na reakcie v minulosti. Pri štandardnom poradí by sme očakávali, že manipulácia reakciu urýchli. Bem predpovedá spomalenie reakcii.  Ak by Bem testoval obojstranne tak by mu ostalo 5 z 9 experimentov signifikantných a štúdiu by asi ťažko publikoval.

1.7 správna aplikácia NHST. Wagenmakers a co. (2011a) nemohli chýbať na scéne, aby znovu kopli NHST do zadku. Bem si zavolal na pomoc štatistikov (Bem et al., 2011), no Wagenmakers a co. (2011b) sa ich nezľakli. Táto štatistická diskusia má v podstate dva ťažné body. Prvý môžeme vyjadriť slovami Carla Sagana: “Extraordinary claims require extraordinary evidence”. V prípade Bemovej psi výnimočnej hypotézy, teda potrebujeme veľkú vzorku, silné efekty a ideálne oboje. Bayesiánska štatistika umožňuje zahrnúť nízku apriórnu pravdepodobnosť Psi do konečného výpočtu pravdepodobnosti Psi. V tomto prípade táto analýza nie je moc iluminujúca. Keďže Bemova hypotéza popiera v podstate všetko čo vieme o fyzike, o biológii a o psychológii človeka, výsledná pravdepodobnosť bude nízka. Pri výške Bemových efektov by musel Bem testovať niekoľko desaťtisícov probandov aby prebil prior. Bem a co. považujú takýto postup  za neférový. Diskusia sa preto upriamila k umierneným poprípade neutrálnym apriori pravdepodobnostiam hypotéz. Tým sa dostávame k druhému bodu a tým je, že bayesiánske analýzy sú o čosi konzervatívnejšie pre väčšie vzorky a väčšina p hodnôt na rozmedzí .01 až .05 podľa nich neposkytuje významnú evidenciu. Pri neutrálnej apriori pravdepodobnosti hypotéz tak bayesiánske analýzy neposkytnú jednoznačnú evidenciu pre Psi.

2. Otázka publikovania štúdie mi nepríde až taká zaujímavá, keďže to nevidím ako problém. Momentálny publikačný systém má kopu problémov a v mnohých úlohách zlyháva. Nemyslím však že by cenzúra mala patriť k jeho úlohám. To, že štúdiu uverejnil práve prestížny JPSP vnímam skôr ako problém tohoto periodika. V konečnom dôsledku však môžu uverejniť, čo chcú ak to zodpovedá ich formálnym publikačným požiadavkam a Bemov článok zodpovedal.

3. Môžeme sa pýtať, či kritéria pre publikáciu sú tie správne. Čo JPSP rozhodne nevyšlo je, že odmieta publikovať pokusy o replikáciu. JPSP v tomto nie je výnimka. Drvivá väčšina prestížnych periodík pri svojej honbe za prevratnými, inovatívnymi a supersignifikantnými výsledkami odmieta publikovať neúspešné pokusy o replikáciu. Dôsledkom nizkej publikovateľnosti replikácii je nízky počet publikovaných replikácii a v konečnom dôsledku nízka replikovateľnosť publikácii. Pritom od vedeckých časopisov by sme očakávali, že im bude záležať na tom, že výskum čo publikujú je replikovateľný. Zdá sa, že JPSP netrápi, že Bemove výsledky sú mylné a že neúspešné pokusy o replikácie možno najsť akurát na internete. Editori JPSP dosť alibisticky vyhlásili, že považujú replikácie za dôležité, ale nech ich publikuje niekto iný. Autori prvej replikácie (Ritchie et al., 2012) tak tiahli s lampou za bieleho dňa od jedného žurnálu k ďalšiemu. Nakoniec ich štúdiu publikoval open-source outlet PlosOne, ktorý sa pri review procese prevratnosťou štúdii netrápi. Replikáčnú štúdiu a metaanalýzu Simmonsa a kolegov táto odysea ešte len čaká. Manuskript je však už dostupný na SSRN.

Cieľom tohoto príspevku bolo kurzórne zhrnúť doterajší priebeh Bemovej kauzy. Bemova štúdia zodpovedá súčasným metodologickým a publikačným štandardom v psychológii. Jej výsledky nás však nútia tieto štandardy prehodnotiť. V Bemovom prípade je podozrenie, že rozhodoval o veľkosti vzorky na základe priebežných výsledkov. Kontroverzné je aj použitie jednosmerných hypotéz v experimentoch 5, 6 a 7. Kombinácia týchto chýb uberá Bemovým výsledkom a záverom na váhe. Ultimátnym rozhodcom je vždy replikácia a viaceré tými vedcov sa pokúsili o replikáciu. Bemove výsledky sa replikovať nepodarilo a metaanalýza všetkých dát nepodporuje existenciu prekognície.

Prínosom Bemovej štúdie je, že podnietil viacero príspevkov reflektujúcich výskumnú prax psychológov. Tieto reflektujú experimentálnu metodológiu a štatistiku ale aj publikačné prostredie a úlohu replikácie v psychológii. V ďalších článkoch sa k týmto témam ešte vrátim.

P.S. Práve som aktualizoval referencie a zdá sa, že replikácia od Galak et al. (2012) predsa len výjde v JPSP. Som zvedavý na vysvetlenie editorov, ale predpokladám, že štúdiu publikujú ako metaanalýzu a nie ako štúdiu alebo nebodaj replikáciiu.

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407– 425.

Bem, D. J., Utts, J., & Johnson, W. O. (2011). Must psychologists change the way they analyze their data? A response to wagenmakers, wetzels, borsboom, & van der Maas (2011).Journal of Personality and Social Psychology, Vol 101(4), 716-719.

Galak, Jeff, LeBoeuf, Robyn A., Nelson, Leif D. and Simmons, Joseph P., Correcting the Past: Failures to Replicate Psi (June 19, 2012). Forthcoming, Journal of Personality and Social Psychology.

Ritchie SJ, Wiseman R, French CC (2012) Failing the Future: Three Unsuccessful Attempts to Replicate Bem’s ‘Retroactive Facilitation of Recall’ Effect. PLoS ONE 7(3): e33423.

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011a). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011). Journal of Personality and Social Psychology, 100, 426 – 432.

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011b).Yes, psychologists must change the way they analyze their data: Clarifications for Bem, Utts, and Johnson (2011). Unpublished Manuscript.

Graphical Models

Grafické modely (a.k.a. Bayesiánske siete) sú formou reprezentácie probabilistických a bayesiánskych modelov. Tento formalizmus sa etabloval koncom 90. rokov a umožňuje jednoducho a priehľadne zhrnúť komplexné probabilistické modely.

Základným prvkom týchto modelov sú množiny premenných a im zodpovedajúce rozdelenia pravdepodobnosti. Premennými môžu byť napríklad udalosti “tráva je mokrá” (m), “pršalo” (p) a “chodec nesie dáždnik” (d). Pravdepodobnosti reprezentujú očakávanú početnosť týchto udalostí napr. p(m)=.25 (v 25 % prípadoch je tráva mokrá), p(p)=.2 a p(d)=.3. Pravdepodobnosť, že pršalo a tráva je mokrá vyjadríme ako p(m,p)=.15. Podmienená pravdepodobnosť vyjadruje pravdepodobnosť jednej udalosti ak nastala udalosť iná. Napr. p(m|p) vyjadruje pravdepodobnosť, že tráva je mokrá ak pršalo. Túto pravdepodobnosť môžeme zistiť na základe početnosti alebo priamo vyrátať pomocou definície p(A|B)=p(A,B)/p(B). Teda p(m|p)=p(m,p)/p(p)=.75. V 75% prípadoch, keď pršalo je tráva mokrá.

Pomocou pravdepodobností môžeme popísať správanie systému. Stačí nám definovať pravdepodobnosti pre všetky možné kombinácie udalostí. Kombináciou môže byť napríklad “pršalo”, “tráva nie je mokrá” a “chodec nenesie dáždnik” (p,!m,!d). Dokopy máme tak 2^3 elementárnych situácii. Takáto forma definície je nepraktická pretože musíme určiť s počtom premenných exponenciálne rastúci počet parametrov. Mnoho týchto pravdepodobností rovných nule. Napríklad ak p(!m|p)=0, tak p(!m,p,d),p(!m,p,!d) a všetky ďalšie kombinácie s (!m,p) budú nulové. Grafické modely reprezentujú len relevantné nenulové pravdepodobnosti.

V našom prípade dážď podmieňuje mokrý trávnik. Dážď takisto podmieňuje výskyt dáždnikov. Aby bol náš príklad zaujímavejší priberme aj možnosť, že mokrý trávnik spôsobí, nezávisle od dažďa, že si chodec vezme dáždnik. Ak poznáme tieto podmienené pravdepodobnosti + pravdepodobnosť dažďu vieme odvodiť všetky ostatné pravdepodobnosti. Grafický model tejto situácie vyzerá nasledovne:

Uzly reprezentujú udalosti a šípky znázorňujú podmienenosť. Z grafu je možné vyčítať podmienenosť a nezávislosť udalostí. Z grafu je takisto možné vyčítať pravdepodobnosť elementárnych situácii. Každý uzol prispeje jedným členom v multiplikácii p(M,P,D)=p(P)p(M|P)p(D|M,P). Z tejto pravdepodobnosti môžeme získať pomocou p(A)=\sum_Bp(A|B)p(B) a definície podmienenej pravdepodobnosti všetky ostatné pravdepodobnosti. Takéto zjednodušenie je obzvlášť vítané ak máme udalosti s viac než dvoma stavmi alebo so stavom reprezentovaným kontinuálnou hodnotou (napr. teplota). Pravdepodobnosti vyjadrené pomocou čísiel v tabuľkách vystriedajú parametrické rozdelenia pravdepodobnosti, avšak grafické modely možno aplikovať stále rovnako.

Pomocou grafických modelov môžeme reprezentovať problémy, ktoré robia tradične vedcom problémy. Tu ponúkam na ilustráciu jeden z nich.

Definícia kauzality

Jednoduchá podmienená pravdepodobnosť p(A|B) nestačí na definovanie kauzality. Na jednej strane je p(A|B) silnejšia ako jednoduchá asociácia p(A,B), musíme však pribrať našu intuíciu, že A podmieňuje B a to nezávisle od všetkých ostatných udalostí (C).

V našom prípade napríklad prisúdime mokrej tráve slabý kauzálny vplyv na výskyt dáždnikov, keďže len sprostredkováva vplyv dažďa na výskyt dáždnikov. Ďalší príklad z Wiki: Hodnota CO2 v atmosfére a výskyt obezity prudko stúpli za posledných 50 rokov. Tvrdíme že obezita je spôsobená C02. Pravdepodobnejšie je však, že nárast užívania automobilov spôsobil oboje aj nárast obezity (ľudia menej chodia a bicyklujú) aj nárast CO2 v atmosfére.

Ak chceme získať informácie o kauzálnom vplyve musíme mať teda aj informácie o treťom potenciálnom faktore resp. všetkých ostatných faktoroch, ktoré ovplyvňujú A aj B. Vo vedeckej praxi k týmto všetkých udalostiam nemáme prístup, resp. je ich potenciálne nekonečne veľa. Namiesto toho sa snažíme prerušiť šípku od C ku A. Kedže C nepoznáme, manipulujeme A náhodne (a dúfame, že náš náhodný vzor nekoreluje s C).

Samozrejme vedci sú si intuitívne týchto súvislosti vedomí a preto je ich hlavným nástrojom experiment, kde nezávislé premenné A sú manipulované, B je meraná závislá premenná a C je náhodný faktor. Experimenty sú preferované voči jednoduchým pozorovaniam kde A nie je nezávislé od C a teda nie je možné z výsledkov vyvodiť kauzálne závery.

Viac pôrodov na Valentína a menej cez Halloween

Podľa tohtoročnej štúdie v PlosOne sú pisatelia vedeckých blogov muži (check), doktorandi (check) v nejakom z oborov sociálnych vied (check) a majú Twitter (nemám). Z tohoto dôvodu mi pripadajú zvláštne rôzne blogy štatistikov (niektoré nájdeš na lište vpravo). Tieto sú v mnohých prípadoch vedené profesormi. Priznám sa, že nepoznám výskumný blog jediného profesora psychológie. Zároveň to však je super príležitosť pre nás pešiakov vedy (gather data, analyze, publish, repeat) vidieť čím sa špecialisti na nástroje zaoberajú.

No a čím sa zaoberajú? Väčšinou nadávajú na žurnalistov, ako si zasa v nejakom článku poplietli súvislosť a kauzalitu, alebo ako v nejakom grafe nezačína ypsilonová os na nule. Často takisto hrešia vedcov, lebo nepoužívajú správne metódy a ešte aj tie nesprávne používajú nesprávne. No a zvyšok času sa hádajú medzi sebou – väčšinou v rámci zákopových vojen medzi bayesiánmi a frekventistami.

Minule rozoberal štatistik Andrew Gelman štúdiu od autorov Levy, Chung a Slade (2011). Títo došli k prekvapivému zisteniu, že pôrodnosť stúpa/klesá počas dvoch sviatkov a to na Valentína a na Helloween. Počas Valentína je o 3.6% pôrodov viac (12.1% cisársky rez) ako počas okolitých 14 dní. Na Halloweena je o pôrodov o 5.3% menej (-16.9% cisársky rez) ako počas okolitých 14 dní. Autori uzavreli, že kultúrne a psychologické faktory do určitej miery môžu ovplyvniť moment pôrodu. Kedže dáta (dátumy narodenia obyvateľov USA) sú v tomto prípade verejne dostupné, objavilo sa viacej zaujímavých analýz. Tieto sú myslím poučné a preto by som ich tu rád zhrnul.

V prvom rade sa pozrime na pôvodné analýzy:

Autori použili lineárny regresný model (ancova) pričom kontrolovali vplyv dňa v týždni. Dáta sú z rokov 1996-2006 v USA. Ohviezdičkované dni boli signifikantne odlišné od ostatných.

Nedostatkom tejto analýzy je, že ignoruje dáta ostatných dní. Aké extrémne sú odchýlky pre Valentín a Halloween v porovnaní s ostatnými sviatkami a ostatnými náhodnými odchylkami? Chris Mulligan zohnal dáta od pre USA 1969-1988:

Graf zobrazuje celkový počet pôrodov pre každý deň. Z grafu vidieť, že počas viacerých sviatkov pôrodnosť klesá. Nie u všetkých sviatkov je to vidieť. Napríklad thanksgiving je druhý pondelok v októbri a v grafe ho moc nevidieť keďže sa rozdelil v priebehu rokov na viaceré dni. Valentín a Halloween nie sú až tak výrazné. Zaujímavé  je, že pôrodnosť na Valentína na rozdiel od iných sviatkov stúpa. Nakoniec vidieť aj sezónny trend a síce počet pôrodov je najvyšší koncom leta a začiatkom jesene. Zrejme majú studené a nudné, zimné večery pozitívny vplyv na výskyt počatí.

V ďalšom kroku by sme mohli vyhodnotiť celoročné dát štatisticky pomocou rovnakej analýzy ako Levy et al. Problém je v tom, že by sme takto získali zrejme kopu signifikantných výsledkov a takisto obrovskú variabilitu v dátach- okrem sviatkov by mal značný vplyv časť sezóny, deň v týždni alebo deň v roku. Lineárny model totiž nezohľadňuje že merané hodnoty tvoria časovú radu. V časovej rade sú po sebe nasledujúce hodnoty navzájom na sebe závislé. Ak dnes vážim 80 kilogramov tak zajtra nebudem vážiť 90 kilogramov, ale niekde okolo 80. Lineárny model posudzuje tieto časové merania ako nezávislé a vskutku strácame tak informáciu, že sa jedná o hodnoty merané v po sebe nasledujúcich dňoch. V merítku 14 dní to nie je také kritické, ale ak by sme porovnávali všetky dni v roku tak tu nám lineárny model nepomôže.

S ďalším príspevkom prišiel Aki Vehtari. Tu je jeho prvá analýza:

Vehtari použil Gausovský proces, pozostávajúci z dvoch pomaly meniacich sa trendov a jedného periodického trendu. Prvý graf znázorňuje dáta. Forma periodického procesu inferovaná na základe dát je znázornená v druhom grafe zhora. Je vidieť, že ide o týždenný trend. Spodná grafika je najzaujímavejšia. Znázorňuje reziduálnu variabilitu dát, ktorú model nedokázal vysvetliť. Modré krúžky zvýrazňujú extrémne hodnoty – dni, počas ktorých je pôrodnosť významne odlišná od predpovedí modelu. Je vidieť, že pôrodnosť na Valentína je naozaj významné vyššia a na Halloween významné klesá.

Model je možné obohatiť o ďalšie komponenty, zachytávajúce ďalšie potenciálne časové trendy v dátach. Druhá Vehtariho analýza vyzerá nasledovne:

Tento model má šesť komponent:
1. pomalý trend, zachytávajúci nárast pôrodnosti v 80. rokoch (modrá krivka, prvý graf).
2. 7-dňovy periodický trend. V druhom grafe zhora je vidieť, že pôrodnosť je nižšia cez víkend. Tento trend má medziročne silnejúci charakter
3. ročný sezónny periodický trend. V treťom grafe zhora je znázornený efekt studených zimných večerov.
4. extrémne hodnoty sú explicitne zohľadnené a modelované. V štvrtom grafe vidieť, že výnimky pripadajú na sviatky.
5. krátkodobý korelovaný šum. Neviem, či sa jedná o hnedú krivku v prvok grafe. Každopádne predpokladám, že ide o niečo na spôsob Markovského procesu.
6. reziduálny časovo nezávislý Gausovský šum.

Výhodou tohoto komplikovaného modelu je, že umožňuje zohľadniť alternatívne vysvetlenia. Hodnoty v štvrtom grafe sú ošetrené o ostatné vplyvy a trendy. Z tejto analýzy môžeme konštatovať, že Valentín a Halloween naozaj sú výnimočné. V prípade Halloweenu však ide o typický efekt sviatku. Počas sviatkov je pôrodnosť nižšia. To že Halloween nie je úradným sviatkom zdá sa nehrá rolu. Podobný efekt vidieť aj na prvého apríla. Zaujímavý je aj 29. Február. Zdá sa, že matky nechcú aby ich deti oslavoval narodeniny každé štyri roky. Vianoce so svojimi sviatkami sú samozrejme galiba pre pôrody. Mnohé presúvajú na obdobie medzi Vianocami a novým rokom.

Na záver teda možno skonštatovať, že efekt vyššej pôrodnosti prežil vyššie uvedené analýzy. Dôvody tohoto efektu budú zrejme kultúrne a psychologické ako tvrdia Levy a kolegovia. Ide o jediný sviatok cez ktorý počet pôrodov významne stúpa.  V prípade, že niekto príde s alternatívnou hypotézou môžeme túto samozrejme štatisticky otestovať.

Levy B.R., Chung P.H. and Slade M.D. (2011) Influence of Valentine’s Day and Halloween on Birth Timing. Social Science & Medicine. Vol. 73, 8, 1246–1248

Gorilu nevidím, gorilu nepočujem

Ľudský mozog je cez vnemové orgány bombardovaný gigabajtami dát za sekundu, ktoré nemá (pri všetkej úcte ku všetkej paralelite) šancu spracovať. Príroda vyriešila tento problém tak, že pomocou pozornosti sú ľudia spracujú len určitý výsek dát. Zvyšok je ignorovaný. Ľudská pozornosť je ako kužeľ svetla reflektoru – hľadáčik, ktorým si nahmatávame svet okolo nás. Tento systém je postavení tak umne, že ho nie sme schopný reflektovať a vlastné zmysly vnímame ako okno do sveta, v ktorom sa nič dôležité nestratí.  Túto intuíciu vyvracajú mnohé experimenty demonštrujúce slepotu voči zmene. Klasická štúdia je od Daniela Simonsa a Christophera Chabrisa. Stimulus a experiment si môžete odskúšať cez youtube:

Ja som videl tento materiál v druhom ročníku, keď nám profesor ukázal toto video počas prednášky. Po jeho premietnutí sa strhla búrlivá diskusia, čí výmen bolo 13, 14 alebo 15. Gorilu zbadalo len zopár málo ľudí, ktorý už experiment poznali.

Týchto demonštrácii slepoty pri dynamických vizuálnych zmenách je v literatúre neúrekom. Polly Dalton a Nick Fraenkel z Universtity of London skúsili vytvoriť dynamický stimulus v auditívnej doméne, ktorý by navodil podobný efekt hluchoty u ľudí. Výsledok si môžete vypočuť tu.

Vytvoriť akustický stimulus nie je na prvý pohľad také ľahké. Video je trojrozmerné (dve priestorové a jedna časová osa) zatiaľčo akustický signál sa odvíja len na časovej osy. K tomu však treba pribrať výšku tónu. (Vskutku vieme, že frekvencia signálu je reprezentovaná v primárnom auditívnom kortexe.) Ľudia vedia takisto lokalizovať zdroj zvuku. Dve uší nám umožňujú určiť horizontálny smer a vďaka špeciálnemu tvaru ušnej mušle vieme do určitej miery určiť aj vertikálne a frontálne smerovanie signálu. Všetky tieto dimenzie otvárajú priestor kam koncentrovať a nekoncentrovať pozornosť a pre nás experimentátorov kam ukryť gorilu. Vskutku jednou z prvých demonštrácii ľudskej schopnosti vtesnať predmet z pozornosti bol Cocktail-Party efekt Colina Cherryho. Každý poznáme situáciu z párty alebo z krčmy keď sa ľudia prekrikujú a my sme schopný vytesnať a odfiltrovať hlasný hlas vedľa sediaceho na úkor tichých slov pôvabnej slečny na konci stola. Dalton a Fraenkel využili tieto efekty aby ukryli do svojej nahrávky gorilu. Polovica probandov načúvala rozhovoru dvoch žien a snažila sa ignorovať mužské hlasy. Druhá polovic načúvala rozhovoru dvoch mužov. Miestnosťou okrem toho prebehol ešte jeden mužský hlas (gorila). Autori sa pýtali probandov či tento piaty hlas, gorilu, zbadali. 90 % z tých čo sa sústredili na mužské hlasy odhalili gorilu. Oproti tomu len 30 percentám, čo načúvali ženským hlasom gorilu postrehli.
A to napriek tomu, že gorila na nahrávke vyvádzala celých 19 sekúnd (celková dĺžka 69 sekúnd).

Myslím, že ďalšia demonštrácia by sa mala týkať rozprávajúcich sa basketbalistov. Tipnem si, že hulákajúcu gorilu medzi nimi nikto nezbadá.

Cherry, E. C. (1953). Some experiments on the recognition of speech, with one and with two ears. Journal of the Acoustical Society of America, 25, 975–979.
Dalton, P., & Fraenkel, N. (in press). Gorillas we have missed: Sustained inattentional deafness for dynamic events. Cognition

Všade kríza len u nás doma nie

Americký Gallup Poll sa pýtal američanov ako hodnotia ekonomické podmienky v rôznych častiach USA a v rôznych častiach sveta. Výsledky vyzerajú následovne.
poll
Ekonomickú situáciu súdi respondent ako horšiu v štátoch v ktorých nežije. Teda na východnom pobreží tvrdia, že kríza je v Kalifornii a na západnom tvrdia, že ekonomika je horšia na východe. Tento trend pokračuje čím ďalej je ekonomika od domova – európa je na tom horšie ako amerika a najhoršie je na tom globálna ekonomika.

Čo si o týchto výsledkoch máme pomyslieť? Frank Newport z Gallupu tvrdí, že Američania sa majú zrejme v zásade dobre. Ich skúsenosť nekorešponduje so správami a nadmerný pesimizmus v ich chápaní kompenzujú iné štáty. V tomto kontexte je zaujímavé, že bias je silnejší u republikánov. Pritom vnímanie vlastnej situácie nie je až také odlišné u oboch skupín voličov:

Možné je to vysvetliť tým, že súčasný americký prezident je demokrat a teda republikáni vnímajú stav ekonomiky pesimistickejšie. Tým pádom musia svoj pesimizmus rozdeliť a rozdelia ho do iných štátov, o ktorých nemajú toľko informácii.

Problémy môžu byť samozrejme aj kognitívne. Je možné že ľudia nevedia konzistentne zhodnotiť celok a časti (štát USA< celé USA < Svet). Takisto je možné, že Američania sa  majú mizerne a výsledky reflektujú optimistický bias. Niečo v zmysle: za každých okolností sa má môj kmeň lepšie ako kmene ostatné.