Judea Pearl: Causality (Časť 4)

V tomto článku rozoberiem posledné 4 kapitoly (7.-10.) Pearlovej knihy. Siedma kapitola, tak ako 2., 3. a 5. kapitola je nabitá obsahom zatiaľčo kapitoly 8., 9. a 10. sú venované diskusiám a rôznym lemám a zovšeobecneniam. V 2. a 3. kapitole sme sa zaoberali kauzálnymi grafmi. Tieto vyjadrujú všeobecnú kauzálnu štruktúru napríklad, že chodec ktorého zrazí auto zomrie. Kauzálna štruktúra platí pre všetky možné modely,kde príčina x ovplyvňuje výsledok y y = f_y(x,u_y) (kde u_y vyjadruje vplyv latentných faktorov). Štrukturálne rovnice (kapitola 5.) špecifikujú f(\dot) a sú tým pádom konkrétnejšie. V prípade auta ktoré zrazilo chodca môže napríklad štrukturálna rovnica vyjadrovať pravdepodobnosť úmrtia v závislosti od rýchlosti auta y = \sigma(x-20 + u_y), kde x je rýchlosť v km/h, \sigma je sigmoidálna funkcia a u_y \sim \mathcal{N}(\mu = 0, \sigma = 5) vyjadruje neistotu prameniace z neznalosti ostatných faktorov ako je zdravotná kondícia obete, v akej pozícii do človeka auto narazilo a.t.ď.

Kapitola 7. sa zaoberá ešte detailnejšou znalosťou, znalosťou hodnoty, ktorú u_y nadobudlo v konkrétnej situácii. Štrukturálna rovnica platí pre všetky situácie. Znalosť u_y vyjadruje konkrétnu situáciu napríklad, že Fera včera zrazilo auto na prechode pri rýchlosti 70 km/h, konkrétnej konfigurácii okolností zhrnutej do hodnoty u_y=30. Aj v tomto prípade môžeme vykonať zaujímavé analýzy, konkrétne môžeme sa zaoberať hypotetickými úvahami. (Tzv. counterfactuals u Pearla aj keď Pearl považuje tento názov za nevhodný, keďže vyjadruje protichodnosť). Môžeme sa spýtať či by chodec zomrel ak by auto išlo pomalšie a teda napríklad či je auto dostatočnou, nevyhnutnou príčinou úmrtia. Takéto otázky sú vysoko relevantné pri testovaní medikamentov a v právnych sporoch. Žiaľ tradičná štatistika má s nimi problémy. A to napriek tomu, že ľudia takéto hypotetické otázky rutinne hodnotia. V našom príklade je hodnota u_y=30 natoľko vysoká že aj keby auto stálo na mieste x=0 chodec by na zrážku zomrel. Toto zodpovedá vysoko nepravdepodobnej situácii (vskutku p(u_y \ge 30) < 0.001), že chodec idúc cez cestu sa šmykol, pri páde narazil do zaparkovaného auta a na následky zranení po náraze zomrel. V tomto prípade je nepravdepodobné, že auto spôsobilo smrť.

Formálne môžeme vyhodnotiť takéto situácie nasledovne. Potrebná je znalosť grafu a štrukturálnych rovníc. Konkrétna znalosť u nie je potrebná (a keďže ide o latentné faktory ich pozorovanie mnohokrát ani nie je možné). Tieto môžeme odhadnúť na základe pozorovaní ostatných faktorov. Napríklad v lineárnom modeli tvoria u rezídua, teda odchýlku pozorovaných hodnôt od predpovedí. Pri hypotetických výrokoch nás zaujíma pravdepodobnosť, že dôsledok Y nadobudne hodnotu y, ak X zmeníme na x pri latentných okolnostiach U=u,  p(Y=y| do(X=x),U=u). Pearl v tejto časti knihy používa zjednodušenú notáciu p(y_x(u)), ktorú preberiem aj v tomto článku. Inferencia p(y_x(u)) prebieha v troch krokoch.

1. Abdukcia. Na základe pozorovania Y=y’, X=x’ a všetkých ostatných meraných faktorov W=w’ odhadneme rozdelenie U=u.

2. Modifikácia. Prevedieme operáciu do(X=x). V 3. kapitole sme videlo, že to znamená modifikáciu grafu a štrukturálnych rovníc, tak že X nie je závislé na svojich rodičoch v grafe ale nadobúda pevne stanovenú hodnotu x.

3. Predpoveď. V modifikovanom grafe dosadíme U=u a vypočítame pravdepodobnosť p(Y=y).

Podobne ako v tretej kapitole ponúka Pearl kalkulus hypotetického myslenia, ktorý umožňuje systematicky zredukovať hypotetické výroky na formulu, ktorá pozostáva len z pozorovaných pravdepodobností (a túto pravdepodobnosť je možné určiť). Pravidlá sú nasledovné. Pre množiny premenných X, Y a W platí:

1. Kompozícia: W_x(u)=w \Rightarrow Y_{xw}(u)=Y_x(u). Ak W nadobúda hodnotu w za podmienok u tak môžeme manipuláciu w za rovnakých podmienok odstrániť z dolného indexu, keďže táto manipulácia hodnotu W nijak neovplyvní.

2. Efektívnosť: X_{xw}(u)=x pre všetky X a W. Manipulácia X zmení X nezávislé od hodnôt ostatných premenných W.

3. Obrátiteľnosť: (Y_{xw}(u)=y) \wedge (W_{xy}(u)=w) \Rightarrow Y_x(u)=y. Rovnosť vyjadruje predikát, že medzi premennými nie je možný feedback. V opačnom prípade vyhodnotenie hypotetických výrokov nie je možné.

Tieto tri pravidlá umožňujú určiť, či je vyhodnotenie hypotetického výroku možné a ak áno nájde formulu pre výpočet.

V podstate všetky aplikácie hypotetických úvah ktorými sa Pearl zaoberá v nasledujúcich kapitolách 8,9,10 vychádzajú z binárnych náhodných premenných. Toto dáva zmysel, keďže väčšina hypotetických úvah má takúto štruktúru, značne to zjednodušuje vysvetlenia a v zásade všetky kontinuálne premenné možno redukovať na binárne pomocou prahovej hodnoty. Napríklad kontinuálnu rýchlosť vozidla v príklade vyššie môžeme redukovať na binárnu premennú x>20.

V 8. kapitole Pearl rozoberá nedokonalé experimenty. Dobrým príkladom je napríklad farmakologická štúdia, v ktorej nie všetci probanti dodržali program dávkovania. Buď ho niektorí v experimentálnej skupine zanedbali alebo si zúfalí pacienti v kontrolnej skupine potajme medikament zadovážili. Ak máme informáciu o dávkovaní môžeme naše odhady kauzálneho vplyvu medikamentu na zdravie korigovať. Hypotetické úvahy hrajú dôležitú úlohu. Pri nedokonalých experimentoch totiž musíme vyhodnotiť hypotetický scenár, ak by probant ktorý liek nevzal, vykonal inak, aký dopad by to malo na jeho zdravie.

V deviatej kapitole sa Pearl zaoberá nevyhnutnou a postačujúcou príčinou. Napríklad prítomnosť kyslíka v miestnosti je nevyhnutná aby sme založili oheň. Kyslík je teda nevyhnutnou príčinou ohňa. Naopak ak sme odsúdili väzňa na odstrel, ktorý vykonajú traja paralelní strelci A, B, C tak výstrel strelca A nie je nevyhnutnou príčinou smrti väzňa, lebo väzeň by zomrel aj keby by A nevystrelili. Naopak výstrel každého zo strelcov je postačujúci na to aby väzeň umrel (vychádzajúc z toho, že strelci deterministicky splnia povel). Naopak kyslík nie je dostatočnou príčinou. Vo väčšine miestností s kyslíkom nehorí. Dodatočná udalosť je nutná (napr. škrtnutie zápalky), aby oheň vypukol.

Pravdepodobnosť, že X je nevyhnutnou príčinou Y je daná ako

p(y'_{x'}|x,y)=\frac{p(y)-p(y_{x'})}{p(x,y)}

Pravdepodobnosť, že X je postačujúcou príčinou Y je daná ako

p(y_x| y',x')= \frac{p(y_x)-p(y)}{p(x',y')}

Kde X, Y a U sú binárne premenné a y',x' a u' sú komplementárne hodnoty ku x,y,u.

Aby sme určili členy p(y_{x'}), p(y_x) v rovniciach vyššie sú potrebné experimentálne štúdie. Naopak aby sme určili p(y',x'), p(y,x) sú potrebné pozorovania. V experimentoch je totiž x manipulovaná, tým pádom nepoznáme prirodzené rozdelenie x. Pearl však ukazuje, že za zmysluplných predpokladov možno použiť jednoduchšie rovnice, ktoré vychádzajú len z experimentálnych dát alebo len z pozorovaní.

Nakoniec v desiatej kapitole sa Pearl zaoberá konkrétnymi a všeobecnými príčinami. Napríklad vo výroku “nadmerné pitie alkoholu môže viesť k úmrtiu” možno označiť alkohol ako všeobecnú príčinu úmrtia. Naopak v tvrdení “náš ruský kamarát Alexei zomrel po vypití litra vodky na otravu alkoholom” možno označiť alkohol ako konkrétnu príčinu. Formálne, v obidvoch situáciách je známa kauzálna štruktúra a takisto model daný štrukturálnymi rovnicami. Pri konkrétnych príčinách však dodatočne poznáme aj hodnoty niektorých latentných premenných. Tieto sú dané práve znalosťou konkrétnej situácie “Alexei, náš ruský kamarát …”. Táto znalosť môže zjednodušiť štrukturálne rovnice a viesť k redukovanému grafu. Napríklad y = ax + buz môžeme zredukovať na f_i = ax_1 ak vieme, že u=0. Redukovaný graf nazýva Pearl kauzálnym lúčom. V tomto grafe môžeme následne vyhodnotiť pravdepodobnosť, že x je príčinou y. Táto pravdepodobnosť vyjadruje pravdepodobnosť konkrétnej príčiny. Napríklad u=0 môže vyjadrovať fakt, že Alexei nepožil dodatočne žiadne drogy a teda že drogy z nemali vplyv na jeho úmrtie. V opačnom prípade by bola pravdepodobnosť, že alkohol bol konkrétnou príčinou jeho úmrtia nižšia.

Snáď nemusím dodať, že Pearlova kniha sa mi veľmi páčila. Kniha patrí do môjho obľúbeného štýlu tvrdohlavých monografii. Koncepty sprostredkované v knihe nie sú ťažké. Hlavnou ťažkosťou je vyvodiť z nich aplikácie a prevziať ich do praxe. Nemyslím, že hlavným problémom by pritom bola ich zriedkavá aplikovateľnosť. Práve naopak. Pearlova kauzalita poskytuje dôležité informácie pre psychologickú výskumnú prax a takisto ako ukázali Tenenbaum a ostatní môže byť inšpiráciou pre modeli kauzálneho myslenia u ľudí. Nepochybujem, že viaceré aplikácie Pearlovej kauzality v kognitívnych vedách uvidíme ešte ďalších článkoch na Mozgostrojoch.

Reklamy

Judea Pearl: Causality (Časť 3)

Zatiaľčo druhá a tretia kapitola tvoria teoretické mäso, štvrtá až šiesta kapitola tvoria aplikáciu a diskusiu. Štvrtá kapitola sa zaoberá zovšeobecneným Pearlovho do(X=x) formalizmu. Pearl ukazuje ako vyhodnotiť viaceré manipulácie P(Y|do(X_1=x_1),\dots, do(X_n=x_n)) . Takúto viacnásobnú manipuláciu môžeme nazvať intervenčný plánom. Moc nového sa však nedozvieme. Tieto plány možno vyhodnotiť pomocou intervenčného kalkulu z tretej kapitoly. Jedinou dodatočnou komplikáciou je že si musíme dať pozor v akom poradí transformujeme do(X_i=x_i) na X_i=x_i. Nie všetky sekvencie musia viesť k riešeniu. Aby sme zistili, či je efekt identifikovateľný musíme prešetriť všetky možné sekvencie. Pearl ukazuje ako toto šetrenie zjednodušiť a urýchliť.

Ďalšie zovšeobecnenie umožňuje rozšírenie manipulácie na ľubovoľné funkcie P(Y|do(X=g(z)), kde g(z) je funkciou ostatných premenných v grafe. Aj v tomto prípade výsledky z tretej kapitoly platia. Akurát si musíme dať pozor ktoré premenné zahrnemie do z, tak aby efekt intervencii zostal identifikovateľný.

Piata kapitola diskutuje modelovanie pomocou štrukturálny rovníc (SEM), ktoré je populárne hlavne v sociálny vedách. Predchádzajúce kapitoly vychádzali zo všeobecného prípadu a výsledky platia pre ľubovoľný model x_i = f_i(pa_i,\eta_i). T.j. každá premenná je funkciou hodnôt svojich rodičov pa_i a náhodného faktora \eta_i. Štrukturálne modely špecifikujú lineárny vzťah: x_i = \sum_{k \not = i} \alpha_{ik}x_k + \eta_i , kde \eta_i sú navzájom nezávislé náhodné premenné a \alpha_{ik} tvoria neznáme koeficienty.

V zásade všetky výsledky popísané v predchádzajúcich kapitolách platia aj pre SEM, poprípade sa dajú vďaka lineárnej formulácii zjednodušiť. Pearlova diskusia sa točí hlavne okolo interpretácie ktorej sa SEM historicky dostalo od štatistikov, epidemiológov a sociálnych vedcov. Pre Pearla sú štrukturálne rovnice ekvivalentnou reprezentáciou ako grafy. Vyjadrujú rovnakú t.j. kauzálnu informáciu. Konkrétne \alpha_{ik} vyjadrujú o koľko sa v priemere zmení x_i ak manipulatívne zmeníme x_k o jednu jednotku. Táto intepretácia uniká štatistikom, keďže nemajú jasnú definíciu kauzality. Štatistici tak interpretujú štrukturálne rovnice ako regresiu kde \alpha_{ik} tvoria regresné koeficienty a \eta_i je reziduálna odchýlka. V takto vnímaných rovniciach možno presúvať členy z ľavej na pravú stranu od rovnítka, čo vedie k problémom. Použitie rovnítkovej notácie tak trochu zavádza. Rovnítko vyjadruje jednosmerné kauzálne priradenie príčina k efektom a členy nemožno presúvať.

Zaujímavé je v kontexte SEM sa pozrieť na fyzikálne zákony, napr. Ohmov zákon: I=V/R, kde I je prúd, V napätie a R vyjadruje odpor vodiča. Tieto zákony možno interpretovať ako štrukturálne rovnice. Vidíme, že vo fyzikálnych zákonoch chýba stochastický člen \eta. Model je deterministický a nepredpokladá prítomnosť žiadnych ďalších faktorov. Ohmov zákon možno interpretovať kauzálne – pridaním napätia spôsobíme vyšší prietok elektrického prúdu vodičom. V tomto zmysle možno 1/R interpretovať ako koeficient \alpha. Z pohľadu fyziky nie je problém prehodiť členy z ľavej na pravú stranu a naopak. Napríklad môžeme získať R= V/I. Z pohľadu kauzálnej interpretácie je však takáto úprava neprípustná. Rovnica by vyjadrovala, že pridaním prúdu (pri konštantnom napätí) môžeme zmeniť odpor vodiča, čo je zjavne nezmysel. Čiže aj keď fyzici manipulujú rovnice, nie všetky výsledné formulácie sú si rovné. Nie všetky sú kauzálne interpretovateľné.

Kauzálna interpretácia fyzikálnych zákonov nás nevyhnutne vedie k otázke definície systému. Ak sa pozrieme na vesmír ako uzavretý celok, tento nepripúšťa žiadne alternatívne udalosti. Fyzikálny vesmír tvorí deterministický stroj, ktorého dianie je nevyhnutne dané jeho počiatočným stavom. Z tohoto pohľadu nedáva ani pojem kauzality zmysel. Žiadne manipulácie nie sú možné a žiadne alternatívy neexistujú. Kauzálne interpretácie začnú byť zmysluplné ak z vesmíru vystrihneme určitý výsek – ak definujeme systém, ktorý chceme skúmať. V tomto ohľade sa Pearlove predstavy veľmi podobajú na úvahy o kauzalite u Norberta Bischofa, ku ktorým sa snáď niekedy vrátim (niečo už bolo spomenuté tu).  Všeobecne, definícia systému znamená vymedzenie jeho hraníc. Tým má zmysel uvažovať o externej manipulácii. Zákony a štrukturálne rovnice nám umožňujú kompaktne popísať ako takéto manipulácie ovplyvnia fungovanie systému.

Ako som spomenul piata a šiesta kapitola sa zaoberajú z veľkej časti kontroverziami a paradoxami, ku ktorým dochádza ak výskumník nie je vyzbrojený formálnou definíciou kauzality. Neznalí môžu opomenúť tieto diskusie ako historické kontroverzie. Snáď ešte ako tak zaujímavé sú formálne definície niektorých konceptov, o ktorých experimentátori bežne hovoria a uvažujú. Pomocou Pearlových formalizmov, môžeme vyjadriť pravdepodobnosť priameho efektu, vedľajšieho efektu a celkového efektu. Priamy efekt tvorí v grafe šípka z X do Y. Celkový efekt tvoria všetky cesty z X do Y a vedľajší efekt tvorí celkový efekt mínus priamy efekt (teda všetky vedľajšie cesty). Prečo rozlišovanie týchto efektov dáva zmysel si môžeme spriehľadniť na nasledujúcom príklade. Ak chceme zistiť či sú ženy pri pohovoroch (napr. prijímačky na vysokú školu) diskriminované na základe pohlavia, nestačí nám zistiť či je úspešnosť žien na pohovoroch nižšia ako úspešnosť mužských uchádzačov. Je možné, že muži sú kompetentnejší a výberové konanie tieto kompetencie zohľadňuje. Kompetencie uchádzačov, ktoré korelujú s pohlavím a aj s úspešnosťou uchádzača tak môžu spôsobiť koreláciu medzi pohlavím a úspešnosťou. V tomto prípade hovoríme o vedľajšom efekte. Na výbere kompetentných uchádzačov nie je nič zlé, práve naopak. Ak sa pýtame na existenciu diskriminácie zaujíma nás priamy efekt pohlavia na úspešnosť a vedľajšie efekty chceme ignorovať. T.j. pýtame sa aký efekt by mala zmena pohlavia na úspešnosť ak by sme všetky ostatné premenné držali na konštantnej úrovni. Pearlov formalizmus umožňuje posúdiť silu týchto efektov na základe pozorovaní bez nutnosti manipulácie.

Že by vyššie uvedená úloha mohla byť riešiteľná len na základe pozorovaní, sa zdá uletené. Ako držať konštantné všetky faktory? Ktoré sú to faktory? A na akej úrovni ich chceme držať konštantné? Východiskom výpočtov je samozrejme naša znalosť kauzálnej štruktúry problému. Našťastie nemusíme poznať všetky faktory. Stačí nám poznať rodičov príčiny X, teda faktory ktoré majú priamy vplyv na pohlavie uchádzačov a kontrolovať tieto.

Otázka hodnôt kontrolovaných faktorov ostáva na výbere vedca. Pearl poznamenáva, že zaujímavou voľbou je zvoliť hodnoty, ktoré by nadobudli tieto faktory ak by sme zvolenú hodnotu príčiny pozorovali (a nie manipulovali). Pearl hovorí o prirodzenom priamom efekte, ktorý možno formálne vyjadriť ako

\sum_z ( E(Y| do(x',z))- E(Y|do(x,z)) )P(z|do(x))

kde E(Y) je očakávaná hodnota efektu, x je pozorovaná hodnota a x' je manipulovaná hodnota príčiny. Intuitívne, prirodzený priamy efekt vyjadruje výsledky experimentu, v ktorom by uchádzači zmenili pohlavie a všetky ostatné faktory – vek, kompetencie, CV, priebeh pohovoru etc. ostali rovnaké. Takýto experiment nie je možné vykonať. Že je možné inferovať výsledky tohoto experimentu na základe pozorovaní bežných pohovorov je podľa mňa absolútne úžasné!

Judea Pearl: Causality (Časť 2)

Druhá kapitola sa zaoberala najťažším prípadom inferencie, keď máme dané len rozdelenie pravdepodobnosti. V tretej kapitole poznáme okrem pravdepodobností aj graf, teda kauzálnu štruktúru problému. Vďaka tejto znalosti môžeme posúdiť vplyv manipulácii na pozorované pravdepodobnosti. V tretej kapitole sa Pearl zaoberá elementárnymi manipuláciami, ktoré zvonku určia hodnotu určitej premennej a snažia sa zistiť následky. Vo štvrtej kapitole potom Pearl rozoborá komplikovanejšie reťaze manipulácii a reaktívnych stratégii, kde manipulácia závisí pozorovaných hodnôt iných premenných.

Formálne predstavuje manipulácia premennej A dosadenie určitej hodnoty nezávisle od rodičov A v grafe. V grafe vyššie, ak chceme pozorovať kauzálny efekt manipulácie A=a na premennú B musíme zmeniť A na pozorovanú premennú s hodnotou a. To znamená, že musíme odstrániť všetky šípky smerujúce do A. A je externe manipulované a tým pádom nezávislé od svojich rodičov v grafe. Výsledný graf je znázornený vpravo. Pre oba grafy môžeme vypočítať P(A,B,C,D1,D2,D3) a porovnaním pravdepodobností zistiť efekt manipulácie na na P(B). Pearl označuje toto rozdelenie ako P(B| do(A=a)) , kde do(A=a) vyjadruje úpravu grafu. Konkrétne platí

P(b|do(A=a)) = \sum_{pa} P(b|a,pa) P(pa)

, kde pa je množina rodičov. Intuitívne, ak máme pozorovania fungovania v grafe vľavo a chceme zistiť ako by ovplyvnilo A=a premennú B, tak sa pozrieme na prípady, keď A (zhodou okolností) nadobudlo túto hodnotu a a pýtame sa, čo sa vtedy stalo s B. Problémom sú tretie premenné, ktoré vplývajú na A a aj na B. Vplyv týchto premenných anulujeme tým, že P(b|a) vážime v závislosti od rodičov A. Rovnicu vyššie možno interpretovať ako vážený priemer.

Samozrejme podmienkou vyššie uvedeného výpočtu je, že vplyv rodičov poznáme. Pripomínam, že je daný graf a pozorovania. Pozorovania však nemusia zahŕňať všetky premenné definované v grafe. Musíme sa preto pýtať ktoré premenné musíme pozorovať, aby sme vedeli určiť kauzálny súvis. Pearl ponúka viacero grafických kritérii, ktoré poslúžia ako rýchle heuristiky. Podľa kritéria únikových dverí musia byť všetky únikové cesty (teda šípky smerujúce do A) z A do B blokované množinou pozorovaných premenných D.

Možno trochu prekvapivo bezhlavé pridávanie kontrolných D nemusí byť prospešné pre analýzu. Pridanie premenných,ktoré sú potomkami A totiž môže odblokovať únikové cesty. V grafe nižšie chcem určiť vplyv liečby (L) na chorobu (Ch). Ak zahrniem bolesť hlavy (H), ktorú liečba spôsobuje ako kontrolnú premennú do analýzy tak si spôsobím problém. Keďže gény (G) okrem choroby ovplyvňujú aj bolesť hlavy vznikne medzi chorobou a liečbou nepravý súvis, sprostredkovaný novou vedľajšou cestou v grafe cez bolesť hlavy a gény. Keďže H tvorí strediska, táto cesta je odblokovaná práve v prípade keď je H pozorované.

Okrem kritéria únikových ciest ponúka Pearl ďalšie. Všeobecne možno určiť P(b|do(A=a)) a vskutku P(b|do(A_1=a_1), \dots , do(A_n=a_n)) pre ľubovôlnú množinu manipulácii premenných A_1, \dots, A_n pomocou takzvaného intervenčného kalkulusu. Tento poskytuje pravidlá ako na základe grafu a pozorovaných nezávislostí pretaviť výrazy s vokáňom do výrazov bez neho. Jeho aplikácia je komplikovanejšia. Grafické kritéria (napr. kritérium únikových ciest) sú na druhej strane jednoduchšie ako keby sme sa mali prebíjať aritmetikou. Kalkulus garantuje nájdenie riešenia ak takéto existuje a zároveň ak riešenie neexistuje (kvôli prítomnosti konfundujúcich premenných) zistíme, že tomu tak je. V druhom vydaní Pearlovej knihy pribudlo aj všeobecné grafické kritérium, ako zistiť či efekt manipulácie možno vypočítať. Toto hovorí, že neexistuje žiadna latentná premenná spájajúca uzol A s jeho deťmi. V tomto prípade možno P(b|do(A=a)) určiť.

Asi najväčším prekvapením tejto kapitoly pre mňa bolo, že pridávanie kontrolných premenných môže byť kontraproduktívne pre zistenie kauzálnych príčin. V psychológii mnohokrát kontrolujeme a balancujeme, čo sa dá. V psychológii zároveň kauzálny graf prakticky nikdy nepoznáme. Akurát vieme, že všetko súvisí so všetkým a za každým rohom sa skrýva latentná príčina. V tomto prípade asi najlepšou taktikou je naozaj kontrolovať a balancovať experiment. Zároveň si ale musíme byť vedomí ťažkostí, ktoré toto môže privodiť. Pearlove formalizmy umožňujú spoľahlivo identifikovať premenné vhodné pre kontrolu a manipuláciu.

Judea Pearl: Causality (Časť 1)

Jaynesovu knihu som úž dávnejšie dočítal. Súhrny pre Mozgostroje som zatiaľ vynechal. Chcem tieto kapitoly prečítať pozorne ešte druhý krát a poprípade konfrontovať ďalšie zdroje. Súhrny zvyšných (13) kapitol sa teda objavia niekedy v budúcnosti. Ako hodnotného Jaynesovho nástupcu som už medzičasom vybral Pearlovu knihu o kauzalite. Kniha spĺňa prvé Matúšovo kritérium čitateľnosti v tom, že si bere filozofov na paškál (a ešte viac vo svojej druhej edičnej inkarnácii). V recenziách na amazone sa môžete napríklad dozvedieť od filozofa vedy: “The second edition repeats the first edition verbatim, but at the end of most chapters there’s a clearly defined section dealing with subsequent developments. There’s a long chapter at the end that updates you on the replies to the first edition, and some helpful new material explaining things that were tricky the first time through. The updates are concise. Replies to philosophers (at least) are ultimately devastating, although Pearl could explain himself more fully.”Takisto na LessWrong navrhli nahradiť Platóna Pearlom vo filozofickom učebnom curriculu.

V určitom zmysle Pearlova monografia pokračuje, kde tá Jaynesova skončila. Chápanie teórie pravdepodobnosti ako rozšírenej logiky umožňuje jasne definovať mnohé koncepty, ktoré tradičnej štatistike unikajú. Jedným takýmto konceptom je kauzalita.

Je možné dospieť na základ pozorovaní, že A je príčinou pre B? Aký postup zvoliť? Je možné tento postup formalizovať a automatizovať? Tradičná štatistika pozná koncepty ako korelácia, kovariancia, nezávislosť dvoch premenných alebo konfundujúca premenná. Kauzalita však ostala pre štatistiku tabu. Väčšinou sa o nej dozviete len z varovaní a negatívnych výrokov o tom, čo pomocou štatistických konceptov nie je možné zistiť. Najznámejšia mantra hovorí, že korelácia neimplikuje kauzalitu – cum hoc, propter hoc. V následujúcom hurhaji okolo akademického upaľovania previnilca, však zanikne otázka, čo teda kauzalitu implikuje. Kauzalita, tak ako ostatné predstavy vyhodené na smetisko vedy ostala napospas filozofom.

Pearl je špecialistom na kauzalitu. Počas svojej akademickej kariéry navrhol spektrum metód a stratégii, ktoré riešia rôzne problémy vznikajúce pri analýzach kauzality. Pearl sa nezľakol kontroverzii a tabu spojených s inferenciou kauzality. Jeho dôležitým postrehom bolo, že ľudia inferujú kauzalitu celý čas a väčšinou sú v tom prekvapujúco úspešný. Pearlovými hlavnými nástrojmi je teória pravdepodobnosti, teória grafov a topológie. Jeho výskum tak spadá metodicky do oblasti AI a učenia strojov aj keď jeho implikácie a aplikácie sa týkajú prevažne štatisticky a filozofie. Jeho kniha Causality (Pearl, 2009) tvorí súhrn tohoto výskumu. Kniha nie je ľahké čítanie. Nie je to dané tým, že používa moc technický jazyk, alebo že by bola samotná téma veľmi zložitá. Matematika je jednoduchá avšak obsah knihy je silne našlapaný. Diskusia je obmedzená na minimum. Kapitoly sú vystavané na definíciách, teórémach, algoritmoch a poprípade ich dôkazoch a príkladoch aplikácie. Obsah je dobre štrukturovaný a vysvetlený. Je však natlačený, takže občas sa cítim už po piatich stranách vysilený a nepamätám si všetky definície takže musím listovať a vracať sa naspäť. Inak ide o nanájvyš zaujímavé čítanie, tak ako téma sľubuje.

Kauzalitou sa možno zaoberať v rôznych situáciách. V tomto článku sa obmedzím na situáciu, keď sú dané len pozorovania a nie je možné premenné experimentálne manipulovať. Pearl sa touto situáciou zaoberá v druhej kapitole. Inferencia v takýchto situáciách nie je nemožná. Akurát sme, podobne ako fyzici čakajúci na výbuch supernovy, odkázaný na priazeň prírody a výskyt prírodných experimentov, ktoré táto svojim vedeckým divákom ponúkne.

V tomto prípade nám ako formalizmus pre určenie kauzality postačia bayesiánske grafické modely, ktoré som už na tomto blogu predstavil. Videli sme, že grafický model vyjadruje podmienené súvislosti, ktoré určujú kauzálny vplyv.

Uzly reprezentujú udalosti/výroky/premenné a šípky znázorňujú podmienenosť. Z grafu je možné vyčítať pravdepodobnosť elementárnych situácii. Každý uzol prispeje jedným členom v multiplikácii p(M,P,D)=p(P)p(M|P)p(D|M,P). Z tejto pravdepodobnosti môžeme získať pomocou p(A)=\sum_Bp(A|B)p(B) a definície podmienenej pravdepodobnosti všetky ostatné pravdepodobnosti. Z grafu je takisto možné vyčítať  nezávislosť udalostí.

Nezávislosť je komplikovanejší koncept ako podmienenosť. Napríklad v grafe A \rightarrow C \rightarrow B síce neexistuje priamy šíp od A ku B avšak A podmieňuje B prostredníctvom C.  Následujúce pravidlo umožňuje určiť nezávislosť premenných v grafe: A a B sú navzájom nezávislé pre danú (pozorovanú) množinu premenných C (A \perp B | C ) ak všetky cesty v grafe medzi A a B obsahujú aspoň jeden z nasledujúcich prípadov.

1. Jednosmerka: a \rightarrow \dots \rightarrow c \rightarrow \dots \rightarrow b (tri bodky ilustrujú prítomnosť ďalší premenných, ich prítomnosť je však nepodstatná a v ďalšej diskusie ich vynechám) a uzol c je v množine C. Intuícia je nasledovná. Ak vysoký obsah vápnika (V) vo vode spôsobuje vodný kameň (K) a vodný kameň spôsobuje hučanie variča (H), tak hučanie variča je nezávislé od obsahu vápnika ak viem, že varič je zanesený vodným kameňom (V \perp H | K ) . Ako sme videli u Jaynesa nezávislosť vyjadruje informačnú nezávislosť. V našom príklade vyjadruje, že znalosť V nám nepovie nič nové o hučaní H ak vieme K – že varič je zanesený (alebo nie je zanesený). Ak by sme K nepoznali, množina C by bola prázdna a v tomto prípade by bolo H závislé od V. Smerovanie jednosmerky pritom nie je dôležité, keďže na poradí argumentov nezáleží A \perp B|C=B \perp A|C.

2. Rozchodník (spoločná príčina): a \leftarrow c \rightarrow b a c je v C. Podobne ako pri 1, ak poznám príčinu, znalosť a mi nepovie nič nové o b.

3. Stredisko (spoločný následok): a \rightarrow c \leftarrow b a c nie je v C. Kľúč od trezora majú len Anton a Boris. Ak viem, že niekto otvoril trezor (C) a dozviem sa, že to určite nebol Anton (A), tak automaticky viem, že ho otvoril Boris (B). Znalosť A nám teda povedala niečo o B ak zároveň poznáme C. Teda A a B sú závislé ak poznáme C. Možno trochu prekvapivo ak C nepoznáme, tak nemôžeme s istotou nič tvrdiť o B na základe A a tieto sú nezávislé.

Ak je množina C prázdna a A a B sú nezávislé hovoríme o nepodmienenej nezávislosti, v opačnom prípade o podmienenej.

Grafické modely (GM) sú abstraktnou reprezentáciou. Abstraktnejšou ako probabilistický model, ktorý je plne definovaný až keď určíme jeho parametrizáciu (na základe dát). a \rightarrow b teda pretavíme napríklad do b \sim \mathcal{N} (a,\sigma=2) a všeobecne pre každý uzol určíme funkčný vzťah x = f(pa_x). Kde pa_x sú rodičia x, teda premenné z ktorých smeruje šíp do x. Túto konkrétnejšiu reprezentáciu nazýva Pearl kauzálnym modelom, zatiaľčo v prípade GM hovorí o kauzálnej štruktúre.

Samozrejme v praxi graf nepoznáme. Poznáme dáta, prostredníctvom ktorých môžeme odhadnúť rozdelenie pravdepodobnosti. Preto nás zaujíma vzťah medzi pravdepodobnosťami (model) a grafickou reprezentáciou (štruktúra). Dôležitú rolu pritom hrajú nezávislostí v grafe. Nezávislosť premenných je možné identifikovať cez testovanie signifikantnosti. V prípade nezávislosti totiž platí p(A,B)=p(A)p(B) a môžeme testovať či sa náš odhad p(A,B) signifikantne líši od produktu p(A)p(B).

Vo všeobecnosti nemožno jednoznačne identifikovať na základe pravdepodobnosti graf, ktorý rozdelenie vygeneroval. Napríklad ak prešetríme na nezávislosť grafy A \rightarrow B \rightarrow C a A \leftarrow B \leftarrow C zistíme, že obidva vykazujú rovnaké nezávislosti. B a A sú nezávislé pre pozorované C. Všetky ostatné konfigurácie sú závislé. Z pravdepodobností preto môžeme vyčítať, čo Pearl nazýva vzor – graf ktorý je miešanina smerovaných šípov a spojení bez orientácie. Spojenia bez orientácie pritom vyjadrujú neistotu ohľadom smerovania a teda, že pri danom spojení sú obidva smery možné. Vzor získame pomocou nasledujúceho algoritmu.

V prvom kroku prešetríme všetky páry uzlov A,B. Ak sú A,B závislé pre všetky možné množiny C tak pridáme spojenie medzi A a B.

Vyššie sme videli, že pre jednosmerky nie je možné jednoznačne určiť smerovanie. To isté platí pre rozchodník. Situácia je iná pri stredisku. Strediská je možné identifikovať v grafe na základe nezávislostí. Ak sme v prvom kroku získali spojenie medzi A-C a medzi B-C a A,B sú nezávislé (žiadne spojenie), tejto konfigurácii zodpovedá len A \rightarrow C \leftarrow B. Pre každú inú orientáciu by museli byť A a B závislé.

Následne v treťom kroku sa snažíme nájsť orientáciu pre čo najviac zostávajúcich spojení. Pri tom využívame dva fakty. Po prvé, definícia vyžaduje aby bol graf acyklický. Pri konfiguráciách kde existuje len jediná acyklická alternatívna orientácia, túto musíme zvoliť. Po druhé, druhý krok vyčerpávajúco určuje strediská, preto žiadne ďalšie strediská nemôžeme do grafu pridať. Znova, pri konfiguráciách, kde existuje ku strediskám jediná alternatíva, zvolíme práve túto.

Tento algoritmus predpokladá, že všetky uzly sú pozorované. Situácia sa komplikuje ak povolíme prítomnosť nepozorovaných latentných premenných v našom modeli. V tomto prípade nie je možné jednoznačne určiť ani vzor definovaný vyššie. Napríklad graf MPD znázornený vyššie je schopný vygenerovať každé rozdelenie pravdepodobnosti vygenerované grafom M \rightarrow P  (Presnejšie pre každú parametrizáciu MP existuje parametrizácia MPD ktorá produkuje rovnaké rozdelenie pravdepodobnosti MP). Dôvod je evidentný – graf MPD zahŕňa MP. Riešenie je rovnako evidentné. S odvolaním sa na Ockhamovu britvu uprednostníme štruktúru s minimálnym počtom závislostí t.j. hrán v grafe. Následne môžeme upraviť algoritmus popísaný vyššie tak, že nám určí minimálny vzor s latentnými premennými. Pearl navrhol špeciálny vzor, ktorý reprezentuje latentné premenné ako hrany. Množinu uzlov tvoria pozorované premenné. Nasledujúce hrany sú možné. Skutočné príčiny A na B znázorňujú hrany A \rightarrow B . Nepravá súvislosť A \leftrightarrow B vyjadruje spoločnú latentnú príčinu A \leftarrow L \rightarrow B. Potenciálne príčiny  A \rightarrow^* B nechávajú dve vyššie uvedené možnosti otvorené. Buď ide o potenciálnu príčinu alebo nepravú súvislosť.

Konkrétny algoritmus na tomto mieste vynechám. Zaujímavé je jeho fungovanie v zredukovanom prípade, keď máme informáciu o časovom slede udalostí, teda o časovej organizácii premenných. V prípade časovej postupnosti totiž vieme, že budúce udalosti nemôžu mať vplyv na minulé udalosti. V tomto prípade sú všetky minulé udalosti potenciálnou príčinou pre všetky budúce udalosti. Vskutku definícia potenciálnej príčiny umožňujú formalizovať koncept štatistického času. Takýchto zoradení je v každom grafe viacej. Pearl vyjadril domnienku, že aspoň jeden zo štatistických časov bude zodpovedať tomu fyzikálnemu. Pearl však zároveň ukazuje že koncept času závisí od reprezentácie premenných a je možné nájsť ku každej reprezentácii, reprezentáciu, v ktorej funguje kauzalita opačne – z budúcnosti do minulosti. Otázku definície času, tak možno zredukovať na otázku definície problému. Bolo by napríklad zaujímavé vypracovať alternatívnu reprezentáciu pre štandardný model časticovej fyzike, kde čas beží opačne a uistiť sa, že táto reprezentácia je menej parsimónna.

Čo sa týka skutočných príčin, tieto okrem toho, že sú potenciálnymi príčinami, musia spĺňať dodatočnú podmienku, že ak má byť B príčinou C tak musí existovať (v čase predchádzajúca) premenná A pre ktorú platí  A \not \perp C a A \perp C| B. Inak povedané ak je B príčina C tak B zablokuje tok informácii od A ku C.

Nakoniec pre nepravý súvis platí že existuje predchádzajúce A, tak že A \not \perp B a A \perp C . Túto konfiguráciu možno vysvetliť tým, že A je spoločnou príčinou B \leftarrow A \rightarrow C a B nemá ďalší vplyv na C aj keď mu predchádza v čase. Inak povedané súvis medzi A a B existuje len v dôsledku tretej premennej a je preto nepravý.

Zhrniem. Rozdelenie pravdepodobnosti pozorovaných premenných samo o sebe neumožňuje určiť kauzálny súvis. Na to potrebujeme grafickú reprezentáciu bayesiánskych grafických modelov. Ak ju nepoznáme, čiastočne ju môžeme vypočítať z pozorovaných pravdepodobností. Pearl ukazuje ako. Komplikáciou je potenciálna prítomnosť neznámych latentných premenných v grafe. Naopak znalosť časovej postupnosti značne zjednodušuje inferenciu grafu a kauzality.

Pearl, J. (2009). Causality: models, reasoning and inference (2nd ed.). Cambridge University Press. Cambridge, UK.

Viac pôrodov na Valentína a menej cez Halloween

Podľa tohtoročnej štúdie v PlosOne sú pisatelia vedeckých blogov muži (check), doktorandi (check) v nejakom z oborov sociálnych vied (check) a majú Twitter (nemám). Z tohoto dôvodu mi pripadajú zvláštne rôzne blogy štatistikov (niektoré nájdeš na lište vpravo). Tieto sú v mnohých prípadoch vedené profesormi. Priznám sa, že nepoznám výskumný blog jediného profesora psychológie. Zároveň to však je super príležitosť pre nás pešiakov vedy (gather data, analyze, publish, repeat) vidieť čím sa špecialisti na nástroje zaoberajú.

No a čím sa zaoberajú? Väčšinou nadávajú na žurnalistov, ako si zasa v nejakom článku poplietli súvislosť a kauzalitu, alebo ako v nejakom grafe nezačína ypsilonová os na nule. Často takisto hrešia vedcov, lebo nepoužívajú správne metódy a ešte aj tie nesprávne používajú nesprávne. No a zvyšok času sa hádajú medzi sebou – väčšinou v rámci zákopových vojen medzi bayesiánmi a frekventistami.

Minule rozoberal štatistik Andrew Gelman štúdiu od autorov Levy, Chung a Slade (2011). Títo došli k prekvapivému zisteniu, že pôrodnosť stúpa/klesá počas dvoch sviatkov a to na Valentína a na Helloween. Počas Valentína je o 3.6% pôrodov viac (12.1% cisársky rez) ako počas okolitých 14 dní. Na Halloweena je o pôrodov o 5.3% menej (-16.9% cisársky rez) ako počas okolitých 14 dní. Autori uzavreli, že kultúrne a psychologické faktory do určitej miery môžu ovplyvniť moment pôrodu. Kedže dáta (dátumy narodenia obyvateľov USA) sú v tomto prípade verejne dostupné, objavilo sa viacej zaujímavých analýz. Tieto sú myslím poučné a preto by som ich tu rád zhrnul.

V prvom rade sa pozrime na pôvodné analýzy:

Autori použili lineárny regresný model (ancova) pričom kontrolovali vplyv dňa v týždni. Dáta sú z rokov 1996-2006 v USA. Ohviezdičkované dni boli signifikantne odlišné od ostatných.

Nedostatkom tejto analýzy je, že ignoruje dáta ostatných dní. Aké extrémne sú odchýlky pre Valentín a Halloween v porovnaní s ostatnými sviatkami a ostatnými náhodnými odchylkami? Chris Mulligan zohnal dáta od pre USA 1969-1988:

Graf zobrazuje celkový počet pôrodov pre každý deň. Z grafu vidieť, že počas viacerých sviatkov pôrodnosť klesá. Nie u všetkých sviatkov je to vidieť. Napríklad thanksgiving je druhý pondelok v októbri a v grafe ho moc nevidieť keďže sa rozdelil v priebehu rokov na viaceré dni. Valentín a Halloween nie sú až tak výrazné. Zaujímavé  je, že pôrodnosť na Valentína na rozdiel od iných sviatkov stúpa. Nakoniec vidieť aj sezónny trend a síce počet pôrodov je najvyšší koncom leta a začiatkom jesene. Zrejme majú studené a nudné, zimné večery pozitívny vplyv na výskyt počatí.

V ďalšom kroku by sme mohli vyhodnotiť celoročné dát štatisticky pomocou rovnakej analýzy ako Levy et al. Problém je v tom, že by sme takto získali zrejme kopu signifikantných výsledkov a takisto obrovskú variabilitu v dátach- okrem sviatkov by mal značný vplyv časť sezóny, deň v týždni alebo deň v roku. Lineárny model totiž nezohľadňuje že merané hodnoty tvoria časovú radu. V časovej rade sú po sebe nasledujúce hodnoty navzájom na sebe závislé. Ak dnes vážim 80 kilogramov tak zajtra nebudem vážiť 90 kilogramov, ale niekde okolo 80. Lineárny model posudzuje tieto časové merania ako nezávislé a vskutku strácame tak informáciu, že sa jedná o hodnoty merané v po sebe nasledujúcich dňoch. V merítku 14 dní to nie je také kritické, ale ak by sme porovnávali všetky dni v roku tak tu nám lineárny model nepomôže.

S ďalším príspevkom prišiel Aki Vehtari. Tu je jeho prvá analýza:

Vehtari použil Gausovský proces, pozostávajúci z dvoch pomaly meniacich sa trendov a jedného periodického trendu. Prvý graf znázorňuje dáta. Forma periodického procesu inferovaná na základe dát je znázornená v druhom grafe zhora. Je vidieť, že ide o týždenný trend. Spodná grafika je najzaujímavejšia. Znázorňuje reziduálnu variabilitu dát, ktorú model nedokázal vysvetliť. Modré krúžky zvýrazňujú extrémne hodnoty – dni, počas ktorých je pôrodnosť významne odlišná od predpovedí modelu. Je vidieť, že pôrodnosť na Valentína je naozaj významné vyššia a na Halloween významné klesá.

Model je možné obohatiť o ďalšie komponenty, zachytávajúce ďalšie potenciálne časové trendy v dátach. Druhá Vehtariho analýza vyzerá nasledovne:

Tento model má šesť komponent:
1. pomalý trend, zachytávajúci nárast pôrodnosti v 80. rokoch (modrá krivka, prvý graf).
2. 7-dňovy periodický trend. V druhom grafe zhora je vidieť, že pôrodnosť je nižšia cez víkend. Tento trend má medziročne silnejúci charakter
3. ročný sezónny periodický trend. V treťom grafe zhora je znázornený efekt studených zimných večerov.
4. extrémne hodnoty sú explicitne zohľadnené a modelované. V štvrtom grafe vidieť, že výnimky pripadajú na sviatky.
5. krátkodobý korelovaný šum. Neviem, či sa jedná o hnedú krivku v prvok grafe. Každopádne predpokladám, že ide o niečo na spôsob Markovského procesu.
6. reziduálny časovo nezávislý Gausovský šum.

Výhodou tohoto komplikovaného modelu je, že umožňuje zohľadniť alternatívne vysvetlenia. Hodnoty v štvrtom grafe sú ošetrené o ostatné vplyvy a trendy. Z tejto analýzy môžeme konštatovať, že Valentín a Halloween naozaj sú výnimočné. V prípade Halloweenu však ide o typický efekt sviatku. Počas sviatkov je pôrodnosť nižšia. To že Halloween nie je úradným sviatkom zdá sa nehrá rolu. Podobný efekt vidieť aj na prvého apríla. Zaujímavý je aj 29. Február. Zdá sa, že matky nechcú aby ich deti oslavoval narodeniny každé štyri roky. Vianoce so svojimi sviatkami sú samozrejme galiba pre pôrody. Mnohé presúvajú na obdobie medzi Vianocami a novým rokom.

Na záver teda možno skonštatovať, že efekt vyššej pôrodnosti prežil vyššie uvedené analýzy. Dôvody tohoto efektu budú zrejme kultúrne a psychologické ako tvrdia Levy a kolegovia. Ide o jediný sviatok cez ktorý počet pôrodov významne stúpa.  V prípade, že niekto príde s alternatívnou hypotézou môžeme túto samozrejme štatisticky otestovať.

Levy B.R., Chung P.H. and Slade M.D. (2011) Influence of Valentine’s Day and Halloween on Birth Timing. Social Science & Medicine. Vol. 73, 8, 1246–1248

Všade kríza len u nás doma nie

Americký Gallup Poll sa pýtal američanov ako hodnotia ekonomické podmienky v rôznych častiach USA a v rôznych častiach sveta. Výsledky vyzerajú následovne.
poll
Ekonomickú situáciu súdi respondent ako horšiu v štátoch v ktorých nežije. Teda na východnom pobreží tvrdia, že kríza je v Kalifornii a na západnom tvrdia, že ekonomika je horšia na východe. Tento trend pokračuje čím ďalej je ekonomika od domova – európa je na tom horšie ako amerika a najhoršie je na tom globálna ekonomika.

Čo si o týchto výsledkoch máme pomyslieť? Frank Newport z Gallupu tvrdí, že Američania sa majú zrejme v zásade dobre. Ich skúsenosť nekorešponduje so správami a nadmerný pesimizmus v ich chápaní kompenzujú iné štáty. V tomto kontexte je zaujímavé, že bias je silnejší u republikánov. Pritom vnímanie vlastnej situácie nie je až také odlišné u oboch skupín voličov:

Možné je to vysvetliť tým, že súčasný americký prezident je demokrat a teda republikáni vnímajú stav ekonomiky pesimistickejšie. Tým pádom musia svoj pesimizmus rozdeliť a rozdelia ho do iných štátov, o ktorých nemajú toľko informácii.

Problémy môžu byť samozrejme aj kognitívne. Je možné že ľudia nevedia konzistentne zhodnotiť celok a časti (štát USA< celé USA < Svet). Takisto je možné, že Američania sa  majú mizerne a výsledky reflektujú optimistický bias. Niečo v zmysle: za každých okolností sa má môj kmeň lepšie ako kmene ostatné.