Judea Pearl: Causality (Časť 3)

Zatiaľčo druhá a tretia kapitola tvoria teoretické mäso, štvrtá až šiesta kapitola tvoria aplikáciu a diskusiu. Štvrtá kapitola sa zaoberá zovšeobecneným Pearlovho do(X=x) formalizmu. Pearl ukazuje ako vyhodnotiť viaceré manipulácie P(Y|do(X_1=x_1),\dots, do(X_n=x_n)) . Takúto viacnásobnú manipuláciu môžeme nazvať intervenčný plánom. Moc nového sa však nedozvieme. Tieto plány možno vyhodnotiť pomocou intervenčného kalkulu z tretej kapitoly. Jedinou dodatočnou komplikáciou je že si musíme dať pozor v akom poradí transformujeme do(X_i=x_i) na X_i=x_i. Nie všetky sekvencie musia viesť k riešeniu. Aby sme zistili, či je efekt identifikovateľný musíme prešetriť všetky možné sekvencie. Pearl ukazuje ako toto šetrenie zjednodušiť a urýchliť.

Ďalšie zovšeobecnenie umožňuje rozšírenie manipulácie na ľubovoľné funkcie P(Y|do(X=g(z)), kde g(z) je funkciou ostatných premenných v grafe. Aj v tomto prípade výsledky z tretej kapitoly platia. Akurát si musíme dať pozor ktoré premenné zahrnemie do z, tak aby efekt intervencii zostal identifikovateľný.

Piata kapitola diskutuje modelovanie pomocou štrukturálny rovníc (SEM), ktoré je populárne hlavne v sociálny vedách. Predchádzajúce kapitoly vychádzali zo všeobecného prípadu a výsledky platia pre ľubovoľný model x_i = f_i(pa_i,\eta_i). T.j. každá premenná je funkciou hodnôt svojich rodičov pa_i a náhodného faktora \eta_i. Štrukturálne modely špecifikujú lineárny vzťah: x_i = \sum_{k \not = i} \alpha_{ik}x_k + \eta_i , kde \eta_i sú navzájom nezávislé náhodné premenné a \alpha_{ik} tvoria neznáme koeficienty.

V zásade všetky výsledky popísané v predchádzajúcich kapitolách platia aj pre SEM, poprípade sa dajú vďaka lineárnej formulácii zjednodušiť. Pearlova diskusia sa točí hlavne okolo interpretácie ktorej sa SEM historicky dostalo od štatistikov, epidemiológov a sociálnych vedcov. Pre Pearla sú štrukturálne rovnice ekvivalentnou reprezentáciou ako grafy. Vyjadrujú rovnakú t.j. kauzálnu informáciu. Konkrétne \alpha_{ik} vyjadrujú o koľko sa v priemere zmení x_i ak manipulatívne zmeníme x_k o jednu jednotku. Táto intepretácia uniká štatistikom, keďže nemajú jasnú definíciu kauzality. Štatistici tak interpretujú štrukturálne rovnice ako regresiu kde \alpha_{ik} tvoria regresné koeficienty a \eta_i je reziduálna odchýlka. V takto vnímaných rovniciach možno presúvať členy z ľavej na pravú stranu od rovnítka, čo vedie k problémom. Použitie rovnítkovej notácie tak trochu zavádza. Rovnítko vyjadruje jednosmerné kauzálne priradenie príčina k efektom a členy nemožno presúvať.

Zaujímavé je v kontexte SEM sa pozrieť na fyzikálne zákony, napr. Ohmov zákon: I=V/R, kde I je prúd, V napätie a R vyjadruje odpor vodiča. Tieto zákony možno interpretovať ako štrukturálne rovnice. Vidíme, že vo fyzikálnych zákonoch chýba stochastický člen \eta. Model je deterministický a nepredpokladá prítomnosť žiadnych ďalších faktorov. Ohmov zákon možno interpretovať kauzálne – pridaním napätia spôsobíme vyšší prietok elektrického prúdu vodičom. V tomto zmysle možno 1/R interpretovať ako koeficient \alpha. Z pohľadu fyziky nie je problém prehodiť členy z ľavej na pravú stranu a naopak. Napríklad môžeme získať R= V/I. Z pohľadu kauzálnej interpretácie je však takáto úprava neprípustná. Rovnica by vyjadrovala, že pridaním prúdu (pri konštantnom napätí) môžeme zmeniť odpor vodiča, čo je zjavne nezmysel. Čiže aj keď fyzici manipulujú rovnice, nie všetky výsledné formulácie sú si rovné. Nie všetky sú kauzálne interpretovateľné.

Kauzálna interpretácia fyzikálnych zákonov nás nevyhnutne vedie k otázke definície systému. Ak sa pozrieme na vesmír ako uzavretý celok, tento nepripúšťa žiadne alternatívne udalosti. Fyzikálny vesmír tvorí deterministický stroj, ktorého dianie je nevyhnutne dané jeho počiatočným stavom. Z tohoto pohľadu nedáva ani pojem kauzality zmysel. Žiadne manipulácie nie sú možné a žiadne alternatívy neexistujú. Kauzálne interpretácie začnú byť zmysluplné ak z vesmíru vystrihneme určitý výsek – ak definujeme systém, ktorý chceme skúmať. V tomto ohľade sa Pearlove predstavy veľmi podobajú na úvahy o kauzalite u Norberta Bischofa, ku ktorým sa snáď niekedy vrátim (niečo už bolo spomenuté tu).  Všeobecne, definícia systému znamená vymedzenie jeho hraníc. Tým má zmysel uvažovať o externej manipulácii. Zákony a štrukturálne rovnice nám umožňujú kompaktne popísať ako takéto manipulácie ovplyvnia fungovanie systému.

Ako som spomenul piata a šiesta kapitola sa zaoberajú z veľkej časti kontroverziami a paradoxami, ku ktorým dochádza ak výskumník nie je vyzbrojený formálnou definíciou kauzality. Neznalí môžu opomenúť tieto diskusie ako historické kontroverzie. Snáď ešte ako tak zaujímavé sú formálne definície niektorých konceptov, o ktorých experimentátori bežne hovoria a uvažujú. Pomocou Pearlových formalizmov, môžeme vyjadriť pravdepodobnosť priameho efektu, vedľajšieho efektu a celkového efektu. Priamy efekt tvorí v grafe šípka z X do Y. Celkový efekt tvoria všetky cesty z X do Y a vedľajší efekt tvorí celkový efekt mínus priamy efekt (teda všetky vedľajšie cesty). Prečo rozlišovanie týchto efektov dáva zmysel si môžeme spriehľadniť na nasledujúcom príklade. Ak chceme zistiť či sú ženy pri pohovoroch (napr. prijímačky na vysokú školu) diskriminované na základe pohlavia, nestačí nám zistiť či je úspešnosť žien na pohovoroch nižšia ako úspešnosť mužských uchádzačov. Je možné, že muži sú kompetentnejší a výberové konanie tieto kompetencie zohľadňuje. Kompetencie uchádzačov, ktoré korelujú s pohlavím a aj s úspešnosťou uchádzača tak môžu spôsobiť koreláciu medzi pohlavím a úspešnosťou. V tomto prípade hovoríme o vedľajšom efekte. Na výbere kompetentných uchádzačov nie je nič zlé, práve naopak. Ak sa pýtame na existenciu diskriminácie zaujíma nás priamy efekt pohlavia na úspešnosť a vedľajšie efekty chceme ignorovať. T.j. pýtame sa aký efekt by mala zmena pohlavia na úspešnosť ak by sme všetky ostatné premenné držali na konštantnej úrovni. Pearlov formalizmus umožňuje posúdiť silu týchto efektov na základe pozorovaní bez nutnosti manipulácie.

Že by vyššie uvedená úloha mohla byť riešiteľná len na základe pozorovaní, sa zdá uletené. Ako držať konštantné všetky faktory? Ktoré sú to faktory? A na akej úrovni ich chceme držať konštantné? Východiskom výpočtov je samozrejme naša znalosť kauzálnej štruktúry problému. Našťastie nemusíme poznať všetky faktory. Stačí nám poznať rodičov príčiny X, teda faktory ktoré majú priamy vplyv na pohlavie uchádzačov a kontrolovať tieto.

Otázka hodnôt kontrolovaných faktorov ostáva na výbere vedca. Pearl poznamenáva, že zaujímavou voľbou je zvoliť hodnoty, ktoré by nadobudli tieto faktory ak by sme zvolenú hodnotu príčiny pozorovali (a nie manipulovali). Pearl hovorí o prirodzenom priamom efekte, ktorý možno formálne vyjadriť ako

\sum_z ( E(Y| do(x',z))- E(Y|do(x,z)) )P(z|do(x))

kde E(Y) je očakávaná hodnota efektu, x je pozorovaná hodnota a x' je manipulovaná hodnota príčiny. Intuitívne, prirodzený priamy efekt vyjadruje výsledky experimentu, v ktorom by uchádzači zmenili pohlavie a všetky ostatné faktory – vek, kompetencie, CV, priebeh pohovoru etc. ostali rovnaké. Takýto experiment nie je možné vykonať. Že je možné inferovať výsledky tohoto experimentu na základe pozorovaní bežných pohovorov je podľa mňa absolútne úžasné!