Judea Pearl: Causality (Časť 4)

V tomto článku rozoberiem posledné 4 kapitoly (7.-10.) Pearlovej knihy. Siedma kapitola, tak ako 2., 3. a 5. kapitola je nabitá obsahom zatiaľčo kapitoly 8., 9. a 10. sú venované diskusiám a rôznym lemám a zovšeobecneniam. V 2. a 3. kapitole sme sa zaoberali kauzálnymi grafmi. Tieto vyjadrujú všeobecnú kauzálnu štruktúru napríklad, že chodec ktorého zrazí auto zomrie. Kauzálna štruktúra platí pre všetky možné modely,kde príčina x ovplyvňuje výsledok y y = f_y(x,u_y) (kde u_y vyjadruje vplyv latentných faktorov). Štrukturálne rovnice (kapitola 5.) špecifikujú f(\dot) a sú tým pádom konkrétnejšie. V prípade auta ktoré zrazilo chodca môže napríklad štrukturálna rovnica vyjadrovať pravdepodobnosť úmrtia v závislosti od rýchlosti auta y = \sigma(x-20 + u_y), kde x je rýchlosť v km/h, \sigma je sigmoidálna funkcia a u_y \sim \mathcal{N}(\mu = 0, \sigma = 5) vyjadruje neistotu prameniace z neznalosti ostatných faktorov ako je zdravotná kondícia obete, v akej pozícii do človeka auto narazilo a.t.ď.

Kapitola 7. sa zaoberá ešte detailnejšou znalosťou, znalosťou hodnoty, ktorú u_y nadobudlo v konkrétnej situácii. Štrukturálna rovnica platí pre všetky situácie. Znalosť u_y vyjadruje konkrétnu situáciu napríklad, že Fera včera zrazilo auto na prechode pri rýchlosti 70 km/h, konkrétnej konfigurácii okolností zhrnutej do hodnoty u_y=30. Aj v tomto prípade môžeme vykonať zaujímavé analýzy, konkrétne môžeme sa zaoberať hypotetickými úvahami. (Tzv. counterfactuals u Pearla aj keď Pearl považuje tento názov za nevhodný, keďže vyjadruje protichodnosť). Môžeme sa spýtať či by chodec zomrel ak by auto išlo pomalšie a teda napríklad či je auto dostatočnou, nevyhnutnou príčinou úmrtia. Takéto otázky sú vysoko relevantné pri testovaní medikamentov a v právnych sporoch. Žiaľ tradičná štatistika má s nimi problémy. A to napriek tomu, že ľudia takéto hypotetické otázky rutinne hodnotia. V našom príklade je hodnota u_y=30 natoľko vysoká že aj keby auto stálo na mieste x=0 chodec by na zrážku zomrel. Toto zodpovedá vysoko nepravdepodobnej situácii (vskutku p(u_y \ge 30) < 0.001), že chodec idúc cez cestu sa šmykol, pri páde narazil do zaparkovaného auta a na následky zranení po náraze zomrel. V tomto prípade je nepravdepodobné, že auto spôsobilo smrť.

Formálne môžeme vyhodnotiť takéto situácie nasledovne. Potrebná je znalosť grafu a štrukturálnych rovníc. Konkrétna znalosť u nie je potrebná (a keďže ide o latentné faktory ich pozorovanie mnohokrát ani nie je možné). Tieto môžeme odhadnúť na základe pozorovaní ostatných faktorov. Napríklad v lineárnom modeli tvoria u rezídua, teda odchýlku pozorovaných hodnôt od predpovedí. Pri hypotetických výrokoch nás zaujíma pravdepodobnosť, že dôsledok Y nadobudne hodnotu y, ak X zmeníme na x pri latentných okolnostiach U=u,  p(Y=y| do(X=x),U=u). Pearl v tejto časti knihy používa zjednodušenú notáciu p(y_x(u)), ktorú preberiem aj v tomto článku. Inferencia p(y_x(u)) prebieha v troch krokoch.

1. Abdukcia. Na základe pozorovania Y=y’, X=x’ a všetkých ostatných meraných faktorov W=w’ odhadneme rozdelenie U=u.

2. Modifikácia. Prevedieme operáciu do(X=x). V 3. kapitole sme videlo, že to znamená modifikáciu grafu a štrukturálnych rovníc, tak že X nie je závislé na svojich rodičoch v grafe ale nadobúda pevne stanovenú hodnotu x.

3. Predpoveď. V modifikovanom grafe dosadíme U=u a vypočítame pravdepodobnosť p(Y=y).

Podobne ako v tretej kapitole ponúka Pearl kalkulus hypotetického myslenia, ktorý umožňuje systematicky zredukovať hypotetické výroky na formulu, ktorá pozostáva len z pozorovaných pravdepodobností (a túto pravdepodobnosť je možné určiť). Pravidlá sú nasledovné. Pre množiny premenných X, Y a W platí:

1. Kompozícia: W_x(u)=w \Rightarrow Y_{xw}(u)=Y_x(u). Ak W nadobúda hodnotu w za podmienok u tak môžeme manipuláciu w za rovnakých podmienok odstrániť z dolného indexu, keďže táto manipulácia hodnotu W nijak neovplyvní.

2. Efektívnosť: X_{xw}(u)=x pre všetky X a W. Manipulácia X zmení X nezávislé od hodnôt ostatných premenných W.

3. Obrátiteľnosť: (Y_{xw}(u)=y) \wedge (W_{xy}(u)=w) \Rightarrow Y_x(u)=y. Rovnosť vyjadruje predikát, že medzi premennými nie je možný feedback. V opačnom prípade vyhodnotenie hypotetických výrokov nie je možné.

Tieto tri pravidlá umožňujú určiť, či je vyhodnotenie hypotetického výroku možné a ak áno nájde formulu pre výpočet.

V podstate všetky aplikácie hypotetických úvah ktorými sa Pearl zaoberá v nasledujúcich kapitolách 8,9,10 vychádzajú z binárnych náhodných premenných. Toto dáva zmysel, keďže väčšina hypotetických úvah má takúto štruktúru, značne to zjednodušuje vysvetlenia a v zásade všetky kontinuálne premenné možno redukovať na binárne pomocou prahovej hodnoty. Napríklad kontinuálnu rýchlosť vozidla v príklade vyššie môžeme redukovať na binárnu premennú x>20.

V 8. kapitole Pearl rozoberá nedokonalé experimenty. Dobrým príkladom je napríklad farmakologická štúdia, v ktorej nie všetci probanti dodržali program dávkovania. Buď ho niektorí v experimentálnej skupine zanedbali alebo si zúfalí pacienti v kontrolnej skupine potajme medikament zadovážili. Ak máme informáciu o dávkovaní môžeme naše odhady kauzálneho vplyvu medikamentu na zdravie korigovať. Hypotetické úvahy hrajú dôležitú úlohu. Pri nedokonalých experimentoch totiž musíme vyhodnotiť hypotetický scenár, ak by probant ktorý liek nevzal, vykonal inak, aký dopad by to malo na jeho zdravie.

V deviatej kapitole sa Pearl zaoberá nevyhnutnou a postačujúcou príčinou. Napríklad prítomnosť kyslíka v miestnosti je nevyhnutná aby sme založili oheň. Kyslík je teda nevyhnutnou príčinou ohňa. Naopak ak sme odsúdili väzňa na odstrel, ktorý vykonajú traja paralelní strelci A, B, C tak výstrel strelca A nie je nevyhnutnou príčinou smrti väzňa, lebo väzeň by zomrel aj keby by A nevystrelili. Naopak výstrel každého zo strelcov je postačujúci na to aby väzeň umrel (vychádzajúc z toho, že strelci deterministicky splnia povel). Naopak kyslík nie je dostatočnou príčinou. Vo väčšine miestností s kyslíkom nehorí. Dodatočná udalosť je nutná (napr. škrtnutie zápalky), aby oheň vypukol.

Pravdepodobnosť, že X je nevyhnutnou príčinou Y je daná ako

p(y'_{x'}|x,y)=\frac{p(y)-p(y_{x'})}{p(x,y)}

Pravdepodobnosť, že X je postačujúcou príčinou Y je daná ako

p(y_x| y',x')= \frac{p(y_x)-p(y)}{p(x',y')}

Kde X, Y a U sú binárne premenné a y',x' a u' sú komplementárne hodnoty ku x,y,u.

Aby sme určili členy p(y_{x'}), p(y_x) v rovniciach vyššie sú potrebné experimentálne štúdie. Naopak aby sme určili p(y',x'), p(y,x) sú potrebné pozorovania. V experimentoch je totiž x manipulovaná, tým pádom nepoznáme prirodzené rozdelenie x. Pearl však ukazuje, že za zmysluplných predpokladov možno použiť jednoduchšie rovnice, ktoré vychádzajú len z experimentálnych dát alebo len z pozorovaní.

Nakoniec v desiatej kapitole sa Pearl zaoberá konkrétnymi a všeobecnými príčinami. Napríklad vo výroku “nadmerné pitie alkoholu môže viesť k úmrtiu” možno označiť alkohol ako všeobecnú príčinu úmrtia. Naopak v tvrdení “náš ruský kamarát Alexei zomrel po vypití litra vodky na otravu alkoholom” možno označiť alkohol ako konkrétnu príčinu. Formálne, v obidvoch situáciách je známa kauzálna štruktúra a takisto model daný štrukturálnymi rovnicami. Pri konkrétnych príčinách však dodatočne poznáme aj hodnoty niektorých latentných premenných. Tieto sú dané práve znalosťou konkrétnej situácie “Alexei, náš ruský kamarát …”. Táto znalosť môže zjednodušiť štrukturálne rovnice a viesť k redukovanému grafu. Napríklad y = ax + buz môžeme zredukovať na f_i = ax_1 ak vieme, že u=0. Redukovaný graf nazýva Pearl kauzálnym lúčom. V tomto grafe môžeme následne vyhodnotiť pravdepodobnosť, že x je príčinou y. Táto pravdepodobnosť vyjadruje pravdepodobnosť konkrétnej príčiny. Napríklad u=0 môže vyjadrovať fakt, že Alexei nepožil dodatočne žiadne drogy a teda že drogy z nemali vplyv na jeho úmrtie. V opačnom prípade by bola pravdepodobnosť, že alkohol bol konkrétnou príčinou jeho úmrtia nižšia.

Snáď nemusím dodať, že Pearlova kniha sa mi veľmi páčila. Kniha patrí do môjho obľúbeného štýlu tvrdohlavých monografii. Koncepty sprostredkované v knihe nie sú ťažké. Hlavnou ťažkosťou je vyvodiť z nich aplikácie a prevziať ich do praxe. Nemyslím, že hlavným problémom by pritom bola ich zriedkavá aplikovateľnosť. Práve naopak. Pearlova kauzalita poskytuje dôležité informácie pre psychologickú výskumnú prax a takisto ako ukázali Tenenbaum a ostatní môže byť inšpiráciou pre modeli kauzálneho myslenia u ľudí. Nepochybujem, že viaceré aplikácie Pearlovej kauzality v kognitívnych vedách uvidíme ešte ďalších článkoch na Mozgostrojoch.