Judea Pearl: Causality (Časť 1)

Jaynesovu knihu som úž dávnejšie dočítal. Súhrny pre Mozgostroje som zatiaľ vynechal. Chcem tieto kapitoly prečítať pozorne ešte druhý krát a poprípade konfrontovať ďalšie zdroje. Súhrny zvyšných (13) kapitol sa teda objavia niekedy v budúcnosti. Ako hodnotného Jaynesovho nástupcu som už medzičasom vybral Pearlovu knihu o kauzalite. Kniha spĺňa prvé Matúšovo kritérium čitateľnosti v tom, že si bere filozofov na paškál (a ešte viac vo svojej druhej edičnej inkarnácii). V recenziách na amazone sa môžete napríklad dozvedieť od filozofa vedy: “The second edition repeats the first edition verbatim, but at the end of most chapters there’s a clearly defined section dealing with subsequent developments. There’s a long chapter at the end that updates you on the replies to the first edition, and some helpful new material explaining things that were tricky the first time through. The updates are concise. Replies to philosophers (at least) are ultimately devastating, although Pearl could explain himself more fully.”Takisto na LessWrong navrhli nahradiť Platóna Pearlom vo filozofickom učebnom curriculu.

V určitom zmysle Pearlova monografia pokračuje, kde tá Jaynesova skončila. Chápanie teórie pravdepodobnosti ako rozšírenej logiky umožňuje jasne definovať mnohé koncepty, ktoré tradičnej štatistike unikajú. Jedným takýmto konceptom je kauzalita.

Je možné dospieť na základ pozorovaní, že A je príčinou pre B? Aký postup zvoliť? Je možné tento postup formalizovať a automatizovať? Tradičná štatistika pozná koncepty ako korelácia, kovariancia, nezávislosť dvoch premenných alebo konfundujúca premenná. Kauzalita však ostala pre štatistiku tabu. Väčšinou sa o nej dozviete len z varovaní a negatívnych výrokov o tom, čo pomocou štatistických konceptov nie je možné zistiť. Najznámejšia mantra hovorí, že korelácia neimplikuje kauzalitu – cum hoc, propter hoc. V následujúcom hurhaji okolo akademického upaľovania previnilca, však zanikne otázka, čo teda kauzalitu implikuje. Kauzalita, tak ako ostatné predstavy vyhodené na smetisko vedy ostala napospas filozofom.

Pearl je špecialistom na kauzalitu. Počas svojej akademickej kariéry navrhol spektrum metód a stratégii, ktoré riešia rôzne problémy vznikajúce pri analýzach kauzality. Pearl sa nezľakol kontroverzii a tabu spojených s inferenciou kauzality. Jeho dôležitým postrehom bolo, že ľudia inferujú kauzalitu celý čas a väčšinou sú v tom prekvapujúco úspešný. Pearlovými hlavnými nástrojmi je teória pravdepodobnosti, teória grafov a topológie. Jeho výskum tak spadá metodicky do oblasti AI a učenia strojov aj keď jeho implikácie a aplikácie sa týkajú prevažne štatisticky a filozofie. Jeho kniha Causality (Pearl, 2009) tvorí súhrn tohoto výskumu. Kniha nie je ľahké čítanie. Nie je to dané tým, že používa moc technický jazyk, alebo že by bola samotná téma veľmi zložitá. Matematika je jednoduchá avšak obsah knihy je silne našlapaný. Diskusia je obmedzená na minimum. Kapitoly sú vystavané na definíciách, teórémach, algoritmoch a poprípade ich dôkazoch a príkladoch aplikácie. Obsah je dobre štrukturovaný a vysvetlený. Je však natlačený, takže občas sa cítim už po piatich stranách vysilený a nepamätám si všetky definície takže musím listovať a vracať sa naspäť. Inak ide o nanájvyš zaujímavé čítanie, tak ako téma sľubuje.

Kauzalitou sa možno zaoberať v rôznych situáciách. V tomto článku sa obmedzím na situáciu, keď sú dané len pozorovania a nie je možné premenné experimentálne manipulovať. Pearl sa touto situáciou zaoberá v druhej kapitole. Inferencia v takýchto situáciách nie je nemožná. Akurát sme, podobne ako fyzici čakajúci na výbuch supernovy, odkázaný na priazeň prírody a výskyt prírodných experimentov, ktoré táto svojim vedeckým divákom ponúkne.

V tomto prípade nám ako formalizmus pre určenie kauzality postačia bayesiánske grafické modely, ktoré som už na tomto blogu predstavil. Videli sme, že grafický model vyjadruje podmienené súvislosti, ktoré určujú kauzálny vplyv.

Uzly reprezentujú udalosti/výroky/premenné a šípky znázorňujú podmienenosť. Z grafu je možné vyčítať pravdepodobnosť elementárnych situácii. Každý uzol prispeje jedným členom v multiplikácii p(M,P,D)=p(P)p(M|P)p(D|M,P). Z tejto pravdepodobnosti môžeme získať pomocou p(A)=\sum_Bp(A|B)p(B) a definície podmienenej pravdepodobnosti všetky ostatné pravdepodobnosti. Z grafu je takisto možné vyčítať  nezávislosť udalostí.

Nezávislosť je komplikovanejší koncept ako podmienenosť. Napríklad v grafe A \rightarrow C \rightarrow B síce neexistuje priamy šíp od A ku B avšak A podmieňuje B prostredníctvom C.  Následujúce pravidlo umožňuje určiť nezávislosť premenných v grafe: A a B sú navzájom nezávislé pre danú (pozorovanú) množinu premenných C (A \perp B | C ) ak všetky cesty v grafe medzi A a B obsahujú aspoň jeden z nasledujúcich prípadov.

1. Jednosmerka: a \rightarrow \dots \rightarrow c \rightarrow \dots \rightarrow b (tri bodky ilustrujú prítomnosť ďalší premenných, ich prítomnosť je však nepodstatná a v ďalšej diskusie ich vynechám) a uzol c je v množine C. Intuícia je nasledovná. Ak vysoký obsah vápnika (V) vo vode spôsobuje vodný kameň (K) a vodný kameň spôsobuje hučanie variča (H), tak hučanie variča je nezávislé od obsahu vápnika ak viem, že varič je zanesený vodným kameňom (V \perp H | K ) . Ako sme videli u Jaynesa nezávislosť vyjadruje informačnú nezávislosť. V našom príklade vyjadruje, že znalosť V nám nepovie nič nové o hučaní H ak vieme K – že varič je zanesený (alebo nie je zanesený). Ak by sme K nepoznali, množina C by bola prázdna a v tomto prípade by bolo H závislé od V. Smerovanie jednosmerky pritom nie je dôležité, keďže na poradí argumentov nezáleží A \perp B|C=B \perp A|C.

2. Rozchodník (spoločná príčina): a \leftarrow c \rightarrow b a c je v C. Podobne ako pri 1, ak poznám príčinu, znalosť a mi nepovie nič nové o b.

3. Stredisko (spoločný následok): a \rightarrow c \leftarrow b a c nie je v C. Kľúč od trezora majú len Anton a Boris. Ak viem, že niekto otvoril trezor (C) a dozviem sa, že to určite nebol Anton (A), tak automaticky viem, že ho otvoril Boris (B). Znalosť A nám teda povedala niečo o B ak zároveň poznáme C. Teda A a B sú závislé ak poznáme C. Možno trochu prekvapivo ak C nepoznáme, tak nemôžeme s istotou nič tvrdiť o B na základe A a tieto sú nezávislé.

Ak je množina C prázdna a A a B sú nezávislé hovoríme o nepodmienenej nezávislosti, v opačnom prípade o podmienenej.

Grafické modely (GM) sú abstraktnou reprezentáciou. Abstraktnejšou ako probabilistický model, ktorý je plne definovaný až keď určíme jeho parametrizáciu (na základe dát). a \rightarrow b teda pretavíme napríklad do b \sim \mathcal{N} (a,\sigma=2) a všeobecne pre každý uzol určíme funkčný vzťah x = f(pa_x). Kde pa_x sú rodičia x, teda premenné z ktorých smeruje šíp do x. Túto konkrétnejšiu reprezentáciu nazýva Pearl kauzálnym modelom, zatiaľčo v prípade GM hovorí o kauzálnej štruktúre.

Samozrejme v praxi graf nepoznáme. Poznáme dáta, prostredníctvom ktorých môžeme odhadnúť rozdelenie pravdepodobnosti. Preto nás zaujíma vzťah medzi pravdepodobnosťami (model) a grafickou reprezentáciou (štruktúra). Dôležitú rolu pritom hrajú nezávislostí v grafe. Nezávislosť premenných je možné identifikovať cez testovanie signifikantnosti. V prípade nezávislosti totiž platí p(A,B)=p(A)p(B) a môžeme testovať či sa náš odhad p(A,B) signifikantne líši od produktu p(A)p(B).

Vo všeobecnosti nemožno jednoznačne identifikovať na základe pravdepodobnosti graf, ktorý rozdelenie vygeneroval. Napríklad ak prešetríme na nezávislosť grafy A \rightarrow B \rightarrow C a A \leftarrow B \leftarrow C zistíme, že obidva vykazujú rovnaké nezávislosti. B a A sú nezávislé pre pozorované C. Všetky ostatné konfigurácie sú závislé. Z pravdepodobností preto môžeme vyčítať, čo Pearl nazýva vzor – graf ktorý je miešanina smerovaných šípov a spojení bez orientácie. Spojenia bez orientácie pritom vyjadrujú neistotu ohľadom smerovania a teda, že pri danom spojení sú obidva smery možné. Vzor získame pomocou nasledujúceho algoritmu.

V prvom kroku prešetríme všetky páry uzlov A,B. Ak sú A,B závislé pre všetky možné množiny C tak pridáme spojenie medzi A a B.

Vyššie sme videli, že pre jednosmerky nie je možné jednoznačne určiť smerovanie. To isté platí pre rozchodník. Situácia je iná pri stredisku. Strediská je možné identifikovať v grafe na základe nezávislostí. Ak sme v prvom kroku získali spojenie medzi A-C a medzi B-C a A,B sú nezávislé (žiadne spojenie), tejto konfigurácii zodpovedá len A \rightarrow C \leftarrow B. Pre každú inú orientáciu by museli byť A a B závislé.

Následne v treťom kroku sa snažíme nájsť orientáciu pre čo najviac zostávajúcich spojení. Pri tom využívame dva fakty. Po prvé, definícia vyžaduje aby bol graf acyklický. Pri konfiguráciách kde existuje len jediná acyklická alternatívna orientácia, túto musíme zvoliť. Po druhé, druhý krok vyčerpávajúco určuje strediská, preto žiadne ďalšie strediská nemôžeme do grafu pridať. Znova, pri konfiguráciách, kde existuje ku strediskám jediná alternatíva, zvolíme práve túto.

Tento algoritmus predpokladá, že všetky uzly sú pozorované. Situácia sa komplikuje ak povolíme prítomnosť nepozorovaných latentných premenných v našom modeli. V tomto prípade nie je možné jednoznačne určiť ani vzor definovaný vyššie. Napríklad graf MPD znázornený vyššie je schopný vygenerovať každé rozdelenie pravdepodobnosti vygenerované grafom M \rightarrow P  (Presnejšie pre každú parametrizáciu MP existuje parametrizácia MPD ktorá produkuje rovnaké rozdelenie pravdepodobnosti MP). Dôvod je evidentný – graf MPD zahŕňa MP. Riešenie je rovnako evidentné. S odvolaním sa na Ockhamovu britvu uprednostníme štruktúru s minimálnym počtom závislostí t.j. hrán v grafe. Následne môžeme upraviť algoritmus popísaný vyššie tak, že nám určí minimálny vzor s latentnými premennými. Pearl navrhol špeciálny vzor, ktorý reprezentuje latentné premenné ako hrany. Množinu uzlov tvoria pozorované premenné. Nasledujúce hrany sú možné. Skutočné príčiny A na B znázorňujú hrany A \rightarrow B . Nepravá súvislosť A \leftrightarrow B vyjadruje spoločnú latentnú príčinu A \leftarrow L \rightarrow B. Potenciálne príčiny  A \rightarrow^* B nechávajú dve vyššie uvedené možnosti otvorené. Buď ide o potenciálnu príčinu alebo nepravú súvislosť.

Konkrétny algoritmus na tomto mieste vynechám. Zaujímavé je jeho fungovanie v zredukovanom prípade, keď máme informáciu o časovom slede udalostí, teda o časovej organizácii premenných. V prípade časovej postupnosti totiž vieme, že budúce udalosti nemôžu mať vplyv na minulé udalosti. V tomto prípade sú všetky minulé udalosti potenciálnou príčinou pre všetky budúce udalosti. Vskutku definícia potenciálnej príčiny umožňujú formalizovať koncept štatistického času. Takýchto zoradení je v každom grafe viacej. Pearl vyjadril domnienku, že aspoň jeden zo štatistických časov bude zodpovedať tomu fyzikálnemu. Pearl však zároveň ukazuje že koncept času závisí od reprezentácie premenných a je možné nájsť ku každej reprezentácii, reprezentáciu, v ktorej funguje kauzalita opačne – z budúcnosti do minulosti. Otázku definície času, tak možno zredukovať na otázku definície problému. Bolo by napríklad zaujímavé vypracovať alternatívnu reprezentáciu pre štandardný model časticovej fyzike, kde čas beží opačne a uistiť sa, že táto reprezentácia je menej parsimónna.

Čo sa týka skutočných príčin, tieto okrem toho, že sú potenciálnymi príčinami, musia spĺňať dodatočnú podmienku, že ak má byť B príčinou C tak musí existovať (v čase predchádzajúca) premenná A pre ktorú platí  A \not \perp C a A \perp C| B. Inak povedané ak je B príčina C tak B zablokuje tok informácii od A ku C.

Nakoniec pre nepravý súvis platí že existuje predchádzajúce A, tak že A \not \perp B a A \perp C . Túto konfiguráciu možno vysvetliť tým, že A je spoločnou príčinou B \leftarrow A \rightarrow C a B nemá ďalší vplyv na C aj keď mu predchádza v čase. Inak povedané súvis medzi A a B existuje len v dôsledku tretej premennej a je preto nepravý.

Zhrniem. Rozdelenie pravdepodobnosti pozorovaných premenných samo o sebe neumožňuje určiť kauzálny súvis. Na to potrebujeme grafickú reprezentáciu bayesiánskych grafických modelov. Ak ju nepoznáme, čiastočne ju môžeme vypočítať z pozorovaných pravdepodobností. Pearl ukazuje ako. Komplikáciou je potenciálna prítomnosť neznámych latentných premenných v grafe. Naopak znalosť časovej postupnosti značne zjednodušuje inferenciu grafu a kauzality.

Pearl, J. (2009). Causality: models, reasoning and inference (2nd ed.). Cambridge University Press. Cambridge, UK.