Entropia a Pravdepodobnosť

Posledné dve dekády boli poznamenané vzostupom bayesiánskych probabilistických metód. Tento poznačil v podstate všetky oblasti skúmania od štastiky a učenia strojov až po aplikované oblasti ako bioinformatika, ekonometria alebo práve modelovanie v kognitívnych vedách. Okrem vzrušujúcich aplikácii umožnila probabilistiká formulácia zovšeobecniť a zjednotiť rôzne algoritmy.  V 90. rokoch tak výskumníci so vzrušením zistili, že rozličné modely – lineárnu regresiu, logistickú regresiu, markovské siete alebo analýzu hlavných komponent možno sformulovať ako bayesiánske grafické modely. To sa odrazilo aj na nástupe učebníc, ktoré prevzali bayesiánsky prístup ako zjednucujúci princíp, z ktorého možno všetky aplikácie podľa potreby odvodiť. V učení strojov sem patrí napríklad Bishofova PRML alebo najnovšie Barberova BRML.

Zaujímavé je pritom, že ku všeobecnej probabilistickej formulácii existuje na prvý pohľad paralelná formulácia, ktorá narába s entropiou ako kvantitou vyjadrujúcou stupeň neistoty – teda vlastne tú istú vec čo pravdepodobnosť. Tejto formulácii sa dostalo málo pozornosti. Edwin Jaynes bol historicky najväčším propagátorom entropickej interpretácie. Jaynes si pritom sľuboval od tejto interpretácie, že vyrieši chronický problém bayesiánov s určením objektívnych apriori pravdepodobností pre bayesiánske modely. V tomto článku chcem rozobrať Jaynesov prínos v tejto oblasti, ktorému sa venuje v 11. a 12. kapitole svojej knihy Probability Theory (Jaynes, 2003). V ďalšom príspevku sa posnažím pridať aj novší výskum poukazujúci na paralely medzi pravdepodobnostnou a entropickou interpretáciou.

Koncept entropie pochádza zo štatistickej mechaniky. Fyzici sa v mnohých prípadoch zaoberajú problémami, kde je globálna vlastnosť systému daná, z nej treba odvodiť inú globálnu vlastnosť. Vzťah medzi týmito kvantitami je však sprostredkovaný interakciou jednotlivých elementov, ktorých stav a vlastnosti nepoznáme alebo nás nezaujímajú. Prirodzený spôsob ako tieto interakcie modelovať je použiť teóriu pravdepodobnosti a namiesto stavu jednotlivých častíc modelovať rozdelenie pravdepodobnosti rôznych stavov. Napríklad, v pôvodnej formulácii problému, ktorou sa zaoberal Gibbs na prelome 18. a 19. storočia nás zaujíma priemerná energia systému, vplyv rôznych manipulácii (napr. pridanie teploty) na energiu a naopak vplyv energetických zmien na iné vlastnosti systému (napr. tlak). Namiesto energetického stavu jednotlivých častíc modelujeme pravdepodobnosť p_i, že náhodne vybraná častica má energiu E_i. Tieto sú dané frekvenciami častíc s danou energiou  p_i = n_i / \sum_i n_i. Energetický stav častíc nepoznáme. Tým pádom ani rozdelenie pravdepodobnosti nie je známe. Známe sú globálne vlastnosti ako celková energia systému alebo teplota. Pridaním jedného dôležitého predpokladu v ktorom hrá entropia dôležitú rolu získame Boltzmanovo rozdelenie pravdepodobnosti pre rôzne energetické stavy:

p(E_i) = \frac{\exp (-E_i / T) }{Z(T)}

kde Z je normalizačná konštanta Z(T)= \sum_i \exp (-E_i / T) a T je teplota. Toto rozdelenie pravdepodobnosti môžeme použiť pri ďalších výpočtoch a napríklad odvodiť rovnicu pre tlak ideálneho plynu P= T/V.

Tento postup môžeme použiť ako všeobecný princíp pre definovanie rozdelenia na základe útržkovitej globálnej informácie. Toto je práve to čo bayesiánov zaujíma. Teoreticky musíme špecifikovať pre bayesiánsku analýzu apriori rozdelenie pravdepodobnosti parametrov. Každej možnej hodnote musíme prideliť pravdepodobnosť. V prípade premenných so spojitou množinou hodnôt je táto množina nekonečná. Tomuto problému sa možno vyhnúť cez špecifikáciu funkciu mapujúcej hodnoty parametrov na pravdepodobnosť. Množina potenciálnych funkcii však nie je o moc konečnejšia. Štatistici nemajú takéto presné apriori znalosti, resp. nemajú čas na to svoje informácie precízne kvantifikovať. Z praktických dôvodov preto vedci kvantifikujú svoju apriori znalosť len zhruba. Hrubú informáciu môžeme interpretovať ako globálne vlastnosti s ktorými narába štatistická mechanika a môžeme použiť podobných postup aby sme sa od hrubej informácie dopracovali k precíznemu rozdeleniu pravdepodobnosti – t.j. aby sme našli prior ktorý nám umožní naštartovať bayesiánsku inferenčnú mašinu.

Tento postup odvodenia rozdelenia pravdepodobnosti z hrubej informácie funguje nasledovne. Predstavme si, že máme malé kvantá pravdepodobnosti – celkovo ich máme n a našou úlohou je prideliť tieto kvantá každej hodnote i určitého parametra tak že výsledná suma pridelených kvánt n_i určuje pravdepodobnosť p_i=n_i/n.

Predstavme si, že sme náhodne zvolili určité rozdelenie n_1, n_2, \dots , n_m . (m je počet nádob medzi ktoré kvantá rozdeľujeme – t.j. počet možných hodnôt ktoré naša premenná môže nadobudnúť.) Aká je pravdepodobnosť tohoto rozdelenia pravdepodobnosti? (Pýtať sa na pravdepodobnosť pravdepodobnosti nie je problematické akurát, musíme dať pozor aby sme sa medzi toľkými pravdepodobnosťami jazykovo nezamotali a nestratili.) Táto je daná multinomiálnym rozdelením ako

p(n_1, n_2, \dots , n_m) = m^{-n} \frac{n!}{n_1! n_2! \dots n_m!}

Teraz nasleduje dôležitý trik. Ako zvoliť správne rozdelenie, ak nemáme žiadnu konkrétnu informáciu ako by toto malo vyzerať? Nie všetky rozdelenia sú rovnako pravdepodobné. Chytrou voľbou je preto zvoliť to najpravdepodobnejšie rozdelenie. Toto získame tradične ak nájdeme maximum vyššie uvedenej funkcie.

Skôr než pristúpime k hľadaniu maxima chceme multinomiálne rozdelenie trochu upraviť aby sa nám s ním lepšie pracovalo. Po prvé odstránime nemotorné faktoriály pomocou Sterlingovej aproximácie. Druhým problémom je že v skutočnosti, samozrejme, žiadne diskrétne kvantá pravdepodobnosti neexistujú. Pravdepodobnosť je spojitá kvantita. Tohoto problému sa zbavíme matematicky cez n_i \rightarrow \infty a n \rightarrow \infty. V tomto prípade sa p_i blíži konštantnej hodnote v rozpätí medzi 0 a 1. Ako výsledok týchto dvoch manipulácii získame

\frac{1}{n} log(p(n_1, n_2, \dots , n_m)) \rightarrow - \sum_{i=1}^m p_i log(p_i) = H(p_1,\dots, p_m)

Multiplikácia \frac{1}{n} a logaritmus sú monotónne operácie, nemenia preto pozíciu maxima a maximalizácia p(n_1, n_2, \dots , n_m) je preto ekvivalentná maximalizácii funkcie H(p_1,\dots, p_m) za podmienky, že \sum_{i=1}^m p_i = 1.  K hľadaniu maxima sa dostaneme za okamžik. Najprv si však rozoberme, čo sme získali vyššie uvedenou úpravou multinomiálneho rozdelenia. Tí zbehlejší už vedia, že H nie je hocaká funkcia, ale vyjadruje entropiu rozdelenia. Entropia vyjadruje očakávaný (=priemerný) informačný obsah rozdelenia. Rozdelenia pri ktorých si nemôžeme byť istý aké hodnoty očakávať majú vyšší informačný obsah a teda vyššiu entropiu. Ak entropiu interpretujeme ako neistotu rozdelenia môžeme preformulovať našu stratégiu maximalizácie entropie aj nasledovne. Ak nemáme detailnejšie informácie o rozdelení tak najpoctivejšou voľbou je zvoliť rozdelenie s najvyšším stupňom neistoty.

Vyššie sme použili Sterlingovu aproximáciu. Táto aproximácia je presná ak hľadáme logaritmus faktoriálu, čo je náš prípad. Najpravdepodobnejšie rozdelenie samozrejme nemusí byť to správne. Aká je pravdepodobnosť, že sa mýlime? Pointa je v tom, že s rastúcim n presnosť našej voľby rapídne stúpa. To možno preukázať ak odvodíme očakávanú odchýlku vyššie uvedeného multinomiálneho rozdelenia. Obidva aproximačné kroky teda nie sú prekážkou a bez strachu sa môžeme pustiť do hľadania rozdelenia s maximálnou entropiou.

Toto získame ak maximalizujeme H(p_1,\dots, p_m) za podmienky, že \sum_{i=1}^m p_i = 1. Maximum možno najsť tak že najprv vyjadríme jeden faktor p_k = 1-\sum_{i \neq k} p_i , dosadíme p_k do H a následne maximalizujeme. V praxi je viac zaužívaná elegantnejšia metóda Lagrangeových multiplikátorov. Táto nám hovorí, že náš problém vyriešime maximalizovaním funkcie  H- (\lambda_0 - 1) \sum_{i=1}^m p_i pre p_i \lambda_0 . Ako výsledok získame p_i = exp(-\lambda_0)\lambda_0 = log(m) a teda p_i =1/m. Maximalizáciou entropie sme získali rovnomerné rozdelenie. Najlepší odhad rozdelenia v prípade, že o ňom nemáme žiadne informácie tvorí rovnomerné rozdelenie. Metóda maximalizácie entropie (ME) nám teda umožnila odvodiť z globálnej informácie aké konkrétne apriórne rozdelenie pravdepodobnosti máme použiť.

Táto metóda funguje nielen v prípade keď nemáme žiadne informácie ale aj v prípade ak niečo vieme. Ak napríklad hľadáme rozdelenie pre pozitívnu premennú s priemerom \mu ME nám povie že máme použiť exponenciálne rozdelenie s parametrom \mu. Ak hľadáme spojité rozdelenie a poznáme priemer aj odchýlku rozdelenia ME nám poradí gausovské rozdelenie pravdepodobnosti s daným priemerom a odchýlkou.

Všeobecne ak poznáme pre funkcie f_k(x) ich očakávané hodnoty F_k = \sum_{i=1}^m p_i f_k(x_i) tak hľadáme maximum pre funkciu

H- (\lambda_0 - 1) \sum_{i=1}^m p_i - \sum_{j=1}^n \lambda_j \sum_{i=1}^m p_i f_j(x_i) .

Riešenie tvorí vyššie spomenuté Boltzmanovo rozdelenie:

p_i = \frac{1}{Z(\lambda_1, \dots, \lambda_n)} \exp (-\sum_{j=1}^n \lambda_j f_j(x_i) )

kde \lambda_i možno získa deriváciou funkcie log(Z)+\sum_{k=1}^n \lambda_k F_k vzhľadom na premennú F_k.

V tomto príspevku som ukázal ako ME funguje. V nasledujúcom príspevku rozoberiem problémy ME metódy a prečo pomocou nej nie je možné odvodiť objektívne apriórne pravdepodobnosti ako si Jaynes od tejto metódy sľuboval.

Reklamy

Bayesiánsky model intencionálnej stratégie

V minulom príspevku sme videli príklad ako si filozofi nevedia dať rady s pripisovaním významov, cieľov alebo účelov udalostiam okolo nás. Nielenže sa filozofi pýtajú nesprávne otázky, ktoré sú irelevantné pre vedu a praktický život, ale nepýtajú sa tie správne otázky, ktoré vedcov a ľudí zaujímajú. Diskusie o existencii a podstate cieľov musíme nahradiť epistemologickými otázkami – aká je optimálna stratégia pre pripisovanie cieľov a účelov a  nakoľko sa ľudské rozhodovanie od tejto stratégie odkláňa. Či je účel a význam, ktorý ľudia svojmu konaniu pripisujú metafyzická apriórne večná entita levitujúca na dne 42. komnaty sveta ideí alebo tvorí len ilúziu prudko blikajúcich fermiónov a bozónov je irelevantné. Namiesto toho sa musíme pýtať ako ľudia pripisujú dianiu okolo seba význam a či existuje lepšia stratégia, pomocou ktorej by bolo možné správanie ľudí vylepšiť. Toto sú otázky ktoré si kladú psychológovia a informatici.

Baker, Saxe a Tenenbaum (2009) nedávno ponúkli model, ktorý teleologickú stratégiu ľudí popisuje. Tento model je zároveň vybudovaný na princípoch optimálnej racionality, takže sa zdá že aspoň v určitých situáciach je ľudské rozhodovanie optimálne a v tomto zmysle aj veridikálne. Baker et al. formalizovali skoršie návrhy intencionálnej stratégie u Dennetta (1989) a teologickej stratégie u Gergelyho a Csibru (2003). Tieto návrhu sa snažia zodpovedať zásadné otázky. Ako pripisujú ľudia správaniu iných aktérov ciele? Ako predpovedajú budúce správanie na základe toho predchádzajúceho? Ľudia robia tieto inferencie neustále a zjavne bez väčšieho úsilia. Často až následná reflexia nám umožní oceniť komplexnosť našich úsudkov. Môj obľúbený príklad je dopravná situácia ktorú som pravidelne zažíval v Mníchove cestou domov pri prestupovaní z metra na autobus. Odchod autobusu bol nataktovaný v závislosti od príchodu metra – v závislosti od teoretického príchodu metra. Metro niekedy meškalo a niekedy meškal autobus.  Medzi príchodom metra a odchodom autobusu bola medzera dvoch minút na presun. Presun v podstate tvoril len (dosť dlhý) východ z metra – ca. 100 metrov hore po schodoch. Zmeškať bus nebolo príjemné, keďže človek si potom musel počkať 10, v neskorších hodinách 20 minút na ďalší. A nebolo to ani nevyhnutné, stačilo vedieť či sa bus nachádza na zastávke. V podzemí to však nebolo možné zistiť. Človek mohol ísť vždy na istotu a rozbehnúť sa o život hore schodmi. V drvivej väčšine prípadov bol však taký beh zbytočný, keďže bus bol už buď preč alebo prišiel neskôr. Dav skúsených cestujúcich vystupujúcich na (konečnej) zastávke metra však vytvoril zaujímavú sociálnu dynamiku. Z nádražia bolo možné dovidieť na vrch schodov. Z vrchu bolo možno dovidieť zasa k východu z metra. Z východu bolo možné dovidieť na zastávku. Autobus síce nebolo možné vidieť ale bolo možné vidieť čakajúcich ľudí a či sa títo zberajú na nástup. Ak sa tak dialo, bol to signál pre tých pri východe aby pobehli ak chcú stihnúť autobus. Východ bolo zasa možné vidieť z vrchu schodiska a vrch schodiska z nástupiska. Takto stačilo každému posúdiť či ľudia pred ním bežia a rozbehnúť sa v tomto prípade tiež.

Tento príklad pekne ilustruje intencionálnu stratégiu. Ostatným cestujúcim pripíšem cieľ – stihnúť autobus. Pozorujem ich správanie a základe správanie dokážem získať nové informácie o stave sveta a zodpovedajúco prispôsobím svoje správanie. Vznikne tak ľudská reťaz šíriaca informácia. Títo ľudia nemusia byť Čínania a nepotrebujú ani vysielačky. Intencionálna stratégia v tomto prípade reprodukuje informáciu perfektne. Skoro perfektne. Raz sa mi napríklad stalo, že som s davom vbehol do nesprávneho autobus, ktorý ma uniesol úplne opačným smerom. Samozrejme kto mal predpokladať, že sa na zastávke sa vyskytne autobus úplne mimo svojho taktu. Táto udalosť je málo pravdepodobná. Intencionálna stratégia nie je sto percentne spoľahlivá. Ako väčšina ostatných rozhodnutí ľudia musia narábať s pravdepodobnosťami ktoré reflektujú neistotu a nespoľahlivosť udalostí okolo nás. Hlavný prínosom Bakera et al. je práve pretavenie intencionálnej stratégie do probabilistického modelu. Dennett a aj Gergely a Csibra popísali intentionálnu stratégiu ako deduktívne usudzovanie. Ľudia samozrejme neposudzujú len udalosti ktoré so pravdivé alebo nepravdivé ale ich rozhodovanie ovplyvňujú aj udalosti ktoré sú menej alebo viac pravdivé.

Intencionálna stratégia nie je jediná stratégia ako posudzovať udalosti okolo nás. Ciele pripisujeme len aktérom – väčšinou organizmom (a často pixlom na monitore). Kľúčovým faktorom pri pripisovaní cieľov je racionalita aktéra. Ciele pripisujeme len správaniu racionálnych aktérov. Ultimátnym cieľom organizmov je prežitie a rozmnožovanie. V tomto zmysle môžeme hovoriť u organizmoch o racionálnych aktéroch. U aktérov, ktorý sa nesprávajú racionálne nemožno intencionálnu stratégiu použiť. Ľudia samozrejme pozorujú len správanie a tak je potrebné racionalitu tiež inferovať. Samotný fakt, že sa jedná o organizmus alebo človeka nemusí byť v danom kontexte postačujúci. U ľudí, ktorí sa hocikedy rozbehnú z ničoho nič nechcem zisťovať ich ciele a ich správanie mi nepovie nič o tom či na zastávke stojí autobus.

Ako funguje intencionálna stratégia? Tu je Dennettov popis:

 …first you decide to treat the object whose behavior is to be predicted as a rational agent; then you figure out what beliefs that agent ought to have, given its place in the world and its purpose. Then you figure out what desires it ought to have, on the same considerations, and finally you predict that this rational agent will act to further its goals in the light of its beliefs. A little practical reasoning from the chosen set of beliefs and desires will in many—but not all—instances yield a decision about what the agent ought to do; that is what you predict the agent will do.(Dennet, 1989, s. 17)

Gergely a Csibra pri svojom popise teleologickej stratégie rozlišujú tri inferencie, ktoré táto stratégia umožňuje. Na základe správania (A) a stavu prostredia (E) možno inferovať ciele (G). Ak vidím niekoho bežať k zastávke (A) a vidím prichádzať autobus (E) tak dá rozum že jeho cieľom je stihnúť autobus (G). Na základe znalosti cieľov a pozorovaného správania vieme zistiť stav prostredia. Toto bola situácia, keď som pri vychádzaní z metra nevedel či autobus stojí na zastávke (E) ale pozoroval som správanie ľudí okolo seba (A) a vedel som, že väčšina z nich sa ponáhľa lebo chcú stihnúť autobus (G). Nakoniec, na základe znalosti cieľov a stavu prostredia viem predpovedať správanie. Ak viem, že môj priateľ čaká na autobus (G) a vidíme autobus prichádzať (E) tak viem že sa so mnou rozlúči a poberie sa na zastávku (A). (Treba dodať, že teleologická stratégia ignoruje možnosť, že náš priateľ nepozná stav prostredia alebo má o ňom mylnú predstavu. V tomto aspekte sa teleologická stratégia líši od teórie mysle, ktorá umožňuje oveľa komplexnejšie inferencie.)
Gergely a Csibra ilustrovali tieto tri situácie pomocou nasledujúceho diagramu. Ilustrované sú aj animácie pomocou ktorých autori testovali schopnosť používať teleologickú stratégiu u kojencov. Kojenci boli habituovaní pomocou animácii vľavo kde pozorovali racionálne správanie aktéra. Následne boli kojenci konfrontovaní s udalosťami ktoré boli buď kompatibilné alebo nekompatibilné s teleologickou stratégiou. Kojenci boli viac prekvapení (pozerali dlhšie) pri nekompatibilných udalostiach – keď aktér preskočil neexistujúcu prekážku (A), keď sa prenasledovateľ nakoniec vyhol svojmu cieľu (G), alebo keď sa ukázalo, že za clonou sa nenachádza prekážka ktorú by aktér preskakoval.

Dennett a aj Gergely a Csibra ponúkajú deduktívne metódy. Ciele, stav prostredia a správanie tvoria neznáme premenné a racionalita aktéra ich drží pohromade. Dedukcia funguje ak poznáme dve z troch spomenutých skutočností plus racionalitu. Samozrejme deti a v mnohých situáciách ani dospelí nepoznajú stav premenných aby mohli deduktívnu stratégiu aplikovať. K tomu ešte prichádza fakt, že racionalitu aktéra musíme zistiť na základe správania. Vskutku správanie a čiastočný stav prostredia sú jediné informácie ktoré máme. Ľudia však nemajú problém na základe útržkovitých pozorovaní (mnohokrát úspešne) aplikovať teleologickú stratégiu. Z pohľadu deduktívnej logiky vyzerá ich inferencia ako jeden veľký podvod, kde ľudia vytiahnú sami seba za vlasy z močiara fyzikálnej evidencie. Vskutku filozofická literatúra je plná dôkazov ako teleologická stratégia nemôže fungovať s implikáciou, že teleologická stratégia je buď ilúzia, alebo na druhej strane barikády, že ľudská myseľ je super-turingovský kvantový zázrak. Obidve pozície sú z vedeckého hľadiska málo produktívne.

Strih. Fanfáry. Na scénu nastupuje bayesiánska štatistika aby zasa raz zachránila scientizmus obkľúčený impotentným fyzikalizmom na jednej strane a zbabelým mysteriánizmom na strane druhej. Baker et al. preformulovali teleologickú stratégiu do probabilistického modelu. Probabilistický model aplikovali na syntetické 2D svety s pohybujúcimi sa aktérmi a troma cieľmi. Taký svet vyzerá zhruba nasledovne.

Steny sú znázornené čiernou a červený kruh (aktér) sa cez ne nemôže dostať. Môže však preniknúť dierou na pozícii (9,7). Červený, zelený a biely štvorec tvoria potenciálne ciele. Aktér sa začne pohybovať a vašou úlohou je zistiť ktorý štvorec je jeho cieľovou destináciou a ktorým smerom sa pohne najbližšie. (V experimente bola animácia 3 krát zastavená na diagnostických pozíciach aby probandi mohli odpovedať).

Bayesiánsky model vyhodnocuje tieto otázky nasledovne. Pohyb aktéra tvoria diskrétne kroky aktéra v čase a_t. Pri každom kroku sa môže aktér vybrať ôsmymi smermi alebo ostať na mieste a teda a tvorí náhodnú premennú s 10 hodnotami. (Ak je aktér pri stene kroky do steny ho ponechajú na mieste.) V každom kroku sa nachádza aktér na určitej pozícii s_t. Napríklad pre animáciu vyššie platí s_0=(1,9), s_1=(2,8).

Ako zistiť na základe pozorovaného správania a_{1:t} a počiatočnej pozície s_0, ktorý cieľ aktér nasleduje? Bayesova veta. p(g|a_{1:t}) \propto p(a_{1:t}|g)p(g), kde p(g) je rozdelenie pravdepodobnosti cieľov. Ak nemáme apriori znalosť o preferenciách aktéra, dosadíme za apriori pravdepodobnosť rovnomerné rozdelenie p(g)=1/|G| v našom prípade p(g)=1/3. Vierohodnosť rozložíme nasledovne p(a_{1:t}|g) = \prod_{i=1}^t p(a_i|s_{i-1},g), kde sme postulovali, že správanie závisí len od súčasnej pozície a cieľa a nie ako sme na túto pozíciu dostali. Intuitívne, pre každú pozíciu a cieľ môžeme určiť najefektívnejšie správanie – t.j. to ktoré minimalizuje vzdialenosť k cieľu. Napríklad ak je cieľ vpravo dole tak takáto stratégia môže vyzerať nasledovne.

Náš algoritmus však chce byť probabilistický a zrejme aj pre ľudí hrá rolu či sa aktér na pozícii (9,4) pohol doľava alebo dole. Pohyb dolu nie je možno úplne optimálny avšak pohyb doľava je katastrofálny – smerom od daného cieľa. Pre každý pohyb a pre každú pozíciu tak získame rozdelenie pravdepodobnosti v závislosti ako efektívne dané správanie minimalizuje vzdialenosť k cieľu. Graficky môžeme vyjadriť toto rozdelenie odtieňom farby na 3×3 mriežke. Každé pole ukazuje určité správanie, viď. legenda vpravo.

Toto grafické znázornenie môžeme použiť pre aby sme ilustrovali rozdelenie pravdepodobnosti pre každú pozíciu.

Pre cieľ na pozícii (10,1) dostaneme odlišnú mapu.

Formálne zvolíme p(a_i|s_{i-1}) \propto exp(\beta V(s_{i-1},a_i)), kde V(s_{i-1},a_i)) je funkciou zmeny vzdialenosti smerom k cieľu. p(a_i|s_{i-1}) je Boltzmanove rozdelenie pravdepodobnosti známe zo štatistickej mechaniky, kde parameter \beta vyjadruje teplotu rozdelenia. Ako sa mení rozdelenie v závislosti od hodnoty \beta? Vyššie som vám ukázal mapu pre \beta=1. Tu je \beta=0.5

a \beta=5 vyzerá nasledovne

Pripomínam, že biela označuje vysokú pravdepodobnosť zatiaľčo čierna tvorí mizivú pravdepodobnosť. Nie je ťažké interpretovať \beta v rámci teleologickej stratégie. \beta vyjadruje racionalitu, ktorú aktérovi prisudzujeme. Baker et al. odhadli \beta pri modelovaní behaviorálnych dát ako dodatočný parameter. Zároveň ponúkli aj rozšírený model, ktorý odhadne \beta v každom kroku nanovo na základe správania. Nižšie sú znázornené inferencie daného modelu.

Hore vidieť správanie aktéra. Vľavo dole je znázornená pravdepodobnosť troch cieľov v závislosti od času. Nie je ťažké predpovedať pravdepodobnosť pre budúce správanie a_{t+1}. Platí p(a_{t+1}|a_{1:t}) = \sum_g p(a_{t+1}|g)p(g|a_{1:t}), kde obidve kvantity na pravej strane rovnosti sú známe. p(a_{t+1}|a_{1:t}) je znázornené vpravo dole. Všimnite si ako jeden diagnostický krok (napríklad na pozícii s_{12}=(11,8)) dokáže rapidne ovplyvniť rozdelenie pravdepodobnosti. Zároveň si všimnite ako sa na základe grafu vpravo dole mení racionalita aktéra. Rovnomerné rozdelenie (napríklad pri t=24) indikuje, že model si nie je celkom istý racionalitou aktéra a preto nedokáže ponúknuť spoľahlivé predpovede.

Vyššie som spomenul, že teleologická stratégia tvorí redukovanú verziu teórie mysle. V prebiehajúcom projekte Baker et al. (2011) modelujú teóriu mysle, takže sa máme na čo tešiť. Modelovanie kognitívnych fenoménov má aj zaujímavé aplikácie. Vskutku modeli podobné tomu od Baker et al. používajú informatici na inferovanie správania (napr. Verma a Rao, 2006). Tým vzniká bizarná situácia. Vedci namiesto toho, aby vymietli ľuďom iluzórne ciele z hláv, zabudujú tieto ilúzie ešte aj do umelých systémov. Pripomínam, že sa nejedná o žiadny kompromis v dôsledku nízkej výpočtovej sily počítačov. Intencionálna stratégia tvorí racionálne optimálnu metódu pre predpovedanie určitého druhu udalostí – a síce správania iných organizmov okolo nás.

Baker, C. L., Saxe, R., & Tenenbaum, J. B. (2009). Action understanding as inverse planning. Cognition.

Baker, C. L., Saxe, R. R., & Tenenbaum, J. B. (2011). Bayesian theory of mind: Modeling joint belief-desire attribution. In Proceedings of the thirty-second annual conference of the cognitive science society.

Dennett, D. C. (1989). The intentional stance. MIT press.

Gergely, G., & Csibra, G. (2003). Teleological reasoning in infancy: The naıve theory of rational action. Trends in cognitive sciences, 7(7), 287-292.

Verma, D., & Rao, R. (2006). Goal-based imitation as probabilistic
inference over graphical models. In Advances in neural information
processing systems (Vol. 18, pp. 1393–1400).

Judea Pearl: Causality (Časť 4)

V tomto článku rozoberiem posledné 4 kapitoly (7.-10.) Pearlovej knihy. Siedma kapitola, tak ako 2., 3. a 5. kapitola je nabitá obsahom zatiaľčo kapitoly 8., 9. a 10. sú venované diskusiám a rôznym lemám a zovšeobecneniam. V 2. a 3. kapitole sme sa zaoberali kauzálnymi grafmi. Tieto vyjadrujú všeobecnú kauzálnu štruktúru napríklad, že chodec ktorého zrazí auto zomrie. Kauzálna štruktúra platí pre všetky možné modely,kde príčina x ovplyvňuje výsledok y y = f_y(x,u_y) (kde u_y vyjadruje vplyv latentných faktorov). Štrukturálne rovnice (kapitola 5.) špecifikujú f(\dot) a sú tým pádom konkrétnejšie. V prípade auta ktoré zrazilo chodca môže napríklad štrukturálna rovnica vyjadrovať pravdepodobnosť úmrtia v závislosti od rýchlosti auta y = \sigma(x-20 + u_y), kde x je rýchlosť v km/h, \sigma je sigmoidálna funkcia a u_y \sim \mathcal{N}(\mu = 0, \sigma = 5) vyjadruje neistotu prameniace z neznalosti ostatných faktorov ako je zdravotná kondícia obete, v akej pozícii do človeka auto narazilo a.t.ď.

Kapitola 7. sa zaoberá ešte detailnejšou znalosťou, znalosťou hodnoty, ktorú u_y nadobudlo v konkrétnej situácii. Štrukturálna rovnica platí pre všetky situácie. Znalosť u_y vyjadruje konkrétnu situáciu napríklad, že Fera včera zrazilo auto na prechode pri rýchlosti 70 km/h, konkrétnej konfigurácii okolností zhrnutej do hodnoty u_y=30. Aj v tomto prípade môžeme vykonať zaujímavé analýzy, konkrétne môžeme sa zaoberať hypotetickými úvahami. (Tzv. counterfactuals u Pearla aj keď Pearl považuje tento názov za nevhodný, keďže vyjadruje protichodnosť). Môžeme sa spýtať či by chodec zomrel ak by auto išlo pomalšie a teda napríklad či je auto dostatočnou, nevyhnutnou príčinou úmrtia. Takéto otázky sú vysoko relevantné pri testovaní medikamentov a v právnych sporoch. Žiaľ tradičná štatistika má s nimi problémy. A to napriek tomu, že ľudia takéto hypotetické otázky rutinne hodnotia. V našom príklade je hodnota u_y=30 natoľko vysoká že aj keby auto stálo na mieste x=0 chodec by na zrážku zomrel. Toto zodpovedá vysoko nepravdepodobnej situácii (vskutku p(u_y \ge 30) < 0.001), že chodec idúc cez cestu sa šmykol, pri páde narazil do zaparkovaného auta a na následky zranení po náraze zomrel. V tomto prípade je nepravdepodobné, že auto spôsobilo smrť.

Formálne môžeme vyhodnotiť takéto situácie nasledovne. Potrebná je znalosť grafu a štrukturálnych rovníc. Konkrétna znalosť u nie je potrebná (a keďže ide o latentné faktory ich pozorovanie mnohokrát ani nie je možné). Tieto môžeme odhadnúť na základe pozorovaní ostatných faktorov. Napríklad v lineárnom modeli tvoria u rezídua, teda odchýlku pozorovaných hodnôt od predpovedí. Pri hypotetických výrokoch nás zaujíma pravdepodobnosť, že dôsledok Y nadobudne hodnotu y, ak X zmeníme na x pri latentných okolnostiach U=u,  p(Y=y| do(X=x),U=u). Pearl v tejto časti knihy používa zjednodušenú notáciu p(y_x(u)), ktorú preberiem aj v tomto článku. Inferencia p(y_x(u)) prebieha v troch krokoch.

1. Abdukcia. Na základe pozorovania Y=y’, X=x’ a všetkých ostatných meraných faktorov W=w’ odhadneme rozdelenie U=u.

2. Modifikácia. Prevedieme operáciu do(X=x). V 3. kapitole sme videlo, že to znamená modifikáciu grafu a štrukturálnych rovníc, tak že X nie je závislé na svojich rodičoch v grafe ale nadobúda pevne stanovenú hodnotu x.

3. Predpoveď. V modifikovanom grafe dosadíme U=u a vypočítame pravdepodobnosť p(Y=y).

Podobne ako v tretej kapitole ponúka Pearl kalkulus hypotetického myslenia, ktorý umožňuje systematicky zredukovať hypotetické výroky na formulu, ktorá pozostáva len z pozorovaných pravdepodobností (a túto pravdepodobnosť je možné určiť). Pravidlá sú nasledovné. Pre množiny premenných X, Y a W platí:

1. Kompozícia: W_x(u)=w \Rightarrow Y_{xw}(u)=Y_x(u). Ak W nadobúda hodnotu w za podmienok u tak môžeme manipuláciu w za rovnakých podmienok odstrániť z dolného indexu, keďže táto manipulácia hodnotu W nijak neovplyvní.

2. Efektívnosť: X_{xw}(u)=x pre všetky X a W. Manipulácia X zmení X nezávislé od hodnôt ostatných premenných W.

3. Obrátiteľnosť: (Y_{xw}(u)=y) \wedge (W_{xy}(u)=w) \Rightarrow Y_x(u)=y. Rovnosť vyjadruje predikát, že medzi premennými nie je možný feedback. V opačnom prípade vyhodnotenie hypotetických výrokov nie je možné.

Tieto tri pravidlá umožňujú určiť, či je vyhodnotenie hypotetického výroku možné a ak áno nájde formulu pre výpočet.

V podstate všetky aplikácie hypotetických úvah ktorými sa Pearl zaoberá v nasledujúcich kapitolách 8,9,10 vychádzajú z binárnych náhodných premenných. Toto dáva zmysel, keďže väčšina hypotetických úvah má takúto štruktúru, značne to zjednodušuje vysvetlenia a v zásade všetky kontinuálne premenné možno redukovať na binárne pomocou prahovej hodnoty. Napríklad kontinuálnu rýchlosť vozidla v príklade vyššie môžeme redukovať na binárnu premennú x>20.

V 8. kapitole Pearl rozoberá nedokonalé experimenty. Dobrým príkladom je napríklad farmakologická štúdia, v ktorej nie všetci probanti dodržali program dávkovania. Buď ho niektorí v experimentálnej skupine zanedbali alebo si zúfalí pacienti v kontrolnej skupine potajme medikament zadovážili. Ak máme informáciu o dávkovaní môžeme naše odhady kauzálneho vplyvu medikamentu na zdravie korigovať. Hypotetické úvahy hrajú dôležitú úlohu. Pri nedokonalých experimentoch totiž musíme vyhodnotiť hypotetický scenár, ak by probant ktorý liek nevzal, vykonal inak, aký dopad by to malo na jeho zdravie.

V deviatej kapitole sa Pearl zaoberá nevyhnutnou a postačujúcou príčinou. Napríklad prítomnosť kyslíka v miestnosti je nevyhnutná aby sme založili oheň. Kyslík je teda nevyhnutnou príčinou ohňa. Naopak ak sme odsúdili väzňa na odstrel, ktorý vykonajú traja paralelní strelci A, B, C tak výstrel strelca A nie je nevyhnutnou príčinou smrti väzňa, lebo väzeň by zomrel aj keby by A nevystrelili. Naopak výstrel každého zo strelcov je postačujúci na to aby väzeň umrel (vychádzajúc z toho, že strelci deterministicky splnia povel). Naopak kyslík nie je dostatočnou príčinou. Vo väčšine miestností s kyslíkom nehorí. Dodatočná udalosť je nutná (napr. škrtnutie zápalky), aby oheň vypukol.

Pravdepodobnosť, že X je nevyhnutnou príčinou Y je daná ako

p(y'_{x'}|x,y)=\frac{p(y)-p(y_{x'})}{p(x,y)}

Pravdepodobnosť, že X je postačujúcou príčinou Y je daná ako

p(y_x| y',x')= \frac{p(y_x)-p(y)}{p(x',y')}

Kde X, Y a U sú binárne premenné a y',x' a u' sú komplementárne hodnoty ku x,y,u.

Aby sme určili členy p(y_{x'}), p(y_x) v rovniciach vyššie sú potrebné experimentálne štúdie. Naopak aby sme určili p(y',x'), p(y,x) sú potrebné pozorovania. V experimentoch je totiž x manipulovaná, tým pádom nepoznáme prirodzené rozdelenie x. Pearl však ukazuje, že za zmysluplných predpokladov možno použiť jednoduchšie rovnice, ktoré vychádzajú len z experimentálnych dát alebo len z pozorovaní.

Nakoniec v desiatej kapitole sa Pearl zaoberá konkrétnymi a všeobecnými príčinami. Napríklad vo výroku “nadmerné pitie alkoholu môže viesť k úmrtiu” možno označiť alkohol ako všeobecnú príčinu úmrtia. Naopak v tvrdení “náš ruský kamarát Alexei zomrel po vypití litra vodky na otravu alkoholom” možno označiť alkohol ako konkrétnu príčinu. Formálne, v obidvoch situáciách je známa kauzálna štruktúra a takisto model daný štrukturálnymi rovnicami. Pri konkrétnych príčinách však dodatočne poznáme aj hodnoty niektorých latentných premenných. Tieto sú dané práve znalosťou konkrétnej situácie “Alexei, náš ruský kamarát …”. Táto znalosť môže zjednodušiť štrukturálne rovnice a viesť k redukovanému grafu. Napríklad y = ax + buz môžeme zredukovať na f_i = ax_1 ak vieme, že u=0. Redukovaný graf nazýva Pearl kauzálnym lúčom. V tomto grafe môžeme následne vyhodnotiť pravdepodobnosť, že x je príčinou y. Táto pravdepodobnosť vyjadruje pravdepodobnosť konkrétnej príčiny. Napríklad u=0 môže vyjadrovať fakt, že Alexei nepožil dodatočne žiadne drogy a teda že drogy z nemali vplyv na jeho úmrtie. V opačnom prípade by bola pravdepodobnosť, že alkohol bol konkrétnou príčinou jeho úmrtia nižšia.

Snáď nemusím dodať, že Pearlova kniha sa mi veľmi páčila. Kniha patrí do môjho obľúbeného štýlu tvrdohlavých monografii. Koncepty sprostredkované v knihe nie sú ťažké. Hlavnou ťažkosťou je vyvodiť z nich aplikácie a prevziať ich do praxe. Nemyslím, že hlavným problémom by pritom bola ich zriedkavá aplikovateľnosť. Práve naopak. Pearlova kauzalita poskytuje dôležité informácie pre psychologickú výskumnú prax a takisto ako ukázali Tenenbaum a ostatní môže byť inšpiráciou pre modeli kauzálneho myslenia u ľudí. Nepochybujem, že viaceré aplikácie Pearlovej kauzality v kognitívnych vedách uvidíme ešte ďalších článkoch na Mozgostrojoch.

Kahneman, štatistika a kauzalita

Práve čítam Kahnemanovu knihu Thinking, Fast and Slow. Niektoré aspekty si zaslúžia komentár a tento prvý článok sa zaoberá štatistickým myslením, ktoré Kahneman diskutuje hlavne v druhej časti knihy. V skratke, Kahneman (2011) zastáva nasledujúcu pozíciu. Ľudia v opantaní Systému 1 (rýchla, lenivá intuícia) nie sú schopní štatistického myslenia. Podceňujú variabilitu, zjednodušujú výpočty a výsledkom sú nesprávne predpovede a unáhlené závery. Hlavný hriech vidí Kahneman v nadmernom pripisovaní kauzálnych príčin náhodným udalostiam.

S Kahnemanovými príkladmi a interpretáciami celkom nesúhlasím. Vidím nasledujúce dva súvisiace problémy:

1. (Frekventistická) štatistika (80. rokov) je považovaná za normatívny ideál racionality – toho čoho je Systém 2 schopní a toho čo Systém 1 nerobí.

2. Nie je jasné či probanti interpretujú inštrukcie a otázky tak ako ich interpretujú Kahneman resp. štatistika.

Začnime príkladom z úvodnej kapitoly:

Váš sused vám popísal nasledujúcu osobu: “Števo je veľmi ostýchavý a uzavretý, vždy nápomocný avšak s slabým záujmom o spoločnosť a sociálne činnosti. Tichá a puntičkárska duša, rád má poriadok a systematickosť” Je Števo s vyššou pravdepodobnosťou knihovník alebo farmár? (Kahneman, 2010, s. 7)

Ľudia odpovedajú, že knihovník, keďže popis osoby lepšie sedí na knihovníka. Tento záver je podľa Kahnemana mylný, keďže knihovníkov je oveľa menej ako farmárov. Vyjadrené Bayesovou vetou p(F|E) = p(E|F) p(F) a p(K|E) = p(E|K) p(K), kde F znamená, že Števo je farmár, K knihovník, E je evidencia teda vyššie uvedený popis Števa. Probanti zrejme modelujú p(S=F)=p(S=K)=0.5 a zamieňajú p(F|E) s p(E|F), čo je nesprávne.Správne riešenie je dané Bayesovou vetou a apriórne pravdepodobnosti by mali prebiť evidenciu danú nejasným popisom.

Predstavte si, že by sa vás známy spýtal podobnú otázku, alebo že by ste ju dostali ako pokusný králik v psychologickom experimente. Odpovedali by ste inak ak by ste vedeli, že p(F)>>p(K) a poprípade táto znalosť bola súčasťou zadania. Ja by som odpovedal rovnako a apriórne frekvencie by som nezohľadnil. Naopak niekoho, kto by prišiel s odpoveďou že farmár, lebo vyššia apriórna pravdepodobnosť by som vnímal ako protivného chytráka, ktorý mi nechce zodpovedať jednoduchú otázku. Inak povedané odpoveď s pomocou apriórnych frekvencii nie je správnou odpoveďou, lebo otázku ľudia čítajú inak. Ľudia čítajú zadanie kauzálne – Štefanove osobnostné črty vedú k výberu zamestnania. Kauzálne interpretácie nám lepšie umožňujú interpretovať udalosti a úspornejšie ukladať vedomosti o nemenných pravidelnostiach v našom okolí. Ako píše Pearl (2009, s.182) “humans are generally oblivious to rates and proportions (which are transitory) and they constantly search for causal relations (which are invariant). Once people interpret proportions as causal relations, they continue to process those relations by causal calculus and not by the calculus of proportions.”

Bayesiánske siete útočia

Krynski & Tenenbaum (2007) ukázali, že ľudské posudky pravdepodobností je naozaj lepšie modelovať pomocou kauzálnych bayesiánskych sietí a la Pearl (2009). Podľa autorov ak sa ľudí spýtame na pravdepodobnosti ľudia neposudzujú aposteriórnu p(F|E) a p(K|E), ale pravdepodobnosť manipulácie, teda zmeny Štefanovho zamestnania. Dva scenáre a) “Štefan je knihovník” a b) “Štefan je farmár” vyjadrujú dva rôzne kauzálne grafy.

Probanti následne porovnajú pravdepodobnosť obidvoch grafov t.j. p(F,E,K) pre obidva modely. Pre graf a) p(F,E,K)=p(F)p(E)p(K|E) a pre graf b) p(F,E,K)=p(F|E)p(E)p(K). Ak členy prehádžeme zistíme, že graf a) – Štefan je knihovník je pravdepodobnejší ak aposteriórny pomer p(K|E)/p(F|E) > p(K)/p(F). Keďže popis výborne sedí na knihovníka, pravdepodobnosť, že popísaná osoba je knihovník je vyššia ako pravdepodobnosť, že náhodne vybraná osoba je knihovník, teda p(K|E)>p(K). V prípade že p(F|E) je rovné alebo dokonca menšie ako p(F) je graf a) pravdepodobnejší. Tento výpočet dobre zodpovedá našim intuíciám.

Zoberme si ďalší príklad z 15. kapitoly.

“Linda je 31 ročná, single, priamočiara a chytrá. Vyštudovala filozofiu. Ako študent sa zaujímala o problémy diskriminácie a sociálnu spravodlivosť a zúčastnila sa aj demonštrácii proti atómovej energii.”

Ktorá z nasledujúcich možností je pravdepodobnejšia?
a) Linda pracuje v banke.
b) Linda pracuje v banke a je členom feministického hnutia.

Väčšina ľudí vrátane mňa zvolí b). Pritom platí, že pravdepodobnosť zložených udalostí nemôže byť väčšia ako pravdepodobnosť jednoduchých udalostí. Logicky, počet ľudí, ktorí pracujú v banke a sú zároveň členmi feministického hnutia (BF) musí byť menší/rovný ako počet ľudí, ktorí pracujú v banke (B). BF je totiž podmnožina B. Tým pádom musí byť aj frekvencia a pravdepodobnosť udalosti b) nižšia ako a).

Intuitívne, čo ovplyvňuje naše nesprávne rozhodnutie je pravdepodobnosť že Linda je feministka v závislosti od popisu D, teda p(F|D). Tento popis totiž na feministku výborne sedí. Takisto výrok a) nám implikuje že Linda nie je členkou feministického hnutia lebo a) takto stojí v kontraste k b). Ľudia intepretujú otázku pravdepodobnejšej možnosti kauzálne a miesto aby porovnali p(BF|D) s p(B|D) porovnávajú pravdepodobnosť dvoch kauzálnych modelov p(M1) a p(M2), ktorých grafy vyzerajú nasledovne:

Pravdepodobnosti modelov sú znova dané ako zložená pravdepodobnosť všetkých premenných v modele p(F,D,B). Pre M1 platí p(M1)= p(F)p(D)p(B|D). Pre M2 platí p(M2)=p(F|D)p(D)p(B|D). Vidíme že aby sme porovnali pravdepodobnosť oboch modelov stačí nám porovnať p(F|D) a p(F). Ostatné členy sú rovnaké pre p(M1) a p(M2).  Apriórna pravdepodobnosť, že náhodne vybraná osoba je feministka p(F) je nízka. Oproti tomu, pravdepodobnosť že osoba s popisom D je feministka je vysoká, teda p(F|D)>p(F) a zvolíme b) presne ako nám intuícia káže. Kauzálnu analýzu možno predeklinovať na ostatné Kahnemanove príklady a zistíme, že k ľudským intuíciám sedí ako šerbeľ na zadok. Vyskúšajme si to.

Ktorá z alternatív je pravdepodobnejšia?

Linda má vlasy.

Linda má blond vlasy.

V tomto prípade sa ľudia nedopúšťajú omylu. Kahneman to vysvetluje tým že podobnosť popisu s feministkou má vysokú plauzibilitu/reprezentatívnosť, takže probanti ignorujú všetky ostatné informácie. Naproti tomu blond vlasy takúto vysokú plauzibilitu nezdieľajú. Linda môže byť kľudne aj bruneta. Obidva príklady pritom majú rovnakú logickú štruktúru. Príklady však nemajú rovnakú kauzálnu štruktúru. Grafy sú znázornené nižšie. B znamená “jej vlasy sú blond” a V “má vlasy”.

Trik je v tom, že V kauzálne ovplyvňuje B – a to veľmi silne, deterministicky. Ten, kto nemá vlasy nemôže mať blond vlasy. Tým sa mení štruktúra problému. Ak chceme porovnať M1 a M2 musíme porovnať p(B|V) a p(B|V,D). Toto porovnanie nie je ľahké keďže dodatočne závisí od V. Ak napríklad Linda nemá vlasy vieme, že nemá blond vlasy a teda p(M1)=p(B|V)=p(B|V,D)=p(M2).

Intuícia nám však hovorí že M1 je jednoznačne pravdepodobnejšie ako M2. Táto intuícia zodpovedá porovnaniu modelov M3 D \rightarrow V a M4 D \rightarrow B a platí p(V)>p(B).

Že v Kahnemanových príkladoch nejde o plauzibilitu/reprezentatívnosť možno ilustrovať pridaním šípky medzi Lindinimi feministickými záujmami a jej povolaním. Resp. táto šípka tam už je, avšak korelácia je negatívna – feministky najskôr nebudú pracovať v korporačnom kapitalistickom bankovom sektore. Môžeme si však upraviť príklad a Lindu zamestnať v kvetinárstve alebo v neziskovke a intuitívna pravdepodobnosť b) ku a) rapídne klesne. Pritom súvis medzi feminizmom a popisom zostal nezmenený, rovnako plauzibilný a teda podľa Kahnemana by sa ani hodnotenie nemalo meniť.

Problémom všetkých týchto Kahnemanových príkladov je že zatiaľčo pravdepodobnosti sú v zadaní dané, kauzálna štruktúra problému nie je určená. Tým pádom bayesiánske kauzálne modely netvoria jasné predpovede a nie je možné kauzálne modely jasne a priamo porovnať s Kahnemanovou teóriou. Krynski & Tenenbaum (2007) vo svojom štvrtom experimente manipulovali kauzálnu štruktúru zatiaľčo pravdepodobnosti ostali rovnaké. Príbeh k experimentu bol nasledovný.

S1: CIA zložila tím agentov. Misia vyžaduje nasadenie žien takže účasť žien v tíme je pravdepodobnejšia. Vskutku väčšina agentov v tíme sú ženy. Keďže ženy sú všeobecne nižšie, väčšina agentov v tíme je nižšia ako 170 centimetrov.

Q: Do tímu sa dostalo aj zopár mužov. Myslíte že títo budú nižší, rovnakí alebo vyšší ako priemerný muž?

Iná skupina probandov musela posúdiť Q na základe S2 :

S2: CIA zložila tím agentov. Misia vyžaduje nasadenie nízkych ľudí takže účasť nízkych ľudí v tíme je pravdepodobnejšia. Vskutku väčšina agentov sú nižší ako 170 cm. Keďže ženy sú všeobecne nižšie, väčšina agentov v tíme sú ženy.

Intuitívne odpovede sú S1 “rovnakí” a S2 “vyšší”, čo zodpovedá predpovediam kauzálnemu modelu. Pri S1 pritom ignorujeme informáciu že pravdepodobnosť člena tímu byť výšky nad/pod 170 cm je 50:50 a teda priemer je na mužský štandard skôr nízky. Z pohľadu kauzálneho modelu sa odpoveď mení lebo mechanizmus výberu agentov je iný. Z Kahnemanovho pohľadu sú S1 aj S2 rovnaké, keďže pravdepodobnosti sú rovnaké (a takisto oba príklady obsahujú rovnaké množstvo kauzálnej príbehovej omáčky). Tým pádom by aj odpovede probandov mali byť rovnaké. (Autori navyše prehodili aj otázky takže ďalšie dve skupiny posudzovali pravdepodobnosť pohlavia vysokých členov tímu. Výsledky boli opačné – S1 “skôr muži”, S2 “rovnakí”, tak ako kauzálny model predpovedá.)

Kahneman o kauzalite

Kahneman rozoberá vplyv kauzálneho úsudku na odpovede probantov v 16. kapitole. Kahneman súhlasí, že posudzovanie kauzality hrá rolu avšak jeho táto koncepcia je diametrálne odlišná od predstáv Tenenbauma a Pearla popísaných vyššie. Podľa Kahnemana sú probandi schopní správnej interpretácie štatistiky ak im ju zabalíme do kauzálneho príbehu. Podľa Tenenbauma kauzálny príbeh je nevyhnutnou súčasťou problému. Riešenie nie je definované ak nie je probandom daná kauzálna štruktúra. V úlohách vyššie probanti blahosklonne doplnia, čo experimentátor zo zadania vynechal. Väčšinou sa jedná o banálne kauzálne fakty – osobnosť spôsobuje výber povolania a nie naopak, minulosť ovplyvňuje budúcnosť a nie naopak… V prípade ak kauzálna štruktúra stojí v konflikte so štatistickou informáciou v inštrukcii (napríklad je dané p(K), ale kauzálny graf káže p(K|E)), tak probanti túto informáciu samozrejme ignorujú. Kauzálne vysvetlenie netvorí žiadnu nepodstatnú príbehovú omáčku, ktorej jediným cieľom je nakopnúť lenivý Systém 1. Kauzálna informácia je dôležitou súčasťou ľudských problémov bez ktorej tieto nie sú riešiteľné. Ako som citoval vyššie Pearla kauzálna interpretácia vedie k lepšiemu výberu dôležitých pravidelností, ktoré ostávajú konštantné. Tieto kauzálne pravidelnosti sa oplatí ľuďom zapamätať a komunikatívne šíriť. Preto aj naša komunikácia uprednostňuje kauzálnu interpretáciu. Keď kauzálna interpretácia vedie k zlým výsledkom, je to väčšinou v exotických prípadoch keď kauzálny súvis nie je očividný (napr. pri onkologických diagnózach) alebo v úlochách štatistikov a v experimentoch psychológov, ktorí si dôležitosti kauzálnej informácie nie sú vedomí.

Skryté súvislosti

Chcem ešte diskutovať zopár príkladov, kde nie je problematická kauzálna štruktúra ale štatistický model, ktorý Kahneman predpokladá ako normatív. V príklade na strane 160 probanti hodnotili dve sady produktov rovnakej kvality vo výpredaji. V sade A bolo 10 produktov, všetky bez chyby. V sade B bolo 10 bezchybných produktov + 2 poškodené produkty. Koľko ste ochotný zaplatiť za sadu A a koľko za sadu B? Vedci zistili že probanti sú ochotní zaplatiť viac za sadu A ak sú im ponuky predstavené jednotlivo. Ak im predstavia obidve ponuky bok po boku, tak probanti zvolia B. Kahneman poznamenáva, že štruktúra tohoto problému je podobná problémom uvedeným vyššie. Kahneman vychádza z toho že hodnoty sád h(A) a h(B) sú rovnaké nezávisle od spôsobu akým produkty predstavíme. Ak však postavíme produkty bok po boku musíme hodnotiť h(A|B) a h(B|A), teda hodnotu sady ak viem o ďalšej sade. Vskutku, zadanie implikuje h(A|B)<h(A).

Poznatok, že dva produkty sú poškodené vrhá zlé svetlo na kvalitu ostatných produktov v sade. Napríklad môžeme očakávať, že aj tieto obsahujú poškodenia v menšej miere a predajca nám ich zatajil, alebo môžeme predpokladať, že pravdepodobnosť, že sa produkt pokazí je vyššia (keďže dva sa pokazili ešte počas skladovania v obchode). Tak je tomu v prípade sady B predstavenej samostatne. Sada ktorá nedeklaruje pochybné produkty žiadne takéto podozrenie nevzbudzuje. To je prípad sady A predstavenej samostatne. Ak probanti vidia obidve ponuky vedľa seba a zadanie im hovorí že produkty v obidvoch sadách sú rovnakej kvality tak znalosť chybných produktov v sade B vrhá zlé svetlo nielen na produkty v sade B ale aj na produkty v sade A. Probanti tak pri tomto spôsobe prezentácie uprednostnia sadu B, ktorá ponúka oproti A vyššiu kvantitu nízkej kvality.

Druhý  príklad tvorí Kahnemanov experiment zo 16. kapitoly. Zadanie:

Taxík bol zapletený do nočnej dopravnej nehody a ušiel z miesta činu. Dve Taxi služby prevádzkujú v meste taxíky odlišnej farby – modré a zelené. 85% taxíkov je zelených a 15% je modrých. Svedok nehody identifikoval unikajúci taxík ako modrý. Súd testoval spoľahlivosť svedka a zistil, že svedok v 80% prípadov určil farbu taxíka správne a nesprávne v zvyšných 20% prípadov. Aká je pravdepodobnosť, že taxík zapletený do nehody bol skôr modrý ako zelený. (s. 166)

Probanti spáchajú intuitívny hriech – ignorujú nižší apriórny počet modrých taxíkov a v priemere odpovedajú 80%, čo zodpovedá spoľahlivosti svedka. Je však možné, že probanti vychádzajú z toho, že svedok je schopný zohľadniť apriórnu pravdepodobnosť taxíkov a teda že jeho úsudok je už očistený o tieto apriori poznatky. Vskutku v psychológii máme dobrú evidenciu, že vizuálne vnímanie ovplyvňujú top-down aj kognitívne faktory. V našom príklade (kľudne aj implicitná) znalosť relatívnej frekvencie zelených a modrých taxíkov môže viesť k tomu, že človek bude skôr halucinovať zelené taxíky. Krynski a Tenenbaum (2007) testovali túto hypotézu tým že upravili zadanie. Komplikujúci faktor netvorila nespoľahlivosť svedka ale fakt že 20% zelených taxíkov vyzeralo ako modré a 20% modrých ako zelené (dôvod: ošúchaná farba). V tomto prípade je svedok sto-percentne spoľahlivý a teda probanti musia dodatočne zvážiť aj apriórne frekvencie taxíkov. V tomto experimente probanti zohľadnili základné frekvencie modrých a zelených taxíkov.

Frekventistická štatistika ako normatívny štandard

Zopár Kahnemanových pozorovaní sa týka historických špecifík frekventistickej štatistiky – jej aplikácie a interpretácie. Tieto príklady skôr demonštrujú zlyhania frekventistickej štatistika ako zlyhania kognitívne. Kahneman sa v desiatej kapitole odvoláva na fakt, že psychológovia a vedci používajú moc malé vzorky vo svojich štúdiách – moc malé na to, aby získali signifikantné výsledky. Podľa Kahnemana sú na vine ich intuície a ani roky tréningu na tom nič nezmenili. Vtip je v tom, že psychológovia naozaj nechcú získať signifikantné výsledky. V psychológii súvisí všetko so všetkým a každý takýto efekt sa stane signifikantným pri dostatočne veľkej vzorke. Zároveň psychologické štúdie neštudujú jeden takýto efekt ale celú radu rôznych experimentálnych variácii s viacerými závislými a nezávislými premennými. Ak by psychológovia naozaj použili adekvátnu vzorku získali by neinterpretovateľnú armádu signifikantných efektov. S nízkou vzorkou získajú psychológovia len jeden, dva signifikantné efekty. Nesignifikantné výsledky sú interpretované ako žiadny rozdiel. Následne nie je ťažké k týmto dvom efektom vymyslieť teóriu, takže výsledky sú koherentné a publikovateľné (aj keď zrejme náhodné). Psychológovia teda veľmi dobre vedia čo robia, keď používajú neadekvátne vzorky. Malé vzorky tvoria optimálnu publikačnú stratégiu (Maxwell, 2004).

Kahneman sa ďalej odvoláva na štúdiu, kde testovali s Amosom Tverskym štatistické vedomosti členov americkej Society of Mathematical Psychology. Títo predviedli nechýrny výkon a dopustili sa viacerých omylov. Aj v tomto prípade si nemyslím, že na vine boli mylné intuície. Úlohy sa týkali hlavne frekventistickej štatistiky, ktorá je neintuitívna, mnohé jej koncepty sú nejasné a aj experti sa hádajú o ich interpretácii. Ďalším faktorom je týkajúcim sa konkrétne psychológov je, že výučba štatistiky v psychológii v 50.-80. rokoch zlyhala – viaceré učebnice šírili mylné koncepty a definície a viedli k nesprávnej aplikácii a interpretácii štatistických metód (Gigerenzer, 1992, 2004). Intuície v tomto zmätku zrejme hrali rolu. Môžeme však hovoriť o bayesiánskych intuíciách, ktoré síce vo frekventistickej štatistike nemajú miesto, avšak súčasný vzostup bayesiánskej štatistiky ich do veľkej miery validuje. Napríklad, Kahneman poukazuje na to, že sériu hodov mince HHHH vnímame ako menej pravdepodobnú ako HKKH. Technicky vzaté sú pri tom obidve série rovnako pravdepodobné s p = 2^{-7}. Ako ďalší príklad uvádza Kahneman miesto dopadov bômb na Londýn počas druhej svetovej vojny. Podľa viacerých vtedajších pozorovateľov tieto miesta vykazovali vzory a šetrili oblasti, kde boli umiestnení nemeckí špióni. Neskoršia štatistická analýza preukázala, že miestá dopadov bômb sú náhodné. Obidva tieto príklady diskutuje a testuje štúdia Griffithsa a Tenenbauma (2007), o ktorej som už písal na Mozgostrojoch. Aj v tomto prípade hrá kauzalita dôležitú rolu. V skratke, títo autori ukázali, že odhady pravdepodobností u probantov je lepšie interpretovať ako odhady kauzálnej náhodilosti, t.j. či známy kauzálny mechanizmus vplýva alebo nevplýva na pozorovania. Griffiths a Tenenbaum ukázali, že odpovede probantov zodpovedajú predpovediam bayesiánskeho modelu kauzálnej náhodilosti. Kauzalita je tradičným tabu vo frekventistickej štatistike a tak nečudo, že frekventistické modely nie sú schopné popísať odpovede ľudí.

Čo zostalo?

Vyššie som uviedol alternatívne vysvetlenia pre výsledky experimentov. Na výsledkoch experimentov to samozrejme nič nemení. Pozorované fenomény sú tie isté a prešli mnohými replikáciami. V prípade niektorých experimentov však nie je ich výpovedná hodnota zrejme taká vysoká ako sa Kahneman domnieva. Inštrukcia v týchto experimentoch nie je jednoznačná a umožňuje vplyv faktorov (t.j. apriórne kauzálne predstavy pomocou, ktorých probanti zadanie interpretujú), ktoré by dobrý experiment mal kontrolovať alebo aspoň merať.

Bayesiánske kauzálne modelovanie nič nemení na tom, že ľudia sa dopúšťajú spomínaných “chýb”. Akurát ukazujú, že zdrojom týchto chýb nie je v bias alebo nejaká nesprávna heuristika ale zlé zadanie problému. Alternatívne preto musíme najprv ujasniť ako chceme problém kauzálne modelovať a pokúsiť sa sprostredkovať túto kauzálnu štruktúru cieľovému publiku. Ak dochádza k nedorozumeniam treba ujasniť čí naše publikum problému pripísalo tú správnu štruktúru a ak nie, v ktorých aspektoch kauzálneho grafu sa reprezentácie líšia. Zatiaľčo Kahneman len vágne hovorí o kauzálnych schémach, reprezentatívnosti a plauzibilite (pojmy, ktoré fenomény skôr post-hoc označujú než vysvetľujú), kauzálny prístup umožňuje určiť v ktorých prípadoch vznikajú nedorozumenia a ako tieto nedorozumenia odstrániť.

Na záver treba dodať, že Kahneman uvádza aj príklady, kde sa s ním dá súhlasiť, že ide o zlyhania intuície. Konkrétne sa jedná o Gamblers Fallacy, regresia k priemeru a príbuzné situácie, kde je opakujúcim sa nezávislým javom pripisovaný kauzálny súvis. Kahneman uvádza príklad viery basketbalistov v existenciu horúcej ruky. Mnohí basketbalisti veria, že séria úspešných pokusov zvýšuje následnú úspešnosť hodov. Spoločnou súčasťou týchto príkladov je časová následnosť. Čas je silným zdrojom kauzálnej informácie, keďže vieme že minulosť je nezávislá od budúcnosti. Tým pádom ak sú dve časovo postupné udalosti korelované môžeme vylúčiť že budúca udalosť ovplyvňuje tú minulú a opačný mechanizmus sa nám ponúka ako vysoko plauzibilný. Uniká nám tým však možnosť že obidve udalosti nemusia byť sú podmienené priamo ale ich korelácia môže byť sprostredkovaná tretím faktorom. Pearl (2009) diskutuje tieto prípady. Aj keď uznáva že prílišná ochota uvidieť kauzalitu môže viesť pri nezávislých časovo následných udalostiach k ilúziám, aj v pri týchto iluzórnych prípadoch môžeme nájsť dobré dôvody prečo zariskovať. Minulé hody mince nám nepovedia nič o pravdepodobnosti tých budúcich. Uváženie tejto kauzálneho súvisu nám môže pomôcť zistiť či minca nie je upravená, alebo naopak nám môže vnuknúť nápad mincu upraviť a využiť túto znalosť vo svoj prospech [Edit 1/4/2013: doplňujem citát]:

It is the nature of any causal explanation that its utility be proven not over standard situations but rather over novel settings that require innovative manipulations of the standards. The utility of understanding how television works comes not from turning the knobs correctly but from the ability to repair a TV set when it breaks down. Every causal model advertises not one but rather a host of submodels, each created by violating some laws. The autonomy of the mechanisms in a causal model thus stands for an open invitation to remove or replace those mechanisms, and it is only natural that the explanatory value of sentences be judged by how well they predict the ramifications of such replacements. (s. 220)

Na LessWrong písali, že filozofi by mali študovať Kahnemana a Pearla namiesto Kanta a Platóna. Ja môžem len dodať, že (aspoň čo sa týka teoretizovania) psychológovia by mali študovať Pearla namiesto Kahnemana. Hierarchia vied nepustí.

Literatúra
Gigerenzer, G. (1992). The superego, the ego, and the id in statistical reasoning. A handbook for data analysis in the behavioral sciences: Methodological issues, 311-339.
Gigerenzer, G. (2004). Mindless statistics. Journal of Socio-Economics, 33(5), 587-606.
Griffiths, T. L., & Tenenbaum, J. B. (2007). From mere coincidences to meaningful discoveries. Cognition, 103, 180-226.
Kahneman, D. (2011). Thinking, fast and slow. Farrar, Straus and Giroux.
Krynski, T. R., & Tenenbaum, J. B. (2007). The role of causality in judgment under uncertainty. Journal of Experimental Psychology General, 136(3), 430.
Maxwell, S. E. (2004). The persistence of underpowered studies in psychological research: causes, consequences, and remedies. Psychological methods, 9(2), 147.
Pearl, J. (2009). Causality: models, reasoning and inference (2nd ed.). Cambridge University Press. Cambridge, UK.

Judea Pearl: Causality (Časť 3)

Zatiaľčo druhá a tretia kapitola tvoria teoretické mäso, štvrtá až šiesta kapitola tvoria aplikáciu a diskusiu. Štvrtá kapitola sa zaoberá zovšeobecneným Pearlovho do(X=x) formalizmu. Pearl ukazuje ako vyhodnotiť viaceré manipulácie P(Y|do(X_1=x_1),\dots, do(X_n=x_n)) . Takúto viacnásobnú manipuláciu môžeme nazvať intervenčný plánom. Moc nového sa však nedozvieme. Tieto plány možno vyhodnotiť pomocou intervenčného kalkulu z tretej kapitoly. Jedinou dodatočnou komplikáciou je že si musíme dať pozor v akom poradí transformujeme do(X_i=x_i) na X_i=x_i. Nie všetky sekvencie musia viesť k riešeniu. Aby sme zistili, či je efekt identifikovateľný musíme prešetriť všetky možné sekvencie. Pearl ukazuje ako toto šetrenie zjednodušiť a urýchliť.

Ďalšie zovšeobecnenie umožňuje rozšírenie manipulácie na ľubovoľné funkcie P(Y|do(X=g(z)), kde g(z) je funkciou ostatných premenných v grafe. Aj v tomto prípade výsledky z tretej kapitoly platia. Akurát si musíme dať pozor ktoré premenné zahrnemie do z, tak aby efekt intervencii zostal identifikovateľný.

Piata kapitola diskutuje modelovanie pomocou štrukturálny rovníc (SEM), ktoré je populárne hlavne v sociálny vedách. Predchádzajúce kapitoly vychádzali zo všeobecného prípadu a výsledky platia pre ľubovoľný model x_i = f_i(pa_i,\eta_i). T.j. každá premenná je funkciou hodnôt svojich rodičov pa_i a náhodného faktora \eta_i. Štrukturálne modely špecifikujú lineárny vzťah: x_i = \sum_{k \not = i} \alpha_{ik}x_k + \eta_i , kde \eta_i sú navzájom nezávislé náhodné premenné a \alpha_{ik} tvoria neznáme koeficienty.

V zásade všetky výsledky popísané v predchádzajúcich kapitolách platia aj pre SEM, poprípade sa dajú vďaka lineárnej formulácii zjednodušiť. Pearlova diskusia sa točí hlavne okolo interpretácie ktorej sa SEM historicky dostalo od štatistikov, epidemiológov a sociálnych vedcov. Pre Pearla sú štrukturálne rovnice ekvivalentnou reprezentáciou ako grafy. Vyjadrujú rovnakú t.j. kauzálnu informáciu. Konkrétne \alpha_{ik} vyjadrujú o koľko sa v priemere zmení x_i ak manipulatívne zmeníme x_k o jednu jednotku. Táto intepretácia uniká štatistikom, keďže nemajú jasnú definíciu kauzality. Štatistici tak interpretujú štrukturálne rovnice ako regresiu kde \alpha_{ik} tvoria regresné koeficienty a \eta_i je reziduálna odchýlka. V takto vnímaných rovniciach možno presúvať členy z ľavej na pravú stranu od rovnítka, čo vedie k problémom. Použitie rovnítkovej notácie tak trochu zavádza. Rovnítko vyjadruje jednosmerné kauzálne priradenie príčina k efektom a členy nemožno presúvať.

Zaujímavé je v kontexte SEM sa pozrieť na fyzikálne zákony, napr. Ohmov zákon: I=V/R, kde I je prúd, V napätie a R vyjadruje odpor vodiča. Tieto zákony možno interpretovať ako štrukturálne rovnice. Vidíme, že vo fyzikálnych zákonoch chýba stochastický člen \eta. Model je deterministický a nepredpokladá prítomnosť žiadnych ďalších faktorov. Ohmov zákon možno interpretovať kauzálne – pridaním napätia spôsobíme vyšší prietok elektrického prúdu vodičom. V tomto zmysle možno 1/R interpretovať ako koeficient \alpha. Z pohľadu fyziky nie je problém prehodiť členy z ľavej na pravú stranu a naopak. Napríklad môžeme získať R= V/I. Z pohľadu kauzálnej interpretácie je však takáto úprava neprípustná. Rovnica by vyjadrovala, že pridaním prúdu (pri konštantnom napätí) môžeme zmeniť odpor vodiča, čo je zjavne nezmysel. Čiže aj keď fyzici manipulujú rovnice, nie všetky výsledné formulácie sú si rovné. Nie všetky sú kauzálne interpretovateľné.

Kauzálna interpretácia fyzikálnych zákonov nás nevyhnutne vedie k otázke definície systému. Ak sa pozrieme na vesmír ako uzavretý celok, tento nepripúšťa žiadne alternatívne udalosti. Fyzikálny vesmír tvorí deterministický stroj, ktorého dianie je nevyhnutne dané jeho počiatočným stavom. Z tohoto pohľadu nedáva ani pojem kauzality zmysel. Žiadne manipulácie nie sú možné a žiadne alternatívy neexistujú. Kauzálne interpretácie začnú byť zmysluplné ak z vesmíru vystrihneme určitý výsek – ak definujeme systém, ktorý chceme skúmať. V tomto ohľade sa Pearlove predstavy veľmi podobajú na úvahy o kauzalite u Norberta Bischofa, ku ktorým sa snáď niekedy vrátim (niečo už bolo spomenuté tu).  Všeobecne, definícia systému znamená vymedzenie jeho hraníc. Tým má zmysel uvažovať o externej manipulácii. Zákony a štrukturálne rovnice nám umožňujú kompaktne popísať ako takéto manipulácie ovplyvnia fungovanie systému.

Ako som spomenul piata a šiesta kapitola sa zaoberajú z veľkej časti kontroverziami a paradoxami, ku ktorým dochádza ak výskumník nie je vyzbrojený formálnou definíciou kauzality. Neznalí môžu opomenúť tieto diskusie ako historické kontroverzie. Snáď ešte ako tak zaujímavé sú formálne definície niektorých konceptov, o ktorých experimentátori bežne hovoria a uvažujú. Pomocou Pearlových formalizmov, môžeme vyjadriť pravdepodobnosť priameho efektu, vedľajšieho efektu a celkového efektu. Priamy efekt tvorí v grafe šípka z X do Y. Celkový efekt tvoria všetky cesty z X do Y a vedľajší efekt tvorí celkový efekt mínus priamy efekt (teda všetky vedľajšie cesty). Prečo rozlišovanie týchto efektov dáva zmysel si môžeme spriehľadniť na nasledujúcom príklade. Ak chceme zistiť či sú ženy pri pohovoroch (napr. prijímačky na vysokú školu) diskriminované na základe pohlavia, nestačí nám zistiť či je úspešnosť žien na pohovoroch nižšia ako úspešnosť mužských uchádzačov. Je možné, že muži sú kompetentnejší a výberové konanie tieto kompetencie zohľadňuje. Kompetencie uchádzačov, ktoré korelujú s pohlavím a aj s úspešnosťou uchádzača tak môžu spôsobiť koreláciu medzi pohlavím a úspešnosťou. V tomto prípade hovoríme o vedľajšom efekte. Na výbere kompetentných uchádzačov nie je nič zlé, práve naopak. Ak sa pýtame na existenciu diskriminácie zaujíma nás priamy efekt pohlavia na úspešnosť a vedľajšie efekty chceme ignorovať. T.j. pýtame sa aký efekt by mala zmena pohlavia na úspešnosť ak by sme všetky ostatné premenné držali na konštantnej úrovni. Pearlov formalizmus umožňuje posúdiť silu týchto efektov na základe pozorovaní bez nutnosti manipulácie.

Že by vyššie uvedená úloha mohla byť riešiteľná len na základe pozorovaní, sa zdá uletené. Ako držať konštantné všetky faktory? Ktoré sú to faktory? A na akej úrovni ich chceme držať konštantné? Východiskom výpočtov je samozrejme naša znalosť kauzálnej štruktúry problému. Našťastie nemusíme poznať všetky faktory. Stačí nám poznať rodičov príčiny X, teda faktory ktoré majú priamy vplyv na pohlavie uchádzačov a kontrolovať tieto.

Otázka hodnôt kontrolovaných faktorov ostáva na výbere vedca. Pearl poznamenáva, že zaujímavou voľbou je zvoliť hodnoty, ktoré by nadobudli tieto faktory ak by sme zvolenú hodnotu príčiny pozorovali (a nie manipulovali). Pearl hovorí o prirodzenom priamom efekte, ktorý možno formálne vyjadriť ako

\sum_z ( E(Y| do(x',z))- E(Y|do(x,z)) )P(z|do(x))

kde E(Y) je očakávaná hodnota efektu, x je pozorovaná hodnota a x' je manipulovaná hodnota príčiny. Intuitívne, prirodzený priamy efekt vyjadruje výsledky experimentu, v ktorom by uchádzači zmenili pohlavie a všetky ostatné faktory – vek, kompetencie, CV, priebeh pohovoru etc. ostali rovnaké. Takýto experiment nie je možné vykonať. Že je možné inferovať výsledky tohoto experimentu na základe pozorovaní bežných pohovorov je podľa mňa absolútne úžasné!

Judea Pearl: Causality (Časť 2)

Druhá kapitola sa zaoberala najťažším prípadom inferencie, keď máme dané len rozdelenie pravdepodobnosti. V tretej kapitole poznáme okrem pravdepodobností aj graf, teda kauzálnu štruktúru problému. Vďaka tejto znalosti môžeme posúdiť vplyv manipulácii na pozorované pravdepodobnosti. V tretej kapitole sa Pearl zaoberá elementárnymi manipuláciami, ktoré zvonku určia hodnotu určitej premennej a snažia sa zistiť následky. Vo štvrtej kapitole potom Pearl rozoborá komplikovanejšie reťaze manipulácii a reaktívnych stratégii, kde manipulácia závisí pozorovaných hodnôt iných premenných.

Formálne predstavuje manipulácia premennej A dosadenie určitej hodnoty nezávisle od rodičov A v grafe. V grafe vyššie, ak chceme pozorovať kauzálny efekt manipulácie A=a na premennú B musíme zmeniť A na pozorovanú premennú s hodnotou a. To znamená, že musíme odstrániť všetky šípky smerujúce do A. A je externe manipulované a tým pádom nezávislé od svojich rodičov v grafe. Výsledný graf je znázornený vpravo. Pre oba grafy môžeme vypočítať P(A,B,C,D1,D2,D3) a porovnaním pravdepodobností zistiť efekt manipulácie na na P(B). Pearl označuje toto rozdelenie ako P(B| do(A=a)) , kde do(A=a) vyjadruje úpravu grafu. Konkrétne platí

P(b|do(A=a)) = \sum_{pa} P(b|a,pa) P(pa)

, kde pa je množina rodičov. Intuitívne, ak máme pozorovania fungovania v grafe vľavo a chceme zistiť ako by ovplyvnilo A=a premennú B, tak sa pozrieme na prípady, keď A (zhodou okolností) nadobudlo túto hodnotu a a pýtame sa, čo sa vtedy stalo s B. Problémom sú tretie premenné, ktoré vplývajú na A a aj na B. Vplyv týchto premenných anulujeme tým, že P(b|a) vážime v závislosti od rodičov A. Rovnicu vyššie možno interpretovať ako vážený priemer.

Samozrejme podmienkou vyššie uvedeného výpočtu je, že vplyv rodičov poznáme. Pripomínam, že je daný graf a pozorovania. Pozorovania však nemusia zahŕňať všetky premenné definované v grafe. Musíme sa preto pýtať ktoré premenné musíme pozorovať, aby sme vedeli určiť kauzálny súvis. Pearl ponúka viacero grafických kritérii, ktoré poslúžia ako rýchle heuristiky. Podľa kritéria únikových dverí musia byť všetky únikové cesty (teda šípky smerujúce do A) z A do B blokované množinou pozorovaných premenných D.

Možno trochu prekvapivo bezhlavé pridávanie kontrolných D nemusí byť prospešné pre analýzu. Pridanie premenných,ktoré sú potomkami A totiž môže odblokovať únikové cesty. V grafe nižšie chcem určiť vplyv liečby (L) na chorobu (Ch). Ak zahrniem bolesť hlavy (H), ktorú liečba spôsobuje ako kontrolnú premennú do analýzy tak si spôsobím problém. Keďže gény (G) okrem choroby ovplyvňujú aj bolesť hlavy vznikne medzi chorobou a liečbou nepravý súvis, sprostredkovaný novou vedľajšou cestou v grafe cez bolesť hlavy a gény. Keďže H tvorí strediska, táto cesta je odblokovaná práve v prípade keď je H pozorované.

Okrem kritéria únikových ciest ponúka Pearl ďalšie. Všeobecne možno určiť P(b|do(A=a)) a vskutku P(b|do(A_1=a_1), \dots , do(A_n=a_n)) pre ľubovôlnú množinu manipulácii premenných A_1, \dots, A_n pomocou takzvaného intervenčného kalkulusu. Tento poskytuje pravidlá ako na základe grafu a pozorovaných nezávislostí pretaviť výrazy s vokáňom do výrazov bez neho. Jeho aplikácia je komplikovanejšia. Grafické kritéria (napr. kritérium únikových ciest) sú na druhej strane jednoduchšie ako keby sme sa mali prebíjať aritmetikou. Kalkulus garantuje nájdenie riešenia ak takéto existuje a zároveň ak riešenie neexistuje (kvôli prítomnosti konfundujúcich premenných) zistíme, že tomu tak je. V druhom vydaní Pearlovej knihy pribudlo aj všeobecné grafické kritérium, ako zistiť či efekt manipulácie možno vypočítať. Toto hovorí, že neexistuje žiadna latentná premenná spájajúca uzol A s jeho deťmi. V tomto prípade možno P(b|do(A=a)) určiť.

Asi najväčším prekvapením tejto kapitoly pre mňa bolo, že pridávanie kontrolných premenných môže byť kontraproduktívne pre zistenie kauzálnych príčin. V psychológii mnohokrát kontrolujeme a balancujeme, čo sa dá. V psychológii zároveň kauzálny graf prakticky nikdy nepoznáme. Akurát vieme, že všetko súvisí so všetkým a za každým rohom sa skrýva latentná príčina. V tomto prípade asi najlepšou taktikou je naozaj kontrolovať a balancovať experiment. Zároveň si ale musíme byť vedomí ťažkostí, ktoré toto môže privodiť. Pearlove formalizmy umožňujú spoľahlivo identifikovať premenné vhodné pre kontrolu a manipuláciu.

Judea Pearl: Causality (Časť 1)

Jaynesovu knihu som úž dávnejšie dočítal. Súhrny pre Mozgostroje som zatiaľ vynechal. Chcem tieto kapitoly prečítať pozorne ešte druhý krát a poprípade konfrontovať ďalšie zdroje. Súhrny zvyšných (13) kapitol sa teda objavia niekedy v budúcnosti. Ako hodnotného Jaynesovho nástupcu som už medzičasom vybral Pearlovu knihu o kauzalite. Kniha spĺňa prvé Matúšovo kritérium čitateľnosti v tom, že si bere filozofov na paškál (a ešte viac vo svojej druhej edičnej inkarnácii). V recenziách na amazone sa môžete napríklad dozvedieť od filozofa vedy: “The second edition repeats the first edition verbatim, but at the end of most chapters there’s a clearly defined section dealing with subsequent developments. There’s a long chapter at the end that updates you on the replies to the first edition, and some helpful new material explaining things that were tricky the first time through. The updates are concise. Replies to philosophers (at least) are ultimately devastating, although Pearl could explain himself more fully.”Takisto na LessWrong navrhli nahradiť Platóna Pearlom vo filozofickom učebnom curriculu.

V určitom zmysle Pearlova monografia pokračuje, kde tá Jaynesova skončila. Chápanie teórie pravdepodobnosti ako rozšírenej logiky umožňuje jasne definovať mnohé koncepty, ktoré tradičnej štatistike unikajú. Jedným takýmto konceptom je kauzalita.

Je možné dospieť na základ pozorovaní, že A je príčinou pre B? Aký postup zvoliť? Je možné tento postup formalizovať a automatizovať? Tradičná štatistika pozná koncepty ako korelácia, kovariancia, nezávislosť dvoch premenných alebo konfundujúca premenná. Kauzalita však ostala pre štatistiku tabu. Väčšinou sa o nej dozviete len z varovaní a negatívnych výrokov o tom, čo pomocou štatistických konceptov nie je možné zistiť. Najznámejšia mantra hovorí, že korelácia neimplikuje kauzalitu – cum hoc, propter hoc. V následujúcom hurhaji okolo akademického upaľovania previnilca, však zanikne otázka, čo teda kauzalitu implikuje. Kauzalita, tak ako ostatné predstavy vyhodené na smetisko vedy ostala napospas filozofom.

Pearl je špecialistom na kauzalitu. Počas svojej akademickej kariéry navrhol spektrum metód a stratégii, ktoré riešia rôzne problémy vznikajúce pri analýzach kauzality. Pearl sa nezľakol kontroverzii a tabu spojených s inferenciou kauzality. Jeho dôležitým postrehom bolo, že ľudia inferujú kauzalitu celý čas a väčšinou sú v tom prekvapujúco úspešný. Pearlovými hlavnými nástrojmi je teória pravdepodobnosti, teória grafov a topológie. Jeho výskum tak spadá metodicky do oblasti AI a učenia strojov aj keď jeho implikácie a aplikácie sa týkajú prevažne štatisticky a filozofie. Jeho kniha Causality (Pearl, 2009) tvorí súhrn tohoto výskumu. Kniha nie je ľahké čítanie. Nie je to dané tým, že používa moc technický jazyk, alebo že by bola samotná téma veľmi zložitá. Matematika je jednoduchá avšak obsah knihy je silne našlapaný. Diskusia je obmedzená na minimum. Kapitoly sú vystavané na definíciách, teórémach, algoritmoch a poprípade ich dôkazoch a príkladoch aplikácie. Obsah je dobre štrukturovaný a vysvetlený. Je však natlačený, takže občas sa cítim už po piatich stranách vysilený a nepamätám si všetky definície takže musím listovať a vracať sa naspäť. Inak ide o nanájvyš zaujímavé čítanie, tak ako téma sľubuje.

Kauzalitou sa možno zaoberať v rôznych situáciách. V tomto článku sa obmedzím na situáciu, keď sú dané len pozorovania a nie je možné premenné experimentálne manipulovať. Pearl sa touto situáciou zaoberá v druhej kapitole. Inferencia v takýchto situáciách nie je nemožná. Akurát sme, podobne ako fyzici čakajúci na výbuch supernovy, odkázaný na priazeň prírody a výskyt prírodných experimentov, ktoré táto svojim vedeckým divákom ponúkne.

V tomto prípade nám ako formalizmus pre určenie kauzality postačia bayesiánske grafické modely, ktoré som už na tomto blogu predstavil. Videli sme, že grafický model vyjadruje podmienené súvislosti, ktoré určujú kauzálny vplyv.

Uzly reprezentujú udalosti/výroky/premenné a šípky znázorňujú podmienenosť. Z grafu je možné vyčítať pravdepodobnosť elementárnych situácii. Každý uzol prispeje jedným členom v multiplikácii p(M,P,D)=p(P)p(M|P)p(D|M,P). Z tejto pravdepodobnosti môžeme získať pomocou p(A)=\sum_Bp(A|B)p(B) a definície podmienenej pravdepodobnosti všetky ostatné pravdepodobnosti. Z grafu je takisto možné vyčítať  nezávislosť udalostí.

Nezávislosť je komplikovanejší koncept ako podmienenosť. Napríklad v grafe A \rightarrow C \rightarrow B síce neexistuje priamy šíp od A ku B avšak A podmieňuje B prostredníctvom C.  Následujúce pravidlo umožňuje určiť nezávislosť premenných v grafe: A a B sú navzájom nezávislé pre danú (pozorovanú) množinu premenných C (A \perp B | C ) ak všetky cesty v grafe medzi A a B obsahujú aspoň jeden z nasledujúcich prípadov.

1. Jednosmerka: a \rightarrow \dots \rightarrow c \rightarrow \dots \rightarrow b (tri bodky ilustrujú prítomnosť ďalší premenných, ich prítomnosť je však nepodstatná a v ďalšej diskusie ich vynechám) a uzol c je v množine C. Intuícia je nasledovná. Ak vysoký obsah vápnika (V) vo vode spôsobuje vodný kameň (K) a vodný kameň spôsobuje hučanie variča (H), tak hučanie variča je nezávislé od obsahu vápnika ak viem, že varič je zanesený vodným kameňom (V \perp H | K ) . Ako sme videli u Jaynesa nezávislosť vyjadruje informačnú nezávislosť. V našom príklade vyjadruje, že znalosť V nám nepovie nič nové o hučaní H ak vieme K – že varič je zanesený (alebo nie je zanesený). Ak by sme K nepoznali, množina C by bola prázdna a v tomto prípade by bolo H závislé od V. Smerovanie jednosmerky pritom nie je dôležité, keďže na poradí argumentov nezáleží A \perp B|C=B \perp A|C.

2. Rozchodník (spoločná príčina): a \leftarrow c \rightarrow b a c je v C. Podobne ako pri 1, ak poznám príčinu, znalosť a mi nepovie nič nové o b.

3. Stredisko (spoločný následok): a \rightarrow c \leftarrow b a c nie je v C. Kľúč od trezora majú len Anton a Boris. Ak viem, že niekto otvoril trezor (C) a dozviem sa, že to určite nebol Anton (A), tak automaticky viem, že ho otvoril Boris (B). Znalosť A nám teda povedala niečo o B ak zároveň poznáme C. Teda A a B sú závislé ak poznáme C. Možno trochu prekvapivo ak C nepoznáme, tak nemôžeme s istotou nič tvrdiť o B na základe A a tieto sú nezávislé.

Ak je množina C prázdna a A a B sú nezávislé hovoríme o nepodmienenej nezávislosti, v opačnom prípade o podmienenej.

Grafické modely (GM) sú abstraktnou reprezentáciou. Abstraktnejšou ako probabilistický model, ktorý je plne definovaný až keď určíme jeho parametrizáciu (na základe dát). a \rightarrow b teda pretavíme napríklad do b \sim \mathcal{N} (a,\sigma=2) a všeobecne pre každý uzol určíme funkčný vzťah x = f(pa_x). Kde pa_x sú rodičia x, teda premenné z ktorých smeruje šíp do x. Túto konkrétnejšiu reprezentáciu nazýva Pearl kauzálnym modelom, zatiaľčo v prípade GM hovorí o kauzálnej štruktúre.

Samozrejme v praxi graf nepoznáme. Poznáme dáta, prostredníctvom ktorých môžeme odhadnúť rozdelenie pravdepodobnosti. Preto nás zaujíma vzťah medzi pravdepodobnosťami (model) a grafickou reprezentáciou (štruktúra). Dôležitú rolu pritom hrajú nezávislostí v grafe. Nezávislosť premenných je možné identifikovať cez testovanie signifikantnosti. V prípade nezávislosti totiž platí p(A,B)=p(A)p(B) a môžeme testovať či sa náš odhad p(A,B) signifikantne líši od produktu p(A)p(B).

Vo všeobecnosti nemožno jednoznačne identifikovať na základe pravdepodobnosti graf, ktorý rozdelenie vygeneroval. Napríklad ak prešetríme na nezávislosť grafy A \rightarrow B \rightarrow C a A \leftarrow B \leftarrow C zistíme, že obidva vykazujú rovnaké nezávislosti. B a A sú nezávislé pre pozorované C. Všetky ostatné konfigurácie sú závislé. Z pravdepodobností preto môžeme vyčítať, čo Pearl nazýva vzor – graf ktorý je miešanina smerovaných šípov a spojení bez orientácie. Spojenia bez orientácie pritom vyjadrujú neistotu ohľadom smerovania a teda, že pri danom spojení sú obidva smery možné. Vzor získame pomocou nasledujúceho algoritmu.

V prvom kroku prešetríme všetky páry uzlov A,B. Ak sú A,B závislé pre všetky možné množiny C tak pridáme spojenie medzi A a B.

Vyššie sme videli, že pre jednosmerky nie je možné jednoznačne určiť smerovanie. To isté platí pre rozchodník. Situácia je iná pri stredisku. Strediská je možné identifikovať v grafe na základe nezávislostí. Ak sme v prvom kroku získali spojenie medzi A-C a medzi B-C a A,B sú nezávislé (žiadne spojenie), tejto konfigurácii zodpovedá len A \rightarrow C \leftarrow B. Pre každú inú orientáciu by museli byť A a B závislé.

Následne v treťom kroku sa snažíme nájsť orientáciu pre čo najviac zostávajúcich spojení. Pri tom využívame dva fakty. Po prvé, definícia vyžaduje aby bol graf acyklický. Pri konfiguráciách kde existuje len jediná acyklická alternatívna orientácia, túto musíme zvoliť. Po druhé, druhý krok vyčerpávajúco určuje strediská, preto žiadne ďalšie strediská nemôžeme do grafu pridať. Znova, pri konfiguráciách, kde existuje ku strediskám jediná alternatíva, zvolíme práve túto.

Tento algoritmus predpokladá, že všetky uzly sú pozorované. Situácia sa komplikuje ak povolíme prítomnosť nepozorovaných latentných premenných v našom modeli. V tomto prípade nie je možné jednoznačne určiť ani vzor definovaný vyššie. Napríklad graf MPD znázornený vyššie je schopný vygenerovať každé rozdelenie pravdepodobnosti vygenerované grafom M \rightarrow P  (Presnejšie pre každú parametrizáciu MP existuje parametrizácia MPD ktorá produkuje rovnaké rozdelenie pravdepodobnosti MP). Dôvod je evidentný – graf MPD zahŕňa MP. Riešenie je rovnako evidentné. S odvolaním sa na Ockhamovu britvu uprednostníme štruktúru s minimálnym počtom závislostí t.j. hrán v grafe. Následne môžeme upraviť algoritmus popísaný vyššie tak, že nám určí minimálny vzor s latentnými premennými. Pearl navrhol špeciálny vzor, ktorý reprezentuje latentné premenné ako hrany. Množinu uzlov tvoria pozorované premenné. Nasledujúce hrany sú možné. Skutočné príčiny A na B znázorňujú hrany A \rightarrow B . Nepravá súvislosť A \leftrightarrow B vyjadruje spoločnú latentnú príčinu A \leftarrow L \rightarrow B. Potenciálne príčiny  A \rightarrow^* B nechávajú dve vyššie uvedené možnosti otvorené. Buď ide o potenciálnu príčinu alebo nepravú súvislosť.

Konkrétny algoritmus na tomto mieste vynechám. Zaujímavé je jeho fungovanie v zredukovanom prípade, keď máme informáciu o časovom slede udalostí, teda o časovej organizácii premenných. V prípade časovej postupnosti totiž vieme, že budúce udalosti nemôžu mať vplyv na minulé udalosti. V tomto prípade sú všetky minulé udalosti potenciálnou príčinou pre všetky budúce udalosti. Vskutku definícia potenciálnej príčiny umožňujú formalizovať koncept štatistického času. Takýchto zoradení je v každom grafe viacej. Pearl vyjadril domnienku, že aspoň jeden zo štatistických časov bude zodpovedať tomu fyzikálnemu. Pearl však zároveň ukazuje že koncept času závisí od reprezentácie premenných a je možné nájsť ku každej reprezentácii, reprezentáciu, v ktorej funguje kauzalita opačne – z budúcnosti do minulosti. Otázku definície času, tak možno zredukovať na otázku definície problému. Bolo by napríklad zaujímavé vypracovať alternatívnu reprezentáciu pre štandardný model časticovej fyzike, kde čas beží opačne a uistiť sa, že táto reprezentácia je menej parsimónna.

Čo sa týka skutočných príčin, tieto okrem toho, že sú potenciálnymi príčinami, musia spĺňať dodatočnú podmienku, že ak má byť B príčinou C tak musí existovať (v čase predchádzajúca) premenná A pre ktorú platí  A \not \perp C a A \perp C| B. Inak povedané ak je B príčina C tak B zablokuje tok informácii od A ku C.

Nakoniec pre nepravý súvis platí že existuje predchádzajúce A, tak že A \not \perp B a A \perp C . Túto konfiguráciu možno vysvetliť tým, že A je spoločnou príčinou B \leftarrow A \rightarrow C a B nemá ďalší vplyv na C aj keď mu predchádza v čase. Inak povedané súvis medzi A a B existuje len v dôsledku tretej premennej a je preto nepravý.

Zhrniem. Rozdelenie pravdepodobnosti pozorovaných premenných samo o sebe neumožňuje určiť kauzálny súvis. Na to potrebujeme grafickú reprezentáciu bayesiánskych grafických modelov. Ak ju nepoznáme, čiastočne ju môžeme vypočítať z pozorovaných pravdepodobností. Pearl ukazuje ako. Komplikáciou je potenciálna prítomnosť neznámych latentných premenných v grafe. Naopak znalosť časovej postupnosti značne zjednodušuje inferenciu grafu a kauzality.

Pearl, J. (2009). Causality: models, reasoning and inference (2nd ed.). Cambridge University Press. Cambridge, UK.