Bayesiánsky model intencionálnej stratégie

V minulom príspevku sme videli príklad ako si filozofi nevedia dať rady s pripisovaním významov, cieľov alebo účelov udalostiam okolo nás. Nielenže sa filozofi pýtajú nesprávne otázky, ktoré sú irelevantné pre vedu a praktický život, ale nepýtajú sa tie správne otázky, ktoré vedcov a ľudí zaujímajú. Diskusie o existencii a podstate cieľov musíme nahradiť epistemologickými otázkami – aká je optimálna stratégia pre pripisovanie cieľov a účelov a  nakoľko sa ľudské rozhodovanie od tejto stratégie odkláňa. Či je účel a význam, ktorý ľudia svojmu konaniu pripisujú metafyzická apriórne večná entita levitujúca na dne 42. komnaty sveta ideí alebo tvorí len ilúziu prudko blikajúcich fermiónov a bozónov je irelevantné. Namiesto toho sa musíme pýtať ako ľudia pripisujú dianiu okolo seba význam a či existuje lepšia stratégia, pomocou ktorej by bolo možné správanie ľudí vylepšiť. Toto sú otázky ktoré si kladú psychológovia a informatici.

Baker, Saxe a Tenenbaum (2009) nedávno ponúkli model, ktorý teleologickú stratégiu ľudí popisuje. Tento model je zároveň vybudovaný na princípoch optimálnej racionality, takže sa zdá že aspoň v určitých situáciach je ľudské rozhodovanie optimálne a v tomto zmysle aj veridikálne. Baker et al. formalizovali skoršie návrhy intencionálnej stratégie u Dennetta (1989) a teologickej stratégie u Gergelyho a Csibru (2003). Tieto návrhu sa snažia zodpovedať zásadné otázky. Ako pripisujú ľudia správaniu iných aktérov ciele? Ako predpovedajú budúce správanie na základe toho predchádzajúceho? Ľudia robia tieto inferencie neustále a zjavne bez väčšieho úsilia. Často až následná reflexia nám umožní oceniť komplexnosť našich úsudkov. Môj obľúbený príklad je dopravná situácia ktorú som pravidelne zažíval v Mníchove cestou domov pri prestupovaní z metra na autobus. Odchod autobusu bol nataktovaný v závislosti od príchodu metra – v závislosti od teoretického príchodu metra. Metro niekedy meškalo a niekedy meškal autobus.  Medzi príchodom metra a odchodom autobusu bola medzera dvoch minút na presun. Presun v podstate tvoril len (dosť dlhý) východ z metra – ca. 100 metrov hore po schodoch. Zmeškať bus nebolo príjemné, keďže človek si potom musel počkať 10, v neskorších hodinách 20 minút na ďalší. A nebolo to ani nevyhnutné, stačilo vedieť či sa bus nachádza na zastávke. V podzemí to však nebolo možné zistiť. Človek mohol ísť vždy na istotu a rozbehnúť sa o život hore schodmi. V drvivej väčšine prípadov bol však taký beh zbytočný, keďže bus bol už buď preč alebo prišiel neskôr. Dav skúsených cestujúcich vystupujúcich na (konečnej) zastávke metra však vytvoril zaujímavú sociálnu dynamiku. Z nádražia bolo možné dovidieť na vrch schodov. Z vrchu bolo možno dovidieť zasa k východu z metra. Z východu bolo možné dovidieť na zastávku. Autobus síce nebolo možné vidieť ale bolo možné vidieť čakajúcich ľudí a či sa títo zberajú na nástup. Ak sa tak dialo, bol to signál pre tých pri východe aby pobehli ak chcú stihnúť autobus. Východ bolo zasa možné vidieť z vrchu schodiska a vrch schodiska z nástupiska. Takto stačilo každému posúdiť či ľudia pred ním bežia a rozbehnúť sa v tomto prípade tiež.

Tento príklad pekne ilustruje intencionálnu stratégiu. Ostatným cestujúcim pripíšem cieľ – stihnúť autobus. Pozorujem ich správanie a základe správanie dokážem získať nové informácie o stave sveta a zodpovedajúco prispôsobím svoje správanie. Vznikne tak ľudská reťaz šíriaca informácia. Títo ľudia nemusia byť Čínania a nepotrebujú ani vysielačky. Intencionálna stratégia v tomto prípade reprodukuje informáciu perfektne. Skoro perfektne. Raz sa mi napríklad stalo, že som s davom vbehol do nesprávneho autobus, ktorý ma uniesol úplne opačným smerom. Samozrejme kto mal predpokladať, že sa na zastávke sa vyskytne autobus úplne mimo svojho taktu. Táto udalosť je málo pravdepodobná. Intencionálna stratégia nie je sto percentne spoľahlivá. Ako väčšina ostatných rozhodnutí ľudia musia narábať s pravdepodobnosťami ktoré reflektujú neistotu a nespoľahlivosť udalostí okolo nás. Hlavný prínosom Bakera et al. je práve pretavenie intencionálnej stratégie do probabilistického modelu. Dennett a aj Gergely a Csibra popísali intentionálnu stratégiu ako deduktívne usudzovanie. Ľudia samozrejme neposudzujú len udalosti ktoré so pravdivé alebo nepravdivé ale ich rozhodovanie ovplyvňujú aj udalosti ktoré sú menej alebo viac pravdivé.

Intencionálna stratégia nie je jediná stratégia ako posudzovať udalosti okolo nás. Ciele pripisujeme len aktérom – väčšinou organizmom (a často pixlom na monitore). Kľúčovým faktorom pri pripisovaní cieľov je racionalita aktéra. Ciele pripisujeme len správaniu racionálnych aktérov. Ultimátnym cieľom organizmov je prežitie a rozmnožovanie. V tomto zmysle môžeme hovoriť u organizmoch o racionálnych aktéroch. U aktérov, ktorý sa nesprávajú racionálne nemožno intencionálnu stratégiu použiť. Ľudia samozrejme pozorujú len správanie a tak je potrebné racionalitu tiež inferovať. Samotný fakt, že sa jedná o organizmus alebo človeka nemusí byť v danom kontexte postačujúci. U ľudí, ktorí sa hocikedy rozbehnú z ničoho nič nechcem zisťovať ich ciele a ich správanie mi nepovie nič o tom či na zastávke stojí autobus.

Ako funguje intencionálna stratégia? Tu je Dennettov popis:

 …first you decide to treat the object whose behavior is to be predicted as a rational agent; then you figure out what beliefs that agent ought to have, given its place in the world and its purpose. Then you figure out what desires it ought to have, on the same considerations, and finally you predict that this rational agent will act to further its goals in the light of its beliefs. A little practical reasoning from the chosen set of beliefs and desires will in many—but not all—instances yield a decision about what the agent ought to do; that is what you predict the agent will do.(Dennet, 1989, s. 17)

Gergely a Csibra pri svojom popise teleologickej stratégie rozlišujú tri inferencie, ktoré táto stratégia umožňuje. Na základe správania (A) a stavu prostredia (E) možno inferovať ciele (G). Ak vidím niekoho bežať k zastávke (A) a vidím prichádzať autobus (E) tak dá rozum že jeho cieľom je stihnúť autobus (G). Na základe znalosti cieľov a pozorovaného správania vieme zistiť stav prostredia. Toto bola situácia, keď som pri vychádzaní z metra nevedel či autobus stojí na zastávke (E) ale pozoroval som správanie ľudí okolo seba (A) a vedel som, že väčšina z nich sa ponáhľa lebo chcú stihnúť autobus (G). Nakoniec, na základe znalosti cieľov a stavu prostredia viem predpovedať správanie. Ak viem, že môj priateľ čaká na autobus (G) a vidíme autobus prichádzať (E) tak viem že sa so mnou rozlúči a poberie sa na zastávku (A). (Treba dodať, že teleologická stratégia ignoruje možnosť, že náš priateľ nepozná stav prostredia alebo má o ňom mylnú predstavu. V tomto aspekte sa teleologická stratégia líši od teórie mysle, ktorá umožňuje oveľa komplexnejšie inferencie.)
Gergely a Csibra ilustrovali tieto tri situácie pomocou nasledujúceho diagramu. Ilustrované sú aj animácie pomocou ktorých autori testovali schopnosť používať teleologickú stratégiu u kojencov. Kojenci boli habituovaní pomocou animácii vľavo kde pozorovali racionálne správanie aktéra. Následne boli kojenci konfrontovaní s udalosťami ktoré boli buď kompatibilné alebo nekompatibilné s teleologickou stratégiou. Kojenci boli viac prekvapení (pozerali dlhšie) pri nekompatibilných udalostiach – keď aktér preskočil neexistujúcu prekážku (A), keď sa prenasledovateľ nakoniec vyhol svojmu cieľu (G), alebo keď sa ukázalo, že za clonou sa nenachádza prekážka ktorú by aktér preskakoval.

Dennett a aj Gergely a Csibra ponúkajú deduktívne metódy. Ciele, stav prostredia a správanie tvoria neznáme premenné a racionalita aktéra ich drží pohromade. Dedukcia funguje ak poznáme dve z troch spomenutých skutočností plus racionalitu. Samozrejme deti a v mnohých situáciách ani dospelí nepoznajú stav premenných aby mohli deduktívnu stratégiu aplikovať. K tomu ešte prichádza fakt, že racionalitu aktéra musíme zistiť na základe správania. Vskutku správanie a čiastočný stav prostredia sú jediné informácie ktoré máme. Ľudia však nemajú problém na základe útržkovitých pozorovaní (mnohokrát úspešne) aplikovať teleologickú stratégiu. Z pohľadu deduktívnej logiky vyzerá ich inferencia ako jeden veľký podvod, kde ľudia vytiahnú sami seba za vlasy z močiara fyzikálnej evidencie. Vskutku filozofická literatúra je plná dôkazov ako teleologická stratégia nemôže fungovať s implikáciou, že teleologická stratégia je buď ilúzia, alebo na druhej strane barikády, že ľudská myseľ je super-turingovský kvantový zázrak. Obidve pozície sú z vedeckého hľadiska málo produktívne.

Strih. Fanfáry. Na scénu nastupuje bayesiánska štatistika aby zasa raz zachránila scientizmus obkľúčený impotentným fyzikalizmom na jednej strane a zbabelým mysteriánizmom na strane druhej. Baker et al. preformulovali teleologickú stratégiu do probabilistického modelu. Probabilistický model aplikovali na syntetické 2D svety s pohybujúcimi sa aktérmi a troma cieľmi. Taký svet vyzerá zhruba nasledovne.

Steny sú znázornené čiernou a červený kruh (aktér) sa cez ne nemôže dostať. Môže však preniknúť dierou na pozícii (9,7). Červený, zelený a biely štvorec tvoria potenciálne ciele. Aktér sa začne pohybovať a vašou úlohou je zistiť ktorý štvorec je jeho cieľovou destináciou a ktorým smerom sa pohne najbližšie. (V experimente bola animácia 3 krát zastavená na diagnostických pozíciach aby probandi mohli odpovedať).

Bayesiánsky model vyhodnocuje tieto otázky nasledovne. Pohyb aktéra tvoria diskrétne kroky aktéra v čase a_t. Pri každom kroku sa môže aktér vybrať ôsmymi smermi alebo ostať na mieste a teda a tvorí náhodnú premennú s 10 hodnotami. (Ak je aktér pri stene kroky do steny ho ponechajú na mieste.) V každom kroku sa nachádza aktér na určitej pozícii s_t. Napríklad pre animáciu vyššie platí s_0=(1,9), s_1=(2,8).

Ako zistiť na základe pozorovaného správania a_{1:t} a počiatočnej pozície s_0, ktorý cieľ aktér nasleduje? Bayesova veta. p(g|a_{1:t}) \propto p(a_{1:t}|g)p(g), kde p(g) je rozdelenie pravdepodobnosti cieľov. Ak nemáme apriori znalosť o preferenciách aktéra, dosadíme za apriori pravdepodobnosť rovnomerné rozdelenie p(g)=1/|G| v našom prípade p(g)=1/3. Vierohodnosť rozložíme nasledovne p(a_{1:t}|g) = \prod_{i=1}^t p(a_i|s_{i-1},g), kde sme postulovali, že správanie závisí len od súčasnej pozície a cieľa a nie ako sme na túto pozíciu dostali. Intuitívne, pre každú pozíciu a cieľ môžeme určiť najefektívnejšie správanie – t.j. to ktoré minimalizuje vzdialenosť k cieľu. Napríklad ak je cieľ vpravo dole tak takáto stratégia môže vyzerať nasledovne.

Náš algoritmus však chce byť probabilistický a zrejme aj pre ľudí hrá rolu či sa aktér na pozícii (9,4) pohol doľava alebo dole. Pohyb dolu nie je možno úplne optimálny avšak pohyb doľava je katastrofálny – smerom od daného cieľa. Pre každý pohyb a pre každú pozíciu tak získame rozdelenie pravdepodobnosti v závislosti ako efektívne dané správanie minimalizuje vzdialenosť k cieľu. Graficky môžeme vyjadriť toto rozdelenie odtieňom farby na 3×3 mriežke. Každé pole ukazuje určité správanie, viď. legenda vpravo.

Toto grafické znázornenie môžeme použiť pre aby sme ilustrovali rozdelenie pravdepodobnosti pre každú pozíciu.

Pre cieľ na pozícii (10,1) dostaneme odlišnú mapu.

Formálne zvolíme p(a_i|s_{i-1}) \propto exp(\beta V(s_{i-1},a_i)), kde V(s_{i-1},a_i)) je funkciou zmeny vzdialenosti smerom k cieľu. p(a_i|s_{i-1}) je Boltzmanove rozdelenie pravdepodobnosti známe zo štatistickej mechaniky, kde parameter \beta vyjadruje teplotu rozdelenia. Ako sa mení rozdelenie v závislosti od hodnoty \beta? Vyššie som vám ukázal mapu pre \beta=1. Tu je \beta=0.5

a \beta=5 vyzerá nasledovne

Pripomínam, že biela označuje vysokú pravdepodobnosť zatiaľčo čierna tvorí mizivú pravdepodobnosť. Nie je ťažké interpretovať \beta v rámci teleologickej stratégie. \beta vyjadruje racionalitu, ktorú aktérovi prisudzujeme. Baker et al. odhadli \beta pri modelovaní behaviorálnych dát ako dodatočný parameter. Zároveň ponúkli aj rozšírený model, ktorý odhadne \beta v každom kroku nanovo na základe správania. Nižšie sú znázornené inferencie daného modelu.

Hore vidieť správanie aktéra. Vľavo dole je znázornená pravdepodobnosť troch cieľov v závislosti od času. Nie je ťažké predpovedať pravdepodobnosť pre budúce správanie a_{t+1}. Platí p(a_{t+1}|a_{1:t}) = \sum_g p(a_{t+1}|g)p(g|a_{1:t}), kde obidve kvantity na pravej strane rovnosti sú známe. p(a_{t+1}|a_{1:t}) je znázornené vpravo dole. Všimnite si ako jeden diagnostický krok (napríklad na pozícii s_{12}=(11,8)) dokáže rapidne ovplyvniť rozdelenie pravdepodobnosti. Zároveň si všimnite ako sa na základe grafu vpravo dole mení racionalita aktéra. Rovnomerné rozdelenie (napríklad pri t=24) indikuje, že model si nie je celkom istý racionalitou aktéra a preto nedokáže ponúknuť spoľahlivé predpovede.

Vyššie som spomenul, že teleologická stratégia tvorí redukovanú verziu teórie mysle. V prebiehajúcom projekte Baker et al. (2011) modelujú teóriu mysle, takže sa máme na čo tešiť. Modelovanie kognitívnych fenoménov má aj zaujímavé aplikácie. Vskutku modeli podobné tomu od Baker et al. používajú informatici na inferovanie správania (napr. Verma a Rao, 2006). Tým vzniká bizarná situácia. Vedci namiesto toho, aby vymietli ľuďom iluzórne ciele z hláv, zabudujú tieto ilúzie ešte aj do umelých systémov. Pripomínam, že sa nejedná o žiadny kompromis v dôsledku nízkej výpočtovej sily počítačov. Intencionálna stratégia tvorí racionálne optimálnu metódu pre predpovedanie určitého druhu udalostí – a síce správania iných organizmov okolo nás.

Baker, C. L., Saxe, R., & Tenenbaum, J. B. (2009). Action understanding as inverse planning. Cognition.

Baker, C. L., Saxe, R. R., & Tenenbaum, J. B. (2011). Bayesian theory of mind: Modeling joint belief-desire attribution. In Proceedings of the thirty-second annual conference of the cognitive science society.

Dennett, D. C. (1989). The intentional stance. MIT press.

Gergely, G., & Csibra, G. (2003). Teleological reasoning in infancy: The naıve theory of rational action. Trends in cognitive sciences, 7(7), 287-292.

Verma, D., & Rao, R. (2006). Goal-based imitation as probabilistic
inference over graphical models. In Advances in neural information
processing systems (Vol. 18, pp. 1393–1400).