Knobeho efekt

Znova som raz pristihol filozofov ako balia vzduch do fliaš a predávajú ho ako výskum. Knobeov efekt má za čieľ ilustrovať, že aktérove ciele ovplyvňujú morálny úsudok pričom tradične sa predpokladá, že inferencia funguje len opačným smerom.

Demonštrácia Knobeho efektu funguje nasledovne:

The vice-president of a company went to the chairman of the board and said, “We are thinking of starting a new program. It will help us increase profits, but it will also harm the environment.” The chairman of the board answered, “I don’t care at all about harming the environment. I just want to make as much profit as I can. Let’s start the new program.”
They started the new program. Sure enough, the environment was harmed. (Knobe, 2010, s. 191)

V tomto prípade ľudia tvrdia, že riaditeľ úmyselne znečistil prostredie. Ak však zameníme v príklade vyššie “harm” za “help” ľudia odpovedajú, že riaditeľ nepomohol prostrediu úmyselne. Knobe tvrdí, že v tom prvom prípade je kritické, že správanie je považované za amorálne. Preto v prvom prípade je správanie považované za úmyselné zatiaľčo v druhom prípade je považované za neúmyselné.

Skúsme nasledujúci príklad.

Albert prišiel domov zo školy. Vytiahol zo skrine najväčšiu panvicu a ide sa na nej špúšťať na kopec za dom. Mama mu hovorí, ‘Albert nekĺzaj sa na panvici lebo ju doškrabeš.’ Albert hovorí že mu je jedno že panvicu doškrabe, hlavne že sa na nej posánkuje. Albert sa odišiel kĺzať na kopec za dom. A vskutku, panvica bola doškrabaná.

Otázka: doškrabal Albert panvicu úmyselne? Odpoveď: Áno

Príbeh pokračuje.

Barbora príde domov, vyberie zo skrine najväčšiu panvicu a ide sa na nej špúšťať na kopec za dom. Mama jej hovorí, ‘Barbora nekĺzaj sa na panvici lebo ju doškrabeš.’ Barbora hovorí že jej je to jedno že panvicu doškrabe, hlavne že sa na nej posánkuje. Barbora sa odišla kĺzať na kopec za dom. A vskutku, panvica bola doškrabaná.

Otázka: doškrabala Barbora panvicu úmyselne? Odpoveď: Nie. Prečo? Lebo panvicu doškrabal Albert už pred ňou. Barbora teda nedoškrabala panvicu a teda ju nedoškrabala úmyselne.

Pointa je v tom, že kauzálna štruktúra v Knobeovom prípade s “harm” je podobná Albertovmu prípadu zatiaľčo kauzálna štruktúra v prípade s “help” je podobná Barborinmu prípadu. Je tomu tak preto lebo a) prostredie je v dobrom stave, ktorý už nemožno vylepšiť avšak, ktorý možno zhoršiť, b) firma môže do veľkej miery zničiť prostredie (napr. BP sú v tom experti) avšak ťažko firma nejak radikálne prostrediu pomôže. Vskutku ak firmy a politici hovoria o tom, že chcú prostrediu pomôcť, tak sa hovorí o zamedzení emisii alebo inej redukcii už existujúcich (úmyselných) negatívnych vplyvov na prostredie. Ťažko v týchto prípadoch hovoriť o tom že dotyčný prostrediu pomohli, keďže iba redukovali svoj vplyv. Knobeho effekt nemá nič spoločné s úmyslami alebo s morálnosťou konania, ale je dôsledkou odlišnej kauzálnej štruktúry použitých príkladov.

Čo dodať na záver? Zabudnite na myšlienkové experimenty. X-phi, to je budúcnosť predávania vzduchu vo flašiach. X-phi je budúcnosť filozofie!

Knobe, J. (2010). Person as scientist, person as moralist. Behavioral and Brain Sciences, 33, 315–329.

Mozgostroje driemu ale nespia

Jednu užitočnú funkciu, ktorú podľa mňa Mozgostroje plnili, bol ich asertívny vzpor voči návalu filozofov, ktorí hrozili že prevalcujú a monopolizujú československú vedeckú blogosféru. Myslím, že vo viacerých príspevkoch sa mi podarilo zahnať tohoto zlého džina naspäť do fľaše. S oznámením hibernácie Mozgostrojov minulý týždeň sa samozrejme dalo čakať, že sa filozofi znova osmelia a zavelia do útoku. Rýchlosť s akou k tomu však došlo mi vyrazila dych. Ešte v ten istý deň, 6. novembra keď som publikoval oznámenie, filozofi spustili komunitný blog. Svoj útok na intuície laického čitateľa začali hŕstkou pseudoproblémov a filozofických hádaniek.

Mozgostroje driemu ale nespia. A ako aj v minulých príspevkoch tak aj v tomto vám ukážu, že problémy treba riešiť cez formalizáciu a matematickým výpočtom namiesto hmlistých myšlienkových experimentov a nespoľahlivých intuícii. Poďme sa teda pozrieť čo na nás filozofi vytiahli a ako matematická formalizácia hravo zmätie všetky ich pseudoproblémy zo stola.

Férové delenie

Zadanie k prvému problému si môžete prečítať tu. Východisková situácia je, že máme troch aktérov vydavateľstvo V, kupujúcich K a predávajúceho P. Títo si medzi seba rozdelili zisk 50000 káčeroviek nasledovne U(V)=250, U(K)=(250-100)x200=30000 a U(P)=20000-250. Následne potrebujeme definovať férovosť. Pre účely tohoto problému si vystačíme s definíciou, podľa ktorej je situácia férová ak je zisk rozdelený rovnomerne medzi aktérmi. Inak povedané hladáme riešenie pri ktorom je zisk U(V)=U(K)=U(P)=16666 kč. Prakticky to znamená, že každý kupujúci zaplatí vydavateľstvu pokutu (30000-16666)/200=67 kč nelegálny nákup. Predávajúci zaplatí vydavateľstvu pokutu 20000-250-16666=3084 kč za nelegálny predaj. Toto riešenie je férové. Pokuta pre predávajúceho sa zdá byť malá ale to len preto lebo exituje len jeden predávajúci. Môžeme si predstaviť opačný prípad keď každý kupujúci knihu raz predal. V tomto prípade každý zaplatí pokutu 125 kč za predaj a pokutu 125 kč za kúpu. Dokopy teda 250 kč čo je cena za ktorú si mohol knihu kúpiť u vydavateľa. To je fér.

Náhoda je zadarmo

Zadanie je tu. Ak je automat férový a teda pravdepodobnosť výhry je 0.5 tak platí že očakávaná dodatočná výhra je 0. Očakávaná výhra je nezávislá od výšky vkladu a teda aby bola situácia férová musí hráč splatiť len 1000 kč. Ak by bola očakávaná výhra 5000 kč pri vklade 1000 kč, tak by hráč musel zaplatiť 5000 kč. V podstate je úplne jedno koľko hráč naozaj vyhral, zaujíma nás len očakávaný zisk pri vklade 1000 kč. Ak by bola očakávaná výhra 10000 kč dotyčný by musel zaplatiť 10000 kč či už v skutočnosti vyhral 1000, 2000 alebo 50000 kč.

V skutočných kasínach je pravdepodobnosť výhry o trochu menšia ako 0.5 a u chronického gamblera môže ísť očakávaný zisk pri vklade 1000 kč aj do mínusu.  Inak povedané kasínam sa takéto “technické triky” v prípade chronických gamblerov môžu oplatiť. Vskutku ako Gelman píše tu, kasína rozdávajú kredity zdarma svojim “verným” zákazníkom. V takomto prípade by bolo férovým riešením keby kasíno vrátilo peniaze, ktoré hráč utratil dodatočne k vkladu 1000 kč (samozrejme za predpokladu, že hráč neutratil peniaze dobrovoľne).

Taxikár ako skutočná príčina

Tretí problém je tu. Formálne možno tento problém vyhodnotiť pomocou definície skutočnej príčinu ktorú Pearl(2009) ponúka v desiatej kapitole. Pre formálnu analýzu by sme museli vedieť čo sú bayesiánske siete a ako modelovať kauzalitu pomocou štrukturálnych rovníc. Keďže tento príspevok je určený filozofom musíme si vystačiť s jednoduchou intuitívnou formuláciou. Takže veľmi zjednodušene. Taxikár zodpovedá za straty do tej miery do akej je skutočnou príčinou týchto strát. Skutočná príčina kvantifikuje (pomocou pravdepodobnosti) nakoľko je taxikár schopný pri znalosti všeobecných zákonov fungovania sveta zmeniť svoje správanie (či sú mu tieto naozaj známe nehrá veľkú rolu). Napríklad taxikár nedokáže predpovedať, tobôž kauzálne ovplyvniť pád lietadla, teda nie je skutočnou príčinou toho, že cestujúci ostal nažive a nesmie z toho ani profitovať. Ak vezmeme zadanie úlohy striktne, tak taxikár je skutočnou príčinou toho, že cestujúci nestihol let a musí ho odškodniť. Výška odškodného závisí od toho nakoľko možno považovať, udalosť, že cestujúci majú kúpené lacnejšie letenky ako pri kúpe v deň odletu na letisku za všeobecne platný fakt. Ak tomu tak v zásade je, tak to musel predpokladať aj taxikár a na základe toho uspôsobiť svoje správanie. Ak tak nespravil musí zaplatiť 5000 kč.

Pearl, J. (2009). Causality: models, reasoning and inference (2nd ed.). Cambridge University Press. Cambridge, UK.

Rosenberg: Atheist’s Guide to Reality

Rosenbergovi vyšla minulý rok kniha určená pre širšiu verejnosť. Vydanie tejto knihy sprevádzali extatické reakcie na Massive Error a v ďalších kútoch českej filozofickej blogosféry. Samozrejme Mozgostroje nemôžu chýbať na mieste aby skontrolovali čo za neplechu to filozofi zasa napáchali. Ako predchádzajúce “recenzie” na Mozgostrojoch tento článok tvorí skôr diskusiu a polemiku a najviac informatívny bude pre ľudí ktorí knihu čítali.

Rosenbergovu knihu možno vnímať v kontraste k ostatnej ateistickej a naturalistickej literatúre ako je Dawkinsova God Delusion alebo Dennettova Darwins dangerous idea. Vskutku Rosenbergova AGR mi pripomenula Dennettovu DDI. Kniha má podobnú obsahovú stavbu. Rosenberg má však rýchlejší ťah na bránku a tak už po prvej tretine sme pri morálke teda tam DDI končí. Aj obsahovo možno AGR dobre kontrastovať s DDI, Dennett argumentoval pri odpovediach na večné otázky, že pohár je do polovice plný. Cieľe, plány, slobodná vôľa, ja – všetko existuje, akurát treba občas tieto veci na nerozoznanie predefinovať. Rosenberg argumentuje, že pohár je do polovice prázdny. Niektoré jeho definície sú tiež posunuté preč od bežného významu. Opačným smerom.

Namiesto hašterenia sa o definíciách a o tom či je pohár do polovice plný alebo prázdny, zaujímavejšie je pozrieť sa na Rosenbergove tézu z pohľadu racionálneho bayesiánskeho aktéra. Ak bude niekedy napísaný Matúšov návod na realitu tak na prvej strane bude varovanie, že všetky ontologické otázky treba vymeniť za otázky epistemologické. Ontologickými otázkami myslím otázky typu “Existuje X?” A ak áno “Čo je X?” Existuje boh? Existuje zmysel života a ak áno čo ním je? Má vesmír príčinu? Máme dušu? Máme slobodnú vôľu? Tieto otázku sú nesprávne formulované a vedú k irelevantným argumentom o tom či je pohár do polovice plný alebo prázdny. Treba ich vymeniť za epistemologické otázky “Akú pravdepodobnosť má racionálny aktér pri danom stave evidencie prisúdiť výroku X?”, kde výrok X môže byť kľudne aj výrok o existencii či neexistencii niečoho. Týmto sa podarí zamedziť neplodným diskusiám o poloplnosti/poloprázdnosti pohára, keďže pravdepodobnosť 0.5 je asi rovnako kontroverzná ako pravdepodobnosť 0.9 alebo 0.1. Pozrime sa či sa s týmto prístupom dostaneme ďalej ako Rosenberg, Dennett a ostatní.

AGR začína fyzikou, ktorá ostane Rosenbergovým ťažným argumentom po zvyšok knihy. Rosenberg tvrdí, že realitu tvoria fermióny a bozóny. Nič iné. Časticovou fyzikou som sa už na Mozgostrojoch zaoberal. V minulom článku sme aj videli, že fermióny a bozóny nie tak celkom existujú. Dané sú pozorovania zrážok častíc. Od nich k fermiónom a bozónom vedie inferenčný krok. Tento vyžaduje postulovanie určitých predpokladov a kritérii ako sú zachovanie vlastností, konzistentnosť alebo jednoduchosť. Bez týchto kritérii inferencia nie je možná. Bozóny a fermióny teda na nás z reality samy od seba len tak nevyskočia. Rosenberg krátko píše o validite inferencii vo fyzike: “We have the best of reasons to believe that the methods of physics—combining controlled experiment and careful observation with mainly mathematical requirements on the shape theories can take—are the right ones for acquiring all knowledge.” Ak myslí Rosenberg pod “mathematical requirements on the shape theories” epistemologické kritéria ako je jednoduchosť a konzistentnosť, tak je ten výraz trochu eufemizmus. Každopádne ak sú správnou cestou nadobúdania poznania, jednoduchosť ako argument môžeme použiť aj pri otázkach ohľadom cieľov, plánov a zmyslov v neskorších kapitolách, nie?

Validitu inferencie vo fyzike možno rozpitvať ďalej. Samotné poznatky ohladom zrážky častíc nie sú tvrdým faktom, ale tvoria ich dáta z viacerých experimentov, ktoré nemusia byť úplne konzistentné a treba ich štatisticky a inferenčne opracovať. Ďalej sa môžeme spýtať, prečo by sme mali akceptovať pozorovania z časticových detektorov. Rovnako dobre môžeme akceptovať pozorovania elementárnych častíc, ktoré vykonal Fero včera pod vplyvom psychofarmák. Treba si uvedomiť, že v tomto momente nemôžeme odmietnuť Ferove pozorovania ako halucinácie, keďže nemáme jasno ohľadom materialistickej fyziky na ktorej by sme potom argumentačne vybudovali ostatné vedy vrátane neurovedy, ktorá by vysvetlila Ferove pozorovania ako halucinácie. Neviem ako by tieto problémy riešil Rosenberg. Racionálny bayesiánsky aktér nemá s týmito otázkami problémy. Môže uplatniť nárok na konzistenciu a jednoduchosť popisu reality a uprednostniť materialistickú fyziku pred Ferovým výplodom.

Ďalší aspekt fyziky, ktorý Rosenberga zaujíma je entropia a druhý termodynamický zákon. Podľa Rosenberga tento je dôvodom asymetrie fyzikálneho času. K entropii sa ešte vrátim pri recenzii 12. a 13. kapitoly Jaynesovej knihy. V kontexte tohoto článku je však relevantnejšia Pearlova diskusia štatistického času. Z pohľadu kauzálnej inferencie platí pre časovú orientáciu nasledovné:

V prípade časovej postupnosti vieme, že budúce udalosti nemôžu mať vplyv na minulé udalosti. V tomto prípade sú všetky minulé udalosti potenciálnou príčinou pre všetky budúce udalosti. Pearlova definícia potenciálnej príčiny umožňuje formalizovať koncept štatistického času. Tento je určený kauzálnym zoradením premenných v grafickom modeli. Takýchto zoradení je v každom grafe viacej. Pearl vyjadril domnienku, že aspoň jeden zo štatistických časov bude zodpovedať tomu fyzikálnemu. Pearl však zároveň ukazuje že koncept času závisí od reprezentácie premenných a ku každej reprezentácii je možné nájsť reprezentáciu, v ktorej funguje kauzalita opačne – z budúcnosti do minulosti. Otázku definície času, tak možno zredukovať na otázku definície problému.

To znamená aj že asymetriu času nemožno zdôvodniť 2. termodynamickým zákonom a Pearl zdôrazňuje “consistent agreement between physical and statistical times is a by product of the human choice of linguistic primitives and not a feature of physical reality.” Racionálny bayesián však znovu nemá problém. Otázku správnych lingvistických jednotiek – t.j. správnej reprezentácie problému možno zahrnúť do inferencie ako neznámy parameter a následne určiť orientáciu štatistického času a pýtať sa či je konzistentný s fyzikálnym časom. V niektorých prípadoch môže štatistický čas bežať opačným smerom ako ten fyzikálny.

Je koncepcia štatistického času relevantná pre Rosenbergovu diskusiu? Rosenberg sám poznamenáva, že 2. termodynamický zákon nemusí dočasne platiť v určitých výsekoch reality – napríklad v tých kde sa vyskytujú biologické organizmy. 2. termodynamický zákon platí z pohľadu celého uzatvoreného vesmíru. Podobne, ak je stav každej častice známy tak nemá zmysel rozmýšľať nad kauzalitou. Každý minulý a budúci stav je jednoznačne daný znalosťou toho súčasného. Ak však prejdeme od znalosti celého vesmíru k analýze jeho určitého výseku – a toto je scenár ktorý je relevantný pre ľudí, scientistov a vedcov, tak je kauzálna analýza dôležitým nástrojom pre extrahovanie pravidelnosti a vzorcov z pozorovaní. Kauzálna analýza zároveň poskytuje to čomu sa Rosenberg chce vyvarovať – príbehy. Najdôležitejšou súčasťou kauzálnych vedomostí je znalosť výsledku manipulácii na fungovanie systému. Kauzálne vedomosti tak možno sformulovať ako príbehy typu “ak spravíš X tak sa stane Y”. Rosenberg sám používa tieto kauzálne príbehy, keď vysvetluje entropiu (“ak zatlačíš hlavu pumpičky pri fúkaní bicykla, stúpne entropia častíc vzduchu vnútri pumpy”). Rosenberg zároveň poznamenáva, že ide len o didaktické pomôcky, ktoré musíme používať aby sme ukojili náš zvrátene iracionálny mozog v snahe vôbec sprostredkovať informáciu. Vďaka Pearlovi a jeho kolegom informatikom dnes vieme, že inferencia kauzality nie je výplodom nejakého mozgu, ale optimálnou stratégiou pre racionálneho aktéra ako extrahovať a uložiť informácie o pravidelnostiach v okolitom prostredí. To platí aj o inferencii vo fyzike. Fyzikálne zákony sú nezávislé od kauzálnej interpretácie len v prípade znalosti stavu celého vesmíru. V prípade, že nás zaujíma fungovanie výseku vesmíru, a toto je scenár ktorý zaujíma aj fyzikov v 99.9% prípadov, nadobúdajú fyzikálne zákony dôležitú kauzálny interpretáciu. Na ilustráciu znova poslúži Ohmov zákon:

Ohmov zákon: I=V/R, kde I je prúd, V napätie a R vyjadruje odpor vodiča. Ohmov zákon možno interpretovať kauzálne – pridaním napätia spôsobíme vyšší prietok elektrického prúdu vodičom. V tomto zmysle možno 1/R interpretovať ako konštantný koeficient . Z pohľadu fyziky nie je problém prehodiť členy z ľavej na pravú stranu a naopak. Napríklad môžeme získať R= V/I. Z pohľadu kauzálnej interpretácie je však takáto úprava neprípustná. Rovnica by vyjadrovala, že pridaním prúdu (pri konštantnom napätí) môžeme zmeniť odpor vodiča, čo je zjavne nezmysel. Čiže aj keď fyzici manipulujú rovnice, nie všetky výsledné formulácie sú si rovné. Nie všetky sú kauzálne interpretovateľné.

Na príklade vidieť, že kauzálna interpretácia je kľúčovou súčasťou Ohmovho zákona nie nejakým dôsledkom laikovej neschopnosti, zákon správne interpretovať. Tým pádom nemôžeme súhlasiť s Rosenbergovým tvrdením, že jediným zdrojom asymetrie v fyzike je termodynamický zákon, ktorý ukazuje len jedným smerom. Tento záver je prípustný len pre pozorovateľa ktorý pozná detailný stav celého vesmíru. Pre pozorovateľa s obmedzenými znalosťami je otázka orientácie štatistického času súčasťou inferencie. Táto zároveň určí asymetriu získaných zákonov a dodá im správnu kauzálnu interpretáciu ktorú možno vyjadriť vo forme príbehov o manipulácii príčin vedúcich k určitým výsledkom.

Rosenbergova interpretácia fyzika hrá len úlohu prostredníka, ktorý mu umožní odmietnúť existenciu cieľov a teleologických príčin v biológii a psychológii. Podobne ako sme rozobrali fyziku z pohľadu racionálneho aktéra môžeme rozobrať aj Rosenbergovu diskusiu sémantiky, plánov, cieľov alebo intencionality. Sémantickú analýzu možno vnímať ako rozšírenie tej kauzálnej. V tomto prípade ešte formalizmy nie sú tak ďaleko ako v prípade kauzality, ale Bischofova sémantika nám postačí na to aby sme lokalizovali Rosenbergove argumentačné chyby. Rosenberg argumentuje tým, že myšlienky nemôžu byť o niečom, keďže každý význam potrebuje niekoho kto by ho interpretoval: “The point is that a red octagon or any other clump of matter—ink marks on paper or pixels on a screen—is about something else only because it has been interpreted by someone to be about it.” Červený osemuholník je dopravná značka s významom zastaviť preto, lebo ju ľudia takto interpretujú. Čo však v prípade človeka ktorý myslí na Paríž? Sú jeho myšlienky o Paríži? Môžu byť signály v jeho mozgu o Paríži? Môžu byť vôbec signály v mozgu o niečom?

If the Paris neurons are about Paris the same way a red octagon is about stopping, then there has to be something in the brain that interprets the Paris neurons as being about Paris. After all, that’s how the stop sign is about stopping. It gets interpreted by us in a certain way. The difference is that in the case of the Paris neurons, the interpreter can only be another part of the brain.

Tým sme si však situáciu iba skomplikovali. “We started out trying to explain one case of neurons being about something—Paris. Now we have two cases of neurons being about things—about Paris and about the Paris neurons.” Z pohľadu Bischofovej sémantiky však žiadny problém nevzniká. V prípade neurónov na ich interpretáciu dohliada evolúcia. Neuróny v mozgu opice, ktoré nie sú o nebezpečí, keď opica stretne hada – sú mŕtve neuróny. V mozgu teda môžu byť neuróny ktoré interpretujú aktivitu neurónov v iných oblastiach bez toho aby musela existovať nejaká iná oblasť ktorá by ich interpretačnú aktivitu interpretovala. Finálny význam získavajú signály neurónov prostredníctvom správania ktoré produkujú a ktoré prirodzená selekcia posudzuje. No počkať, evolúcia a význam? Rosenberg hneď ťahá svoj argumentum ad bosonum:

Physics has ruled out the existence of clumps of matter of the required sort. There are just fermions and bosons and combinations of them. None of that stuff is just, all by itself, about any other stuff. There is nothing in the whole universe—including, of course, all the neurons in your brain—that just by its nature or composition can do this job of being about some other clump of matter.

To je samozrejme správne pozorovanie, avšak platí znova len v prípade pozorovateľa, ktorý pozná stav všetkých častíc v celom vesmíre. Ak pracujeme s výsekmi vesmíru, tak sémantika hrá dôležitú inferenčnú úlohu. V predchádzajúcom príspevku som spomínal systém, ktorý vyvinuli Nguyen et al. (2005). Odstavec sa oplatí odcitovať v plnej dĺžke:

Nguyen (Nguyen et al. 2005) s kolegami sa snažili naučiť stroj predpovedať správanie ľudí v kuchyni. Vstupnými dátami pre ich stroj bola pozícia na ploche kuchyne rozdelenej do 6×4 buniek v závislosti od času. Systém sa naučil zhrnúť postupnosť určitých pozícii do opakujúcich sa trajektórii. Napr. pohyb od chladničky ku stolu, alebo pohyb od dverí ku chladničke. Na vyššej úrovni sa naučil systém zhrnúť trajektórie do vzorcov správania, napr. naobedovať sa alebo dať si snack. Stroj hierarchicky postuloval vyššie entity, ktoré mu pomohli zhrnúť, popísať a predpovedať následnosť pozorovaných fenoménov (pozície osoby). Stroj by sa teoreticky zaobišiel aj bez týchto vyšších teoretických entít. Vskutku každý hierarchický model je možné preložiť do komplexného jednoduchého plochého modelu. Parametre tohoto modelu je však ťažšie naučiť sa ako pri tom hierarchickom. Sémantika nám umožňuje zhrnúť správanie a obsah signálov pomocou komplexnejších entít – ich významov. V zásade by sme mohli popísať svet aj pomocou fermiónov a bozónov. Je však jednoduchšie a rýchlejšie popísať svet ak postulujeme ďalšie entity, ktoré popisujú vlastnosti na rozličných úrovniach. Takto je to sa atómami, molekulami, bunkami, organizmami. Sémantika umožňuje vytvárať podobné koncepty, akurát jej základnou črtou je, že elementárne časti, ktoré zahŕňa a popisuje sa nerozprestierajú na priestorovej osy (ako atómy v rámci jednej molekuly), ale na tej časovej (predchádzajúce správanie, budúce správanie).

Kritickým pozorovaním pre nás je, že uvedený hierarchický model sa učí lepšie a rýchlejšie ako ekvivalentný plochý model. Možno namietnuť, že túto preferenciu pre jednoduchší hierarchický model vytvárajú len komputačné nároky, ktoré sú však z pohľadu správneho popisu vesmíru irelevantné. Ak nevieme presne nasimulovať počasie, to neznamená, že počasie je nedeterministická záhada a prútikarstvo je efektívna metóda. Sémantika je však viac než len jednoduchá a rýchla inferencia. Nguyen et al. (2005) ukázali že jednoduchší model lepšie predpovedá stavy systému než plochý komplexnejší model. Toto pozorovanie platí všeobecnejšie. Model na úrovni pozorovaných jednotiek – na úrovni bozónov a fermiónov, na úrovni vzruchujúcich neurónov, na úrovni správania môže poskytnúť horšie predpovede ako model postulujúci ciele. Je to  dané tým, že jednoduchší model bude mať v zásade silnejší bias ako ten komplexný. Bias je v rámci štatistiky technický termín diskutovaný v kontraste so šumom v dátach (bias-variance tradeoff). Modely so silnejším biasom budú schopné zachytiť a modelovať menej variability v doterajších pozorovaniach. Zároveň však poskytnú lepšie zovšeobecnenie pre budúce prípady ako model, ktorý zachytil viacej variability v tréningovej vzorke avšak vystavil sa nebezpečenstvu Overfitting fenoménu. Samozrejme, zároveň musí bias korešpondovať so vzormi správania vyskytujúcimi sa v prírode. Teleologický bias je zrejme optimálny pre popis biologických systémov. Všeobecný dôkaz tohoto tvrdenia zatiaľ nemáme avšak práce informatikov ako u Nguyen et al. (2005) alebo rozšírenosť komputačných modelov v neurovedách a kognitívnych vedách postulúcich vyššie sémantické jednotky ukazujú týmto smerom.

Facit je, že teleologický bias podobne ako kauzálna analýza umožňuje vyextrahovať z pozorovaní správania konštantné vzorce, ktoré lepšie umožnia predpovedať správanie. Tento bias lepšie umožňuje oddeliť šum (zakopnutie aktéra pri pohybe k cieľu) od relevantných údajov (zmena smeru pohybu k inému cieľu ) ako by to dokázal komplexný model manimalizujúci odchýlku medzi predpoveďami a  pozorovaniam na úrovni bozónov/neurónov/správania. Podobne ako kauzálna analýza aj sémantická analýza funguje na výsekoch vesmíru a v rámci celého vesmíru nemá zmysel. Z tohoto dôvodu musíme pri výsekoch vesmíru uvažovať nad šumom. Šum nám ako koncept umožňuje zachytiť vonkajšie vplyvy na správanie systému, ktoré nechceme a väčšinou ani nemôžeme modelovať. V rámci znalosti stavu celého vesmíru žiadny šum neexistuje.

Nezávisle od vyššie uvedeného argumentu môžeme použiť aj samotnú jednoduchosť ako argument pre použitie teleologickej analýzy. Treba si uvedomiť, že Rosenberg musí súhlasiť s jednoduchosťou ako relevantným argumentom ak chce zdôvodniť existenciu bozónov. V časticovej fyzike sú dáta dané zopár tisíckami pozorovaní zrážok a rozpadu atómov. Ak vyžadujeme zachovanie určitých kvantít v zrážkach možno tieto redukovať na ca. 210 elementárnych zrážok. Pomocou ďalších kritérii uprednostňujúcich jednoduchosť sa dopracujeme k ca. 170 časticiam a k ich rozdeleniu na bozóny a fermióny. Rosenberg má v zásade dve možnosti. Odmietnuť jednoduchosť ako relevantné kritérium. Tým pádom musí Rosenberg argumentovať proti existencii bozónov a fermiónov a napomenúť fyzikov aby nesklesli k zvodom svojho iracionálneho mozgu vidieť vzory a entity v zrážkach atómov. Namiesto toho nech pri modelovaní pekne pracujú s tabuľkou par tisíc zrážok. Fyzikalizmus možno aplikovať ad absurdum a pýtať sa prečo by práve pozorovania zrážok vo fyzike mali tvoriť relevantné informácie o fungovaní univerza na mikro úrovni. Pointa je v tom, že bez nejakého konceptu jednoduchosti sa indukcia nemôže odraziť od zeme a takýto dôsledne aplikovaný fyzikalizmus kolabuje do agnostizmu. Ak naopak Rosenberg akceptuje jednoduchosť ako relevantný princíp, otvára nám cestu ako prepašovať do vedy teleologickú analýzu. V porovnaní s redukciou správania ziliónov bozónov, biliónov neurónov alebo milión možných vzorcov správania na zopár túžieb a cieľov aktéra vyzerá redukcia tisíciek zrážok na dve stovky častíc ako totálny inferenčný luxus.

Rosenberg využíva svoje závery o neexistencii cieľov, plánov a intencionality, aby ukázal, že ľudské myslenie, ktoré s týmito konceptami manipuluje je iracionálne a pomýlené. Vyššie sme videli, že kauzálna a teleologická analýza je racionálna a v tomto zmysle aj veridikálna. To samozrejme nemusí ešte platiť o kauzálnych a teleologických analýzach, ktoré ľudia rutinne robia. Formalizácia kauzality a sémantiky okrem toho, že vedcom umožní spoľahlivo pripisovať signálom ich kauzálny/teleologický význam, umožní zistiť nakoľko inferencie u ľudí zodpovedajú vedeckým štandardom.  Toto je otázka na kognitívne vedy. Súčasná evidencia ukazuje, že inferencie kauzality (Gopnik et al., 2004; Griffiths & Tenenbaum, 2005) a intencionality (Baker et al., 2009; Baker et al., 2011) u ľudí sú veľmi podobné bayesiánskym racionálnym modelom. Podobný výskumný program možno rozvinúť okolo ďalších konceptov, ktoré podľa Rosenberga neexistujú ako je koncept ja, reflektívne myslenie alebo plánovanie. Tu je však výskum zatiaľ len v začiatkoch.

Momentálne to teda vyzerá tak, že žiadne ilúzie sa nekonajú. Práve naopak vedci sa snažia zistiť ako ľudské “ilúzie” intencionality a kauzality formalizovať a aby ich mohli naprogramovať u robotov.  Ľudské vnímanie kauzality a intencionality môže samozrejme zlyhať. Tieto zlyhania môžu mať viaceré zdroje. V zásade každý probabilistický inferenčný model v určitom momente poskytne nesprávne predpovede. To môže byť prípad listu točiaceho sa vo vetre po nepravdepodobnej trajektórii tak že ho nesprávne vnímame ako aktéra. Ďalším zdrojom môže byť prirodzený výskyt komplexné dynamických fenoménov, ktorých správanie nie je možné zredukovať pomocou kauzálneho alebo teleologického modelu. Sem možno zaradiť predpovede počasia u ľudí, ktorí nemajú k dispozícii modernú meteorológiu. Zatiaľčo počasie prestalo byť v súčasnosti vďaka meteorológii oblasťou kde nesprávne kauzálne a intencionálne myslenie prekvitá, objavili sa iné systémy s ktorými si ľudia vedia ťažko poradiť. Sem patrí ekonómia, politika alebo dejiny všeobecne. Rosenberg okrem toho, že vyznačuje zlyhania ľudí je pesimistický ohľadom vedeckého pokroku v týchto oblastiach. Táto pozícia je ďalším z tých prípadov, kde Rosenberg vykresľuje poloprázdny pohár. Rosenberg argumentuje, že dejiny sa nesú v znamení kultúrnej evolúcie, ktorú vníma ako darwinistický proces. Podľa Rosenberga však jeho veľkú časť tvoria “preteky v zbrojení”. Jednou vlastnosťou týchto pretekov je že zvýrazňujú a znásobujú vplyv mutácii. Keďže mutácie sú náhodné a kultúrna evolúcia je veľmi rýchla a rapídna jej dejiny budu tvoriť mnohé krátke explózie pretekov v zbrojení. Čoho sa však bude týkať ďalší pretek nie je možné zistiť, keďže mutácie sú náhodné a tým pádom vývoj dejín nemožno dlhodobo predpovedať a nemá zmysel ani účel. Myslím, že v tomto prípade nám Rosenberg znovu ukázal len polovicu pohára. Preteky v zbrojení tvorí explodujúca spätná väzba a je typická pre systém parazita a hosťa. Príroda však pozná aj konzervujúce spätné väzby. Tieto sú typické pri synergické vzťahy, napr. medzi človekom a baktériami v jeho čreve. Tieto systémy utlmujú náhodné vplyvy mutácii. A nielen mutácii. Synergické systémy utlmujú vplyv náhodných vonkajších javov na správanie systému. Synergické systémy môžeme hľadať aj v dejinách a umožnia nám predpovede v dlhšom horizonte. Synergickým efektom môže byť napríklad globalizácia a medzinárodná ekonomická závislosť, ktorá robí perspektívu vojny v Európe nepravdepodobnou.

Môžeme zhrnúť, že Rosenberg sa ohľadom iluzórnosti všetkej kauzality, cieľov a účelov mýli. Bolo by ľahké skočiť k záveru, že kauzalita, ciele a účely existujú ako fenomény reality. Toto je koniec-koncov pozícia ktorú zastáva väčšina naturalistov. Ako som varoval na začiatku, musíme sa ubrániť ontologickej formulácii otázok a odpovedí. Snáď najbližšie sa k tomu dostal asi Dennett, keď zvažoval v kontexte intencionality nasledujúci myšlienkový experiment:

Suppose some beings of vastly superior intelligence—from Mars, let us say—were to descend upon us, and suppose that we were to them as simple thermostats are to clever engineers. Suppose, that is, that they did not need the intentional stance—or even the design stance—to predict our behavior in all its detail. They can be supposed to be Laplacean super-physicists, capable of comprehending the activity on Wall Street, for instance, at the microphysical level. Where we see brokers and buildings and sell orders and bids, they see vast congeries of subatomic particles milling about—and they are such good physicists that they can predict days in advance what ink marks will appear each day on the paper tape labeled “Closing Dow Jones Industrial Average.” They can predict the individual behaviors of all the various moving bodies they observe without ever treating any of them as intentional systems. Would we be right then to say that from their point of view we really were not believers at all (any more than a simple thermostat is)? (Dennet, 1989; s. 25)

A Dennett (ibid.) dospieva k názoru, že: “Our imagined Martians might be able to predict the future of the human race by Laplacean methods, but if they did not also see us as intentional systems, they would be missing something perfectly objective: the patterns in human behavior that are describable from the intentional stance, and only from that stance, and that support generalizations and predictions.”  Toto by bola pekná štartovacia pozícia pre ujasnenie si toho čím tieto vzorce správania sú a aké zovšeobecnenia a predpovede umožňujú. Týmto by sa diskusia posunula k zaujímavým a relevantným epistemologickým otázka. Napríklad je možné že Rosenberg by vedel príjsť s argumentom pre koncept jednoduchosti, ktorý by bol použiteľný vo fyzike avšak neumožnil by postulovať príčiny, cieľe, účely a plány. Namiesto toho skĺzava diskusiu, vrátane tej Dennettovej do hašterenia nakoľko sú dodatočné fakty sprostredkované teleologickou analýzou objektívne, skutočné, kde sú fyzicky lokalizovateľné… Treba dodať, že tieto diskusie nie sú dôsledkom neadekvátnosti filozofických metód. Podobné diskusie nájdeme aj vo fyzike v kontexte emergencie. Sú emergujúce javy viac než len suma častí? Ktoré aspekty emergentných fenoménov tvoria tie dodatočné javy? Kedy a kde v priebehu sebaorganizácie mikročastíc na makrosystém tieto dodatočné fenomény emergujú? Prínosom Rosenbergovej pozície je že dospieva k diametrálne odlišným postrehom a väčšina jeho kolegov, ktorí si tieto otázky kladú. Myslím, že Rosenbergova AGR je tak výbornou ilustráciou nezmyselnosti ontologickej formulácie otázok. Ak možno z podobných východzích naturalistických pozícii dospieť k diametrálne odlišným záverom ohľadom určitej otázky tak je táto otázka zle formulovaná. Jej riešenie zrejme zahŕňa ďalšie implicitné, skryté predpoklady. Tieto predpoklady sú epistemologického charakteru a bez ich ujasnenia sa diskusia nepohne vpred.

Osobne veľmi pochybujem, že k tomuto ujasneniu dôjde. Naturalistická filozofia bude namiesto toho ešte horlivejšie pokračovať v produkovaní neplodných diskusii o nesprávne formulovaných večných otázkach a ich vzťahu k vede. Obzvlášť teraz keď Rosenberg prihodil svoju scientistickú rozbušku k dielu. Prvé plody možno vidieť tu alebo tu. My ostatní môžeme na najbližších 10 rokov vyškrtnúť naturalistickú filozofiu z programu a uprieť zrak na informatiku, neurovedy a kognitívne vedy, kde správne formulované epistemologické otázky nachádzajú odpovede. Naturalistických filozofov zrejme po určitom čase irelevantné a nikam nevedúce argumentovanie unudí a ich prístup prejde ďalšou fázou naturalizácie, keď filozofi zbadajú, že informatika a kognitívne vedy ich otázky vyriešili alebo preukázali ich nezmyselnosť.

Toto by boli pekné záverečné slová, toto ale ešte nie je koniec. Rosenbergova kniha nekončí pri faktickom konštatovaní neexistencie príčin a účelov. Rosenbergova kniha je myslená aj ako návod pre ateistov ako reflektovať svoj každodenný život. Rosenberg ukazuje, že väčšina faktických údajov sú z pohľadu správania irelevantné, keďže správanie je väčšinou determinované všetkým iným len nie vedomou reflexiou ako nám naša intuícia hovorí. Naopak vedomá reflexia len usporiada naše konanie do konzistentného príbehu. Nekonzistentné správanie je zabudnuté a v pamäti nahradené tým konzistentným. Tento obraz fungovania ľudskej reflexie nie je nový a čitateľom sledujúcim výskum v sociálnej psychológii by mal byť dobre známy. Tento obraz môžeme domyslieť do dôsledkov. Rosenberg tak spravil pre prípad morálneho rozhodovania a od nihilizmu (žiadne príčiny, účely = žiadne zdôvodnenie morálky nie je možné, anything goes) k milému nihilizmus (zdôvodnenie a reflexia morálky je pre správanie irelevantná, správanie je dané kmeňovou morálkou, ktorá bola naprogramovaná evolúciou). Myslím, že môžeme zájsť ešte ďalej a dospieť k milému scientizmu a milému naturalizmu. Nielenže odpovede na otázku morálky nemajú reálny vplyv na správanie ľudí ale ani odpovede na všetky večné otázky nemajú reálny vplyv na správanie ľudí. Naturalisti by mohli namietnuť, že aj keď z pohľadu vedy sú večné otázky neproduktívne sformulované, tieto formulácie zaujímajú bežných ľudí pri rozhodnutiach a preto ich treba vyriešiť. Ak však odpovede na večné otázky nemajú na správanie vplyv, aké sú reálne ciele Rosenbergovho scientizmu, naturalistickej filozofie a naturalizmu všeobecne? Ich diskusie sú irelevantné pre vedu, lebo si nekladú správne otázky. Ich diskusie sú irelevantné pre správanie ľudí, lebo ho nemajú ako ovplyvniť. Z naturalistickej filozofie tak po vzore teológie ostáva intelektuálna zábavka pre skupinku akademikov a zopár vzdelaných connoisseurov z radov laickej verejnosti. Toto je skutočný koniec!

Literatúra

Baker, C. L., Saxe, R., & Tenenbaum, J. B. (2009). Action understanding as inverse planning. Cognition 113.3: 329-349.

Baker, C. L., Saxe, R. R., & Tenenbaum, J. B. (2011). Bayesian theory of mind: Modeling joint belief-desire attribution. In Proceedings of the thirty-second annual conference of the cognitive science society.

Dennett, D. C. (1989). The intentional stance. MIT press.

Dennett, D. C. (1996). Darwin’s Dangerous Idea: Evolution and the Meanins of Life. Simon and Schuster.

Gopnik, A., Glymour, C., Sobel, D. M., Schulz, L. E., Kushnir, T., & Danks, D. (2004). A theory of causal learning in children: Causal maps and Bayes nets.

Griffiths, T. L., & Tenenbaum, J. B. (2005). Structure and strength in causal induction. Cognitive psychology, 51(4), 334-384.

Nguyen, D. Phung, S. Venkatesh, and H. Bui (2005), Learning and detecting activities from movement trajectories using the hierarchical hidden Markov models, CVPR.

Rosenberg, A. (2011). The Atheist’s Guide to Reality: Enjoying Life Without Illusions. WW Norton & Company.

Keď filozofom domácu úlohu zjedol pes

Už dávno som na Mozgostrojoch nenadával na filozofiu a myslím, že je na čase túto tradíciu, ktorá veselo sprevádzala Mozgostroje v začiatkoch obnoviť. Za ten rok som prešiel dve monografie, ktoré výrazne ovplyvnili moje vedecké zmýšľanie. To sú Jaynesova Probability Theory a Pearlova Causality. Obidve knihy vychádzajú zo snahy ponúknuť všeobecnú jednotnú teóriu – teóriu indukcie u Jaynesa a teóriu kauzality u Pearla. Takáto snaha mi vždy imponovala. V dobe rastúcej vedeckej špecializácie do podoborov podoborov sú snahy o zjednocovanie veľmi dôležité. Umožňujú zabrániť tomu aby každy podobor musel vynájsť koleso odznova, čo môže trvať desaťročia.

V zmysle, že filozofia je matkou vied a metavedou by úlohu zjednocovania mala hrať práve ona. Vskutku mnohí filozofi sa zaoberajú témami ako indukcia a kauzalita. Ak sa však pozrieme na výsledky filozofickej práce nájdeme presne to čomu by malo zjednocovanie zamedziť. Dochádza k propagácii nových ad-hoc riešení, ktoré plátajú dieru v záplate – v predchádzajúcej ad-hoc teórii, ďalšou záplatou. Často už takáto nová záplata existuje v nejakom inom obore a dochádza k situácii keď filozofi objavujú koleso od znova. Nie je ťažké vidieť, kde je problém. Pre náčrt zjednotenej teórie nemajú filozofi potrebné nástroje. Chýbajú im matematické formalizmy. Nás vedcov (na rozdiel napr. od inžinierov) nezaujíma či nejaké riešenie pasuje na nejaký čiastkový problém. Chceme ukázať, že určitý postup rieši všetky problémy určitej pokiaľ možno širokej množiny. Takto funguje Jaynesov kalkulus pravdepodobnosti a Pearlov kalkulus kauzality. Kalkulus poskytuje nekonečnú množinu výrokov určitého typu a ukazuje ako všetky tieto výroky vyhodnotiť. Kalkulus je v tomto zmysle jazykom vedy a mal by byť cieľom meta-vedeckého snaženia.

Zlyhanie filozofie je trojité. Po prvé nerieši problémy, ktoré by mala. Tieto ostávajú nevyriešené, keďže fyzici a matematici často nemajú záujem ani čas na výlety naprieč vedeckými obormi. Po druhé filozofia propaguje vlastné ad-hoc záplaty a tým pridáva svoj podiel ku kakofónii záplat naprieč vednými obormi. Po tretie, filozofia ospravedlňuje a dáva kredit záplatárskemu prístupu v očiach iných vedných oborov. Vskutku filozofovanie a metareflexia býva často identifikovaná s produkciou nesystematických ad-hoc riešení. Nasleduje diskusia týchto troch bodov.

Nie je mi známa filozofická práca, ktorá by ponúkla systematické jednotné riešenie po vzore Jaynesovho alebo Pearlovho kalkulu. (Jediné mne známe priblíženie by mohol tvoriť najnovší výskum Kevina Kellyho.) Čo je horšie takéto riešenia nie sú cieľom snaženia a ešte horšie ak aj existujú sú ignorované. Smutným dokladom posledného bodu sú diskusie práce filozofov k teórii pravdepodobnosti v Jaynesovej knihe. Napríklad v piatej kapitole píše Jaynes o Hempelovom paradoxe a Hempelovom odmietnutí riešenia, ktoré poskytol I.J. Good. Ad-hoc záplaty nájdeme neskôr v knihe aj v Carnapovej intuitívnej logike. Môžeme sa preniesť do súčasnosti. Obhajobu ad-hoc postupu môžeme nájsť napríklad u Dennetta. Jeho pumpy na intuíciu sú typickým nástrojom na generovanie ad-hoc riešení. Umožňujú rozpitvať zopár obmedzených problémov. Myšlienkové experimenty vo všeobecnosti vám pomôžu nanajvýš nájsť exotické prípady, v ktorých nejaká metóda zlyháva. Zovšeobecnenie nejakého riešenia neumožnia. To je dané tým že množina všetkých problémov je moc veľká poprípade nekonečná a naša predstavivosť si s týmito množinami neporadí. Na to musíme prejsť k formalizmom. Podobne môžem zhodnotiť prínos ostatných filozofov, ktorých diela sú mi známe. Chemero kritizuje predchádzajúce teórie prístupností avšak sám žiadne zásadné riešenie neponúka. Richardson kritizuje evolučnú psychológiu, náčrt programu pre výskum mysle nie je ani jeho cieľom. A tak môžem pokračovať cez Gilberta, Bechtela k Thaggardovi.

Žiaľ práca filozofov pridáva ad-hoc tvorbe na váženosti a serióznosti, takže výskumníci z iných odborov sú viac ochotní oddávať sa tejto tvorbe. Krátky príklad. Paul Meehl by mal byť známou postavou pre čitateľov Kahnemanovej poslednej knihy. Meehl bol všestranným bádateľom a okrem psychológie, medicíny, genetiky a práva sa zaoberal aj filozofiou. Meehl (1997) bol fanúšikom Popperovho falzifikacionizmu. Zároveň však akceptoval, že psychológia nedosiahne na štandard silného falzifikacionizmu používané vo fyzike. Psychologické teórie neposkytujú presné predpovede. Preto aj v prípadoch, keď sa predpovede nenaplnia úplne presne ale len čiastočne, teóriu predsa len akceptujeme. Zároveň pri testovaní teórii musíme postulovať tzv. vedľajšie predpoklady (napr. probanti sú motivovaní odpovedať pravdivo). Ak však výsledky nepotvrdili teóriu, môže sa tak stať lebo vedľajšie predpoklady neboli naplnené, a pri tom samotná teória je platí. Meehl preto navrhol tzv. index koroborácie: C= (1-D/S)(1-I/S), kde I je šírka intervalu hodnôt predpovedaných teóriou pre určitý pozorovateľný parameter, S je interval všetkých hodnôt, ktoré môže parameter nadobudnúť, D je rozdiel medzi predpovedanou a skutočnou hodnotou. Prvý člen vyjadruje Meehlovu intuíciu že malá odchýlka dát k pozorovaniam potvrdzuje teóriu. Druhý multiplikatívny člen vyjadruje intuíciu, že teória ktorej predpovede sú presné uprednostníme pred teóriami ktorých predpovede sú všeobecné. C je teda index s hodnotami od 0 do 1, kde 1 znamená silnú koroboráciu.Ako príklad uvádza Meehl genetickú teóriu ktorý predpodvedá dedičnosť v intervale 0.3 až 0.4 (percent párov identických dvoj, ktoré vykazujú nejaký fenotyp). Pritom sú možné hodnoty 0 až 0.5 a pozorovali sme hodnotu 0.28. Platí C = (1-(0.4-0.3)/0.5)(1-(0.3-0.28)/0.5) = 0.77.

Čitatelia tohoto blogu by mali v Meehlovom indexe hneď uviedieť Bayesovu vetu. Meehlov index nie je nič iné ako bayesiánska metóda odhadu parametrov. (1-I/S) je apriori pravdepodobnosť a (1-D/S) je vierohodnosť dát. Ak zoberieme Meehlov vzorec všeobecnejšie, tak Meehl znovuobjavil bayesiánske testovanie hypotéz – C = p(H|D) \propto p(D|H)p(H). Tento príklad má všetky črty ad-hoc práce. Systematické riešenie (pomocou teórie pravdepodobnosti a štatistiky) je odmietnuté. Namiesto toho akceptujeme posledný korpus ad-hoc záplat (Popperov falzifikacionizmus) a ak objavíme ďalšiu dieru (silný falzifikacionizmus nie je aplikovateľný na výskum v sociálnych vedách), tak vyrobíme ďalšiu ad-hoc záplatu (Meehlov index koroborácie). Vo väčšine prípadov sa ad-hoc záplatári okľukou dopracujú k tomu istému výsledku aký poskytuje systematické riešenie. Okrem strateného času z dôvodu okľuky, toto riešenie nie je systematické a v budúcnosti sa objavia ďalšie problémy, ďalšie diery a ďalšie záplaty.

V tomto príklade dobre vidieť rolu, ktorú hrá filozofia v propagácii ad-hoc riešení. Filozofia ospravedlňuje ad-hoc záplatárstvo a dáva mu akademický kredit. Hlavným argumentom Meehlovho článku bolo, že problémy testovaním nulových hypotéz (NHST) nie sú štatistického ale filozofického charakteru. Následne treba konfrontovať filozofickú literatúru a nájsť filozofické riešenie. Paradoxne Meehlovo “filozofické riešenie” je dávno známe v Bayesiánskej štatistike. Jedinou “pridanou hodnotou” filozofického prístupu je, že je to ad-hoc záplata.

Nakoniec chcem dodať, že ad-hoc teoretizovanie samo o sebe nemusí byť zlé. Môže pomôcť nájsť štrbiny v existujúcich teóriách. Ako som však na začiatku spomenul v prostredí exponenciálne rastúcej špecializácie sú to práve zjednocovacie snahy ktoré sú nutné. Na poli psychológie môžem uviesť hneď niekoľko prípadov, kde takéto snahy chýbajú.

1. Psychológovia stále nevedia čo je presne ich cieľom, ako by psychologická teória mala ideálne vyzerať a ktoré sú optimálne spôsoby ako sa k nej dopracovať. Psychológia je tak stále v dobe kamennej epistemológie. Dominantnou platformou je Popperov falzifikacionizmus kombinovaný s bizarnými predstavami Chomskeho a Fodora. Tento stav je o to pozoruhodnejší, že psychológia zažíva od svojich akademických začiatkov kontinuálnu krízu. Viac som o tom písal tu.

2. Chýba nám formálna teória intencionality. Myslím, že tu je pôda viac než zrelá. Pearlove kauzálne formalizmy rozšírené Bischofove koncepty by mohli byť dobrý východiskom.

3. Príbuzná otázka sa týka cieľovej úrovne vysvetlení. Marr postuloval 3 úrovne. Komputačná, procesná a implementačná úroveň. Marr tvrdil, že treba pracovať od komputačného k implementačnému vysvetleniu. Marrove predstavy sú typická ad-hoc záplata. Samotný Marr im nepripisoval veľkú váhu. Po viac než 30 rokoch kognitívny vedci stále nasledujú tento postup. Pozoruhodné je, že do tejto skupiny patria aj bayesiáni ako Tenenbaum, Griffiths alebo Chater. Títo nemajú problém formalizovať myslenie ľudí ako myslenie racionálnych agentov pomocou najnovších algoritmov. Avšak keď dôjde na to optimizovať vlastné myslenie ohľadom explanačnej úlohe psychologických teórii, tak tu uprednostia Marrov ad-hoc výhonok z doby kamennej informatiky. Spomenuté otázky pokladám za zásadné a ich riešenia mali byť už dávno na stole. Od filozofov sa žiaľ týchto riešení nedočkáme. Ešte horšie. Tieto otázky majú charizmu filozofických otázok, takže aj psychológovia majú tendenciu po vzore filozofie ich riešiť ad-hoc záplatami. Zrejme z podobného dôvodu aj matematicky zdatní vedci sa štítia formalizácie a uspokoja sa so záplatou.

Meehl, P. E. (1997). The problem is epistemology, not statistics: Replace significance tests by confidence intervals and quantify accuracy of risky numerical predictions. What if there were no significance tests, 393-425.

Judea Pearl: Causality (Časť 1)

Jaynesovu knihu som úž dávnejšie dočítal. Súhrny pre Mozgostroje som zatiaľ vynechal. Chcem tieto kapitoly prečítať pozorne ešte druhý krát a poprípade konfrontovať ďalšie zdroje. Súhrny zvyšných (13) kapitol sa teda objavia niekedy v budúcnosti. Ako hodnotného Jaynesovho nástupcu som už medzičasom vybral Pearlovu knihu o kauzalite. Kniha spĺňa prvé Matúšovo kritérium čitateľnosti v tom, že si bere filozofov na paškál (a ešte viac vo svojej druhej edičnej inkarnácii). V recenziách na amazone sa môžete napríklad dozvedieť od filozofa vedy: “The second edition repeats the first edition verbatim, but at the end of most chapters there’s a clearly defined section dealing with subsequent developments. There’s a long chapter at the end that updates you on the replies to the first edition, and some helpful new material explaining things that were tricky the first time through. The updates are concise. Replies to philosophers (at least) are ultimately devastating, although Pearl could explain himself more fully.”Takisto na LessWrong navrhli nahradiť Platóna Pearlom vo filozofickom učebnom curriculu.

V určitom zmysle Pearlova monografia pokračuje, kde tá Jaynesova skončila. Chápanie teórie pravdepodobnosti ako rozšírenej logiky umožňuje jasne definovať mnohé koncepty, ktoré tradičnej štatistike unikajú. Jedným takýmto konceptom je kauzalita.

Je možné dospieť na základ pozorovaní, že A je príčinou pre B? Aký postup zvoliť? Je možné tento postup formalizovať a automatizovať? Tradičná štatistika pozná koncepty ako korelácia, kovariancia, nezávislosť dvoch premenných alebo konfundujúca premenná. Kauzalita však ostala pre štatistiku tabu. Väčšinou sa o nej dozviete len z varovaní a negatívnych výrokov o tom, čo pomocou štatistických konceptov nie je možné zistiť. Najznámejšia mantra hovorí, že korelácia neimplikuje kauzalitu – cum hoc, propter hoc. V následujúcom hurhaji okolo akademického upaľovania previnilca, však zanikne otázka, čo teda kauzalitu implikuje. Kauzalita, tak ako ostatné predstavy vyhodené na smetisko vedy ostala napospas filozofom.

Pearl je špecialistom na kauzalitu. Počas svojej akademickej kariéry navrhol spektrum metód a stratégii, ktoré riešia rôzne problémy vznikajúce pri analýzach kauzality. Pearl sa nezľakol kontroverzii a tabu spojených s inferenciou kauzality. Jeho dôležitým postrehom bolo, že ľudia inferujú kauzalitu celý čas a väčšinou sú v tom prekvapujúco úspešný. Pearlovými hlavnými nástrojmi je teória pravdepodobnosti, teória grafov a topológie. Jeho výskum tak spadá metodicky do oblasti AI a učenia strojov aj keď jeho implikácie a aplikácie sa týkajú prevažne štatisticky a filozofie. Jeho kniha Causality (Pearl, 2009) tvorí súhrn tohoto výskumu. Kniha nie je ľahké čítanie. Nie je to dané tým, že používa moc technický jazyk, alebo že by bola samotná téma veľmi zložitá. Matematika je jednoduchá avšak obsah knihy je silne našlapaný. Diskusia je obmedzená na minimum. Kapitoly sú vystavané na definíciách, teórémach, algoritmoch a poprípade ich dôkazoch a príkladoch aplikácie. Obsah je dobre štrukturovaný a vysvetlený. Je však natlačený, takže občas sa cítim už po piatich stranách vysilený a nepamätám si všetky definície takže musím listovať a vracať sa naspäť. Inak ide o nanájvyš zaujímavé čítanie, tak ako téma sľubuje.

Kauzalitou sa možno zaoberať v rôznych situáciách. V tomto článku sa obmedzím na situáciu, keď sú dané len pozorovania a nie je možné premenné experimentálne manipulovať. Pearl sa touto situáciou zaoberá v druhej kapitole. Inferencia v takýchto situáciách nie je nemožná. Akurát sme, podobne ako fyzici čakajúci na výbuch supernovy, odkázaný na priazeň prírody a výskyt prírodných experimentov, ktoré táto svojim vedeckým divákom ponúkne.

V tomto prípade nám ako formalizmus pre určenie kauzality postačia bayesiánske grafické modely, ktoré som už na tomto blogu predstavil. Videli sme, že grafický model vyjadruje podmienené súvislosti, ktoré určujú kauzálny vplyv.

Uzly reprezentujú udalosti/výroky/premenné a šípky znázorňujú podmienenosť. Z grafu je možné vyčítať pravdepodobnosť elementárnych situácii. Každý uzol prispeje jedným členom v multiplikácii p(M,P,D)=p(P)p(M|P)p(D|M,P). Z tejto pravdepodobnosti môžeme získať pomocou p(A)=\sum_Bp(A|B)p(B) a definície podmienenej pravdepodobnosti všetky ostatné pravdepodobnosti. Z grafu je takisto možné vyčítať  nezávislosť udalostí.

Nezávislosť je komplikovanejší koncept ako podmienenosť. Napríklad v grafe A \rightarrow C \rightarrow B síce neexistuje priamy šíp od A ku B avšak A podmieňuje B prostredníctvom C.  Následujúce pravidlo umožňuje určiť nezávislosť premenných v grafe: A a B sú navzájom nezávislé pre danú (pozorovanú) množinu premenných C (A \perp B | C ) ak všetky cesty v grafe medzi A a B obsahujú aspoň jeden z nasledujúcich prípadov.

1. Jednosmerka: a \rightarrow \dots \rightarrow c \rightarrow \dots \rightarrow b (tri bodky ilustrujú prítomnosť ďalší premenných, ich prítomnosť je však nepodstatná a v ďalšej diskusie ich vynechám) a uzol c je v množine C. Intuícia je nasledovná. Ak vysoký obsah vápnika (V) vo vode spôsobuje vodný kameň (K) a vodný kameň spôsobuje hučanie variča (H), tak hučanie variča je nezávislé od obsahu vápnika ak viem, že varič je zanesený vodným kameňom (V \perp H | K ) . Ako sme videli u Jaynesa nezávislosť vyjadruje informačnú nezávislosť. V našom príklade vyjadruje, že znalosť V nám nepovie nič nové o hučaní H ak vieme K – že varič je zanesený (alebo nie je zanesený). Ak by sme K nepoznali, množina C by bola prázdna a v tomto prípade by bolo H závislé od V. Smerovanie jednosmerky pritom nie je dôležité, keďže na poradí argumentov nezáleží A \perp B|C=B \perp A|C.

2. Rozchodník (spoločná príčina): a \leftarrow c \rightarrow b a c je v C. Podobne ako pri 1, ak poznám príčinu, znalosť a mi nepovie nič nové o b.

3. Stredisko (spoločný následok): a \rightarrow c \leftarrow b a c nie je v C. Kľúč od trezora majú len Anton a Boris. Ak viem, že niekto otvoril trezor (C) a dozviem sa, že to určite nebol Anton (A), tak automaticky viem, že ho otvoril Boris (B). Znalosť A nám teda povedala niečo o B ak zároveň poznáme C. Teda A a B sú závislé ak poznáme C. Možno trochu prekvapivo ak C nepoznáme, tak nemôžeme s istotou nič tvrdiť o B na základe A a tieto sú nezávislé.

Ak je množina C prázdna a A a B sú nezávislé hovoríme o nepodmienenej nezávislosti, v opačnom prípade o podmienenej.

Grafické modely (GM) sú abstraktnou reprezentáciou. Abstraktnejšou ako probabilistický model, ktorý je plne definovaný až keď určíme jeho parametrizáciu (na základe dát). a \rightarrow b teda pretavíme napríklad do b \sim \mathcal{N} (a,\sigma=2) a všeobecne pre každý uzol určíme funkčný vzťah x = f(pa_x). Kde pa_x sú rodičia x, teda premenné z ktorých smeruje šíp do x. Túto konkrétnejšiu reprezentáciu nazýva Pearl kauzálnym modelom, zatiaľčo v prípade GM hovorí o kauzálnej štruktúre.

Samozrejme v praxi graf nepoznáme. Poznáme dáta, prostredníctvom ktorých môžeme odhadnúť rozdelenie pravdepodobnosti. Preto nás zaujíma vzťah medzi pravdepodobnosťami (model) a grafickou reprezentáciou (štruktúra). Dôležitú rolu pritom hrajú nezávislostí v grafe. Nezávislosť premenných je možné identifikovať cez testovanie signifikantnosti. V prípade nezávislosti totiž platí p(A,B)=p(A)p(B) a môžeme testovať či sa náš odhad p(A,B) signifikantne líši od produktu p(A)p(B).

Vo všeobecnosti nemožno jednoznačne identifikovať na základe pravdepodobnosti graf, ktorý rozdelenie vygeneroval. Napríklad ak prešetríme na nezávislosť grafy A \rightarrow B \rightarrow C a A \leftarrow B \leftarrow C zistíme, že obidva vykazujú rovnaké nezávislosti. B a A sú nezávislé pre pozorované C. Všetky ostatné konfigurácie sú závislé. Z pravdepodobností preto môžeme vyčítať, čo Pearl nazýva vzor – graf ktorý je miešanina smerovaných šípov a spojení bez orientácie. Spojenia bez orientácie pritom vyjadrujú neistotu ohľadom smerovania a teda, že pri danom spojení sú obidva smery možné. Vzor získame pomocou nasledujúceho algoritmu.

V prvom kroku prešetríme všetky páry uzlov A,B. Ak sú A,B závislé pre všetky možné množiny C tak pridáme spojenie medzi A a B.

Vyššie sme videli, že pre jednosmerky nie je možné jednoznačne určiť smerovanie. To isté platí pre rozchodník. Situácia je iná pri stredisku. Strediská je možné identifikovať v grafe na základe nezávislostí. Ak sme v prvom kroku získali spojenie medzi A-C a medzi B-C a A,B sú nezávislé (žiadne spojenie), tejto konfigurácii zodpovedá len A \rightarrow C \leftarrow B. Pre každú inú orientáciu by museli byť A a B závislé.

Následne v treťom kroku sa snažíme nájsť orientáciu pre čo najviac zostávajúcich spojení. Pri tom využívame dva fakty. Po prvé, definícia vyžaduje aby bol graf acyklický. Pri konfiguráciách kde existuje len jediná acyklická alternatívna orientácia, túto musíme zvoliť. Po druhé, druhý krok vyčerpávajúco určuje strediská, preto žiadne ďalšie strediská nemôžeme do grafu pridať. Znova, pri konfiguráciách, kde existuje ku strediskám jediná alternatíva, zvolíme práve túto.

Tento algoritmus predpokladá, že všetky uzly sú pozorované. Situácia sa komplikuje ak povolíme prítomnosť nepozorovaných latentných premenných v našom modeli. V tomto prípade nie je možné jednoznačne určiť ani vzor definovaný vyššie. Napríklad graf MPD znázornený vyššie je schopný vygenerovať každé rozdelenie pravdepodobnosti vygenerované grafom M \rightarrow P  (Presnejšie pre každú parametrizáciu MP existuje parametrizácia MPD ktorá produkuje rovnaké rozdelenie pravdepodobnosti MP). Dôvod je evidentný – graf MPD zahŕňa MP. Riešenie je rovnako evidentné. S odvolaním sa na Ockhamovu britvu uprednostníme štruktúru s minimálnym počtom závislostí t.j. hrán v grafe. Následne môžeme upraviť algoritmus popísaný vyššie tak, že nám určí minimálny vzor s latentnými premennými. Pearl navrhol špeciálny vzor, ktorý reprezentuje latentné premenné ako hrany. Množinu uzlov tvoria pozorované premenné. Nasledujúce hrany sú možné. Skutočné príčiny A na B znázorňujú hrany A \rightarrow B . Nepravá súvislosť A \leftrightarrow B vyjadruje spoločnú latentnú príčinu A \leftarrow L \rightarrow B. Potenciálne príčiny  A \rightarrow^* B nechávajú dve vyššie uvedené možnosti otvorené. Buď ide o potenciálnu príčinu alebo nepravú súvislosť.

Konkrétny algoritmus na tomto mieste vynechám. Zaujímavé je jeho fungovanie v zredukovanom prípade, keď máme informáciu o časovom slede udalostí, teda o časovej organizácii premenných. V prípade časovej postupnosti totiž vieme, že budúce udalosti nemôžu mať vplyv na minulé udalosti. V tomto prípade sú všetky minulé udalosti potenciálnou príčinou pre všetky budúce udalosti. Vskutku definícia potenciálnej príčiny umožňujú formalizovať koncept štatistického času. Takýchto zoradení je v každom grafe viacej. Pearl vyjadril domnienku, že aspoň jeden zo štatistických časov bude zodpovedať tomu fyzikálnemu. Pearl však zároveň ukazuje že koncept času závisí od reprezentácie premenných a je možné nájsť ku každej reprezentácii, reprezentáciu, v ktorej funguje kauzalita opačne – z budúcnosti do minulosti. Otázku definície času, tak možno zredukovať na otázku definície problému. Bolo by napríklad zaujímavé vypracovať alternatívnu reprezentáciu pre štandardný model časticovej fyzike, kde čas beží opačne a uistiť sa, že táto reprezentácia je menej parsimónna.

Čo sa týka skutočných príčin, tieto okrem toho, že sú potenciálnymi príčinami, musia spĺňať dodatočnú podmienku, že ak má byť B príčinou C tak musí existovať (v čase predchádzajúca) premenná A pre ktorú platí  A \not \perp C a A \perp C| B. Inak povedané ak je B príčina C tak B zablokuje tok informácii od A ku C.

Nakoniec pre nepravý súvis platí že existuje predchádzajúce A, tak že A \not \perp B a A \perp C . Túto konfiguráciu možno vysvetliť tým, že A je spoločnou príčinou B \leftarrow A \rightarrow C a B nemá ďalší vplyv na C aj keď mu predchádza v čase. Inak povedané súvis medzi A a B existuje len v dôsledku tretej premennej a je preto nepravý.

Zhrniem. Rozdelenie pravdepodobnosti pozorovaných premenných samo o sebe neumožňuje určiť kauzálny súvis. Na to potrebujeme grafickú reprezentáciu bayesiánskych grafických modelov. Ak ju nepoznáme, čiastočne ju môžeme vypočítať z pozorovaných pravdepodobností. Pearl ukazuje ako. Komplikáciou je potenciálna prítomnosť neznámych latentných premenných v grafe. Naopak znalosť časovej postupnosti značne zjednodušuje inferenciu grafu a kauzality.

Pearl, J. (2009). Causality: models, reasoning and inference (2nd ed.). Cambridge University Press. Cambridge, UK.

Formálny model inferencie: Prípad časticovej fyziky

Mnohí vedci robia svoju prácu s nadšením, ktoré by bolo často možné aj klinicky diagnostikovať. Keď sa ich spýtate na predmet ich výskumu môže sa vám dostať výlevu aký by ste očakávali od básnika, ktorý sa po fľaši vína rozhovorí o svojich múzach. Napríklad z rozhovoru Weinberga pre nemecký Spiegel (môj preklad):

SPIEGEL: Keď vy alebo iný fyzici začnete hovoriť o teórii všetkého tak skôr, či neskôr padne slovo “krása”. Ako môže byť teória krásna?

Weinberg: V určitom zmysle sa to dá porovnať s pojmom krásy v hudbe: Ak počúvate Prelude od Chopina, tak cítite, že každý tón je správne zvolený. Žiadny iný by ho lepšie nenahradil.

SPIEGEL: Objektívna veda sa spolieha na subjektívne pocity?

Weinberg: Vskutku dokážeme vycítiť ak naše teórie obsahujú nejaký falošný tón. Samozrejme nie vždy sa v tom zhodneme. Následne sa sporíme tak ako sa ľudia sporia o tom či hudobnú skladbu možno vylepšiť. Ale v konečnom dôsledku je to jeho/jej nenahraditeľnosť, čo konkrétny tón alebo rovnicu robí krásnou. Keď počujete melódiu, ako opakuje frázu, tak cítite: Toto nemožno vylepšiť.

SPIEGEL: Hudba nepozná žiadne objektívne merítko, pomocou ktorého by sme mohli rozhodnúť, či je Mozartova hudba krajšia ako Chopinova alebo Schönbergova. Vo vašej vede však niečo také snáď existuje, či nie?

Weinberg: Testujeme teórie aby sme zistili či sú konzistentné s experimentami. Tým testujeme náš cit pre krásu – testujeme či sú naše teórie pravdivé. Pravda je niečo, k čomu v umení neexistuje žiadna paralela. V umení je otázka pravdivosti bezvýznamná.

SPIEGEL: Je pravda krásna?

Weinberg: Áno.

Podobné ódy na vedu možno nájsť u ďalších jej popularizátorov. Paradoxným vedľajším produktom je, že vedecký proces – proces vymýšľania teórii a experimentov alebo analýzy dát je vnímaní vedcami so spirituálnou bázňou. Čiže naturalizácia estetiky alebo naturalizácia náboženstva a spirituality sú v poriadku. No skúste vedcom navrhnúť, aby konečné postavili silikónového vedca a  proces naturalizácie narazí na odpor. Vedci, ich neobmedzená kreativita a intuícia pre krásu, sú predsa nenahraditeľní. Zrazu ani posledný dualistický kruhový argument nie je dosť zlý na to, aby vedci pomocou neho uchránili svoj flek a zdôvodnili svoju nepostrádateľnosť.

Ako som už spomínal pre štatistikov je tento konflikt záujmov obzvlášť relevantný keďže ich kolegovia z oblasti učenia stroje tak celkom nedomysleli svoje ciele do dôsledkov. Nedá mi nespomenúť Rainer Alexandrowitza, ktorý pár rokov dozadu zaskakoval na katedre psychologickéj metodiky na LMU v Mníchove. Alexandrovitz sa nám na jednej prednáške k modelovaniu štrukturálnych rovníc posťažoval ako jeho americký kolegovia prišli s návrhom tento proces modelovania automatizovať (SEM sú podmnožinou grafických modelov, takže nie je až také ťažké si to predstaviť). Ešte dnes sa musím smiať keď si spomeniem ako Alexandrovitz na prednáške rozhodil rukami a zvolal, že toto naozaj nechceme, lebo tak skončíme všetci nezamestnaní. Alexandrowitz mal aj špeciálny novotvar “substanzwissenschaftlich” (príslovka vyjadrujúca niečo ako “vedecky opodstatnene”). Substanzwissenschaftlich bolo treba argumentovať a pracovať tam kde formálne metódy definitívne končia. O tom, že niekde (a často aj konkrétne kde) končia nemal Alexadrowitz pochýb. V jeho ponímaní bolo dôležitou súčasťou vyúčby naučiť študentov umeniu štatistiky – ako riešiť problémy ktoré nemožno automatizovať.

Na rozdiel od kolegov vedcov a štatistikov, však my psychológovia máme eminentný záujem na tom a aby sa pri skúmaní, pri hľadaní teórii, návrhu experimentov a vyhodnocovaní dát v ľudskom mozgu žiadne zázraky nediali. Práca vedcov spočíva na psychologických mechanizmoch, na schopnostiach riešenia problémov a získania vhľadu. Ako takú chceme túto činnosť pochopiť a v konečnom dôsledku (v tom zmysle, že počítačové modely sú najlepším spôsobom teoretizovania) formalizovať. Prvé zaujímavé návrhy už existujú a v tomto článku chcem ukázať ako možno formalizovať proces hľadania optimálneho modelu v časticovej fyzike.

V časticovej fyzike tvoria dáta pozorovania reakcii – rozpadu a zrážok elementárnych častíc. Elementrárne častice sú nazývané častice, ktoré nie sú atómy ani jadrá atómov. (Výnimku tvorí protón – ktorý je jadrom atómu vodíka a zároveň elementárnou časticou.) Tabuľka vyššie uvádza značky hlavných 22 častíc. Ak vám tieto značky nič nehovoria, je najvyšší čas odskočiť si na wikipédiu a naučiť sa ich mená naspamäť. IHNEĎ!!!

Dáta teda tvoria pozorované reakcie – rozpad a zrážky častíc. Napríklad po zrážke dvoch protónov zostanú dva protóny a jeden pión. Mión sa rozpadá na elektrón, elektrónové neutríno a miónové antineutríno. Úlohou modelu časticovej fyziky je popísať pozorované a predpovedať nepozorované interakcie. Formálne môžeme definovať model ako klasifikátor, ktorý nám pri každej reakcii povie či je možná alebo nemožná. Zaujíma nás či existuje stratégia pre voľbu modelu ktorá by nám na základe pribúdajúcich pozorovaní umožnila nájsť optimálny model.

Pre optimálnu stratégiu existuje séria pozorovaní určitej dĺžky na základe ktorej nám naša stratégia vypľuje správny model – model ktorý klasifikuje všetky budúce pozorovania správne, inak povedané model, ktorý nebude falzifikovaný. Nie je ťažké ukázať, že takáto stratégia neexistuje. Množina možných serií pozorovaní je omnoho väčšia ako množina modelov a pre každý model možno skonštruovať príklad, ktorý model falzifikuje. Napríklad ak sme opakovane pozorovali interakciu p+p \rightarrow p+p+\pi^0 (I1) stratégia musí v určitom momente dospieť k modelu, ktorý predpovedá interakciu p+p \rightarrow p+p+\pi^0+\pi^0 (I2) ako nemožnú (inak sa stratégia nemôže naučiť správny model pre prípad že I1 platí a I2 nie). V tom momente však môže byť náš model falzifikovaný pozorovaním I2. Po určitom množstve pozorovaní I1 a I2 môžeme dospieť k modelu ktorý hovorí že I1 aj I2 sú správne. Tento model však zároveň musí klasifikovať I3: p+p \rightarrow p+p+\pi^0+\pi^0+\pi^0 . Pomocou takéhoto množenia piónov možno pre každý model zostrojiť prípad, ktorý model potenciálne falzifikuje. Tým pádom neexistuje stratégia ktorá by nám umožnila nájsť na základe pozorovaní model, ktorý bude definitívne správny. Problémom vyššie uvedeného príkladu je že nikdy nezískame negatívnu evidenciu o tom, že určitá reakcia je nepozorovateľná. Avšak aj v prípade, že presne určíme sadu možných a nemožných reakcii existuje nekonečné množstvo modelov, ktoré tieto pozorovania vysvetľujú a medzi ktorými sa musíme rozhodnúť.

Samozrejme fyzici našli a používajú konkrétny model – tzv. štandardný model časticovej fyziky. Ako sa k nemu dopracovali? Viackrát na tomto blogu sme videli, že neriešiteľné induktívne problémy sa stanú zrazu riešiteľnými ak pridáme apriori znalosti resp. zahrnieme do inferencie určité predpoklady. Podobne je tomu aj v časticovej fyzike. Fyzici vychádzajú z existencie konzervačných zákonov. Tieto postulujú, že určité kvantity sa pri reakciách zachovávajú. Tieto konzervačné zákony časticovej fyziky sú motivované úspechom dávnejšie známych konzervačných zákonov ako je zákon zachovania energie alebo zákon zachovania hybnosti. V prípade časticovej fyziky však často ich teoretická pozícia nie je až taká silná a ich jedinou úlohou je spraviť problém hľadania modelu časticovej fyziky riešiteľným. Feynman (1965, p. 67) si napríklad sťažuje na teoretickú neuspokojivosť baryonového čísla: ‘‘If charge is the source of a field, and baryon number does the same things in other respects it ought to be the source of a field too. Too bad that so far it does not seem to be, it is possible, but we do not know enough to be sure’’.  Tabuľka vyššie uvádza päť nezávislých kvantít ktoré sa pri reakciách zachovávajú: baryonové, leptónové, miónové a tau číslo + elektrický náboj. Model zároveň musí určiť konkrétne hodnoty týchto kvantít pre každú časticu. Tabuľka vyššie uvádza hodnoty pre štandardný model.

Konzervačné princípy značne zjednodušujú inferenciu možných reakcii. Napríklad sa môžeme vrátiť k prípadu I1 vyššie. Pión musí niesť nulovú hodnotu každej kvantity. Tým pádom môžeme na základe konzervačného princípu tvrdiť, že aj I2, I3 a vskutku všetky Ik pre ľubovoľné sú možné. (To ešte neznamená, že sú pozorovateľné, že boli pozorované, alebo že boli/budú pozorované s rovnakou frekvenciou pre všetky k.) Všeobecne môžeme zredukovať problém hľadania možných reakcii na hľadanie lineárnej bázy pre pozorované reakcie. Množinu všetkých možných reakcii tak získame ako lineárny uzáver (linear closure). Príklad: R1 a+a \rightarrow a+a+b+b a R2 a \rightarrow b boli pozorované. Tieto reakcie možno vyjadriť ako vektory (0,2) a (-1,1), kde prvá pozícia vyjadruje vznik/úbytok častíc a a druhá pozícia to isté pre časticu b . Množina všetkých možných reakcii je definovaná ako c(0,2) + d(-1,1) kde c a d sú celé čísla.

Konzervačné princípy umožňujú rozlíšiť nepozorované a nemožné reakcie a teda riešia problém s negatívnou evidenciou. Reakcie, ktoré nezachovávajú konzervované kvantity sú nemožné a naopak všetky ostatné sú možné:

There is an unwritten precept in modern physics, often facetiously referred to as Gell-Mann’s totalitarian principle, which states that ‘‘anything which is not prohibited is compulsory’’. Guided by this sort of argument we have made a number of remarkable discoveries from neutrinos to radio galaxies. (Bilaniuk & Sudarshan, 1969)

Samozrejme občas sa stane, že nemožné reakcie sú pozorované. Napríklad R1 a R2 implikujú, že q(a)=0, q(b)=0. Povedzme, že sme pozorovali reakciu R3 a \rightarrow c a náš model hovorí že q(c)=1. Táto reakcia nesmie existovať. To by znamenalo, že konzervované kvantity sme postulovali nesprávne. Takéto anomálie je však možné vysvetliť aj inak ako úpravou konzervačných zákonov. Môžeme postulovať výskyt nepozorovaných – t.j. skrytých častíc. R1 môžeme napríklad upraviť na R1b a+a \rightarrow a+a+b+b+d, kde d je nová skrytá častica. R1b, R2 a R3 existujú pre q(a)=1, q(b)=1, q(d)=-2 a pre vyžadované q(c)=1. Vo všeobecnosti, postulovanie skrytých častíc umožňuje vysvetliť existenciu určitých reakcii. Postulovanie skrytých častíc pre určité reakcie môže mať testovateľné implikácie pre ďalšie reakcie. Takisto s rozvojom experimentálnej technológie sa môžu stať skryté častice priamo alebo nepriamo pozorovateľnými. Ako slávne príklady môžu poslúžiť neutrína (postulované Paulim roku 1930) alebo Higgsov bozón (postulovaný Petrom Higgsom roku 1963). Graf nižšie ilustruje úspešnosť štandardného modelu pri predpovedaní existencie častíc a s nimi spojených konceptov.

Samozrejme mohlo to byť aj inak. Ak by sa nepodarilo nájsť Higgsov bozón bolo by potrebné prispôsobiť množinu postulovaných častíc a v extrémnom prípade aj prekopať konzervačné zákony. Toto spektrum siaha od jednoduchej modifikácie štandardného modelu až po jeho falzifikáciu a nahradenie iným modelom.

Nechajme však postulovanie nových častíc bokom. Predpokladajme že všetky pozorované reakcie častíc majú konzistentnú interpretáciu. Ako nájsť správne konzervačné zákony, ktoré takúto interpretáciu umožňujú? Tento problém je znova ľahko riešiteľný pomocou lineárnej algebry. Zachovávané kvantity tvoria lineáne uzavretý priestor vektorov. Napríklad môžeme definovať Šimkovicove číslo ako baryonové  + miónové číslo (B a M kvantity v tabuľke). Je jasné, že ak sú miónové číslo a baryonové číslo zachovávané, tak reakcie zachovávajú aj Šimkovicove číslo. Našou úlohou je tak nájsť bázu tohoto lineárne priestoru. Konkrétne tento priestor tvorí ortogonálny komplement priestoru možných reakcii.

V tomto článku nás zaujímajú dve otázky. Po prvé nakoľko zodpovedá vyššie popísaná stratégia spôsobu, ktorým fyzici dospeli k svojmu súčasnému modelu t.j. štandardnému modelu. Umožňuje ďalšie lepšie modely, resp. ďalšie v predpovediach ekvivalentné rmodely? Po druhé na koľko je táto stratégia optimálna? Existujú apriórne princípy ktoré hovoria v prospech vyššie popísaného formalizmu lineárnej algebry.

Schulte (2008) implementoval vyššie popísanú stratégiu hľadania modelov. Ako dáta vyextrahoval 205 nezávislých reakcii z literatúry pre 182 známych častíc. Veľkú časť týchto dát tvoria informácie o rozpade individuálnych častíc, ktoré zhŕňa a publikuje Annual Review of Particle Physics. (Dáta a programy nájdete tu.) Schulteho program produkuje riešenia ktoré sú empiricky ekvivalentné štandardnému modelu – t.j. predpovedajú presne tie isté množiny správnych a nesprávnych reakcii. Tieto riešenia sa však môžu rozchádzať čo sa týka definície konkrétnych kvantít. Technicky vzaté môžeme nájsť viaceré bázy, ktoré definujú ortogonálny komplement k priestoru reakcii. Napríklad model zachovavájúci miónové, tau, elektrónové a Šimkovicovo číslo tvorí tiež bázu. (Náboj častice – C, je z veľkej časti daný cez zákon zachovania elektrického náboja a v rovniciach ho môžeme reprezentovať ako danú nezávislú kvantitu, preto túto kvantitu v ďalšej diskusii opomeniem.). Tento model je ekvivalentný k štandardnému modelu v tom zmysle, že predpovedá rovnaké reakcie. Prečo by sme teda mali preferovať štandardný model pred tým Šimkovicovským? Konzervované kvantity štandardného modelu definujú vlastnosti častíc a takisto rodiny častíc (baryónová, miónová, tau a elektrónová rodina). Ak je definícia kvantít ľubovoľná (v zmysle že existujú iné ekvivalentné definície), tak je aj ontológia častíc postulovaná štandardným modelom ľubovoľná, či nie?

V prvom rade treba dodať, že všetky riešenia, ktoré Schulteho program produkuje rešpektujú rozdelenie častíc na častice a antičastice. V tabuľke vyššie si môžete všimnúť, že pri každej kvantite možno nájsť pár s pozitívnym a negatívnym znamienkom. Tento fenomén nájdeme v prípade každej bázy, v prípade každého empiricky optimálneho modelu. Ďalej treba dodať, že môžeme použiť ďalšie neempirické princípy na to, aby sme vybrali z ekvivalentných modelov. Weinberg hovoril o kráse. My môžeme hovoriť o jednoduchosti. Napríklad ak si predstavíte v tabuľke stĺpec pre Šimkovicove číslo (B+M) tak tento bude obsahovať 10 nenulových hodnôt. Stĺpec pre baryonové číslo je jednoduchší a krajší v tom zmysle že obsahuje menej nenulových hodnôt. Vskutku Schulte zistil, že ak minimalizujeme počet nenulových hodnôt ako sekundárne kritérium tak získame štandardný model ako unikátne riešenie! Ďalším atraktívnym faktom je že nenulové hodnoty pre stĺpce B,M,E,T tvoria exkluzívne skupiny Žiadny riadok (častica) neobsahuje dve nenulové hodnoty. Tým je možné rozdeliť častice do rodín, pre ktoré možno následne hľadať nezávisle fundamentálnejšie princípy (napríklad ako kvarky tvoria baryóny).

Schulteho algoritmus modeluje hľadanie štandardného modelu ako sa tomu dialo vo fyzike v 60., 70. rokoch, keď hlavnými indíciami boli reakcie. Aj vtedy však už existovali nezávislé princípy ktoré umožňovali uprednostniť určitý model. Napríklad, ak si zoradíme častice podľa ich hmotnosti tak uvidíme obrovskú priepasť medzi hmotnosťou baryónov (ťažké) a leptónov. Toto pozorovanie tvorí nezávislú evidenciu pre vytvorenie baryónovej rodiny častíc. Takisto Schulteho dáta nezahŕňajú určité anomálie, ako napríklad oscilácie neutrín – reakcie popierajúce konzervačné princípy štandardného modelu. Pointa je v tom, že všetky tieto dodatočné zdroje informácii a pochybností by sme mohli zahrnúť. Zaujímavé je, že aj bez nich algoritmus unikátne identifikuje štandardný model.

Vyššie uvedené výpočty štandardného modelu pomocou lineárnej algebry sme viac-menej vytiahli z rukáva. Je možné toto riešenie podložiť nejakým konceptom optimality?  Vskutku Schulte (2000,2008) ukázal, že metóda výpočtu tvorí v určitom zmysle optimálnu a jedinú optimálnu stratégiu. Tento koncept optimality funguje na snahe minimalizovať počet falzifikácii modelu než konvergujeme k správnemu modelu. Snažíme sa dopracovať k riešeniu bez toho aby sme často menili náš názor na to ktorý model je v danom čase, pri danej evidencii správny. Najlepšou takouto stratégiou je v každom kroku vytvoriť minimálnu teóriu zahŕňajúcu a vysvetľujúcu súčasné pozorovania. Toto je presne to čo robí vyššie citovaný Gell-Mannov totalitaristický princíp. Súčasné pozorovania implikujú určitú množinu možných pozorovaní. Všetky ostatné pozorovania sú nemožné. Schulte ukázal, že táto stratégia garantuje  existenciu konečného worst-case počtu zmien názoru pre každú sériu pozorovaní. Inak povedané metóda garantuje konvergenciu (ak správne riešenie existuje).

Podobným spôsobom sa možno pozrieť aj na historický proces objavovania modelov v chémii, kde sú často reakcie reprezentované vo forme rovníc. Všeobecnejšie možno Schulteho princíp minimalizácie zmien názoru v priebehu jeho hľadania správneho modelu identifikovať so “silnou inferenciou” Johna Platta. Platt (1964) sa pozastavil nad systematickosťou a nekompromisnosťou experimentovania a teoretizovania v časticovej fyzike a v molekulárnej biológii, ktoré viedli k obrovskému pokroku v týchto oblastiach v 60. a 70. rokoch. Tento sa vyznačoval práve tým, že sa snažil minimalizovať počet krokov, ktoré vedci museli podstúpiť na ceste k správnemu modelu. Platt srdečne odporučil tento spôsob silnej inferencie vedcom v sociálnych vedách. Jeho nápad nemôže fungovať. Štatistická neistota výsledkom pritom nie je hlavným problémom. Teoreticky môžeme zvýšiť počet pozorovaní/probantov a opakovane replikovať experiment tak, že pravdepodobnosť daného výsledku sa bude blížiť k istote. Viaceré súčasné replikačné iniciatívy v psychológii sa uberajú týmto smerom. Silná inferencia v psychológii nemôže fungovať, lebo predmet výskumu nie je možné rozkúskovať na atomárne binárne (platné/neplatné) hypotézy.  V tomto ducha sa niesla Newellova kritika experimentálnej psychológie, ktorej argumenty zhŕňa môj starší článok.

Norbert Bischof zvykol poznamenať, že psychológovia nie sú hlúpejší ako fyzici. Fyzici mali šťastie, že im výsledky v podstate padli do náruče bez väčšieho snaženia. Videli sme ako pomocou matematických formalizmov možno dodatočne zdôvodniť postup akým sa generácie fyzikou dopracovali k štandardnému modelu časticovej fyziky. Inferencia v psychológii je naproti tomu omnoho ťažšia. Vskutku nie je vôbec jasné akým smerom by sa mala inferencia v psychológii uberať. Myslím, že toto je dobrá príležitosť postaviť kozu pred voz a formálne vypracovať optimálnu inferenčnú stratégiu predtým než začneme pumpovať zdroje do zberu dát.

Bilaniuk, O.-M., & Sudarshan, E. C. G. (1969). Particles beyond the light barrier. Physics Today, 22, 43–52.

Feynman, R. (1965). The character of physical law (1990 ed., Vol. 19). Cambridge, MA: MIT Press.

Platt, J. R. (1964). Strong inference. Science, 146(3642), 347-353.

Schulte, O. (2000). Inferring conservation laws in particle physics: A case study in the problem of induction. The British Journal for the Philosophy of Science, 51, 771–806.

Schulte, O. (2008). The co-discovery of conservation laws and particle families. Studies In History and Philosophy of Science Part B: Studies In History and Philosophy of Modern Physics, 39(2), 288-314.

Diskusia o bayesiánskej filozofii

Andrew Gelman zhrnul svoju filozofiu analýzy dát v článku, ktorý vyšiel aj s diskusiou v britskom časopise pre matematickú a štatistickú psychológiu. Bayesiánska štatistika býva stotožňovaná s induktívnou filozofiou v protiklade s dominantným deduktívnym frekventistickým prístupom. Podľa tejto tradičnej bayesiánskej filozofie spočíva vedecký proces v postupnej zmene pravdepodobností rôznych hypotéz (= teórii) na základe pribúdajúcich dát.Tento proces je znázornený nižšie. Zľava doprava pribúdajú dáta a pravdepodobnosť hypotéz sa mení.

Falzifikácia a objavovanie nových hypotéz nemá v tomto prístupe priestor. Všetky hypotézy a teórie sú prítomné a vyhodnocované od začiatku zberu dát. Takáto predstava nekorešponduje so skutočným vedeckým procesom a ani nereflektuje rozšírenú bayesiánsku prax. Bayesiánske analýzy namiesto toho postupujú hypoteticko-deduktívne. Tento prístup prístup spočíva v postulovaní štatistickeho modelu, ktorý je následne testovaný, falzifikovaný a vylepšený. Táto falzifikácia pritom môže nastať bez toho aby sme získali nové dáta – falzifikácia prebieha s pomocou základe dát pomocou ktorých sme model vytvorili a ktorý slúžil získanie parametrov.

Bayesiánske modely umožňujú vygenerovať pomocou modelu syntetické dáta. Tieto sú následne porovnané s aktuálnymi dáta a ak je diskrepancia medzi modelom a realitou vážna je potrebné štatistický model vylepšiť. Túto diskrepanciu je možné určiť aj kvantitatívne avšak väčšinou sa deje porovnanie kvalitatívne resp. graficky. Takúto analýzu som ilustroval aj na Mozgostrojoch. Takisto treba dodať, že tento hypoteticko-deduktívny prístup nie je vôbec nový. Stretli sme sa s ním napríklad u E.T. Jaynesa. Ďalším dôležitým proponentom je George Box a analýzy časových rád Box-Jenkinsovou metódou sú jeho najlepším príkladom. Hypoteticko-deduktívny prístup možno z časti identifikovať ako filozofiu objektívnych bayesiánov v kontraste k subjektívnym bayesiánom, ktorý preferujú induktivistickú filozofiu.

Priznám sa, že som sa vo svojej mladej vedeckej kariére s induktivistickou bayesiánskou filozofiou takmer nestretol a mená ich zástancov ako Lindley, Savage podobne ako Popper a Fischer na druhej strane barikády sú pre mňa historickými referenciami. Myslím, že celá debata indukcia verzus dedukcia je dnes už zbytočná. Moderný prístup bude ich zmesou. Takisto si myslím, že existujú dôležitejšie a pragmatickejšie otázky ako zisťovať akú a ktorú proporciu tejto zmesy tvorí indukcia resp. dedukcia, ako indukciu, dedukciu zadefinovať a či treba zahrnúť aj ďalšie spôsoby inferencie ako abdukcia, analógia etc.

Zaujímavé otázky sa týkajú problému ako deduktívny krok štatistickej analýzy formalizovať a automatizovať. Deduktívny krok nezahŕňa len testovanie modelu ale určuje aj smer ktorým sa následne analýza vyberie – ako model vylepšiť, ktorý model testovať v ďalšom kroku. (V tomto zmysle “deduktívny krok” zahŕňa indukciu, keďže dedukcia nám neumožňuje z rozporu a falzifikácie nič konštruktívne vyvodiť.) Časťou problému je nájsť spôsob ako reprezentovať množinu všetkých modelov. Táto množina musí byť dostatočne veľká aby zahrnula optimálne riešenia a pri všemožných analýzach – teda aby bola automatizovaná metóda dostatočne všeobecná a aplikovateľná na celé spektrum štatistických problémov. Na druhej strane je ťažké takúto rozsiahlu množinu modelov prehľadať. Ako zvoliť správnu sekvenciu modelov tak, aby sme sa dopracovali v čo najkratšej sérii krokov (=falzifikácii) k optimálnemu modelu? Tieto otázky sa dotýkajú roli kreativity a vhľadu vo vedeckom procese (a pri riešení problémov všeobecne) a ako kreativitu a vhľad formalizovať. Možno trochu typicky ostali tieto zaujímavé otázky pred bránami filozofickej diskusie. (Diskusiu však nájdete na Gelmanovom blogu aj s odkazmi na prvé pokusy o formalizáciu – tu, tu a tu.)

Gelman, A., & Shalizi, C. R. (2013). Philosophy and the practice of Bayesian statistics. British Journal of Mathematical and Statistical Psychology, 66, 8–38