Skutočná kríza psychológie

Narazil som na nasledujúcu inšpiratívnu grafiku:

Prišiel s ňou Drew Conway a snažil sa ňou povedať aké schopnosti by mali definovať modernú analýzu dát. Tri bubliny znázorňujú základné schopnosti. Analytici by sa mali vyznať v doméne ktorú študujú (fialová). Musia dokázať dáta manipulovať, to znamená načítať a vyhodnotiť ich pomocou softvéru (červená). Zároveň musia týmto metódam rozumieť, teda poznať ich matematické a štatistické princípy a odôvodnenie (zelená).

Zaujímavé sú oblasti, kde sa tieto domény prelínajú. Väčšina tradičného štatistického výskumu na univerzitách prebieha na prieniku doménovej expertízy a matematiky. Výskumníci vyvíjajú nové modely, ktoré riešia konkrétne problémy v danej doméne. Tento výskum väčšinou nevidel reálne merania. Model je aplikovaný, ak vôbec, na syntetických účelovo vygenerovaných dátach.

Strojové učenie (ML) je mladým prírastkom, ktorý vyčíňa na prieniku štatistiky a informatiky. ML výskum zohľadňuje algoritmiku a implementáciu vyvinutých metód, čím dosahuje lepšiu aplikovateľnosť ako tradičný výskum. Slepým bodom ML je ignorancia poznatkov z domény aplikácie. ML ponúka black-box riešenia, ktoré sú všeobecné a pasujú na všetky (=žiadne) problémy. Existujú domény, kde nemáme veľa poznatkov a problém možno sformulovať ako klasifikáciu alebo regresiu. Vo väčšine domén tomu však tak nie je. Namiesto komplikovaného omnipotentného modelu by nám viac pomohol jednoduchý špecializovaný model.

Nakoniec prienik hackovania a doménových znalostí je označený ako “danger zone” – nebezpečný. Tento prienik označuje bezduchú aplikáciu softvérových riešení na špecifické problémy bez znalosti matematických a štatistických princípov. Takáto aplikácia môže viesť k mylným a nezmyselným výsledkom.

Myslím, že tento prehľad analýzy dát možno pohodlne zovšeobecniť na vedecký výskum vo všeobecnosti. Zoberme si nasledujúcu prípadovú štúdiu:

Počas druhej svetovej vojny pracovali Jack Parsons, Frank Malina a Theodore von Karman na vývoji tuhého paliva pre pohon rakiet v Pasadene, Kalifornii. Von Karman bol fyzikom a zároveň vedúcim projektu, Malina inžinier a Parsons chemik. Oproti Von Karmanovi a Malinovi nemal Parsons žiadne formálne vzdelanie v oblasti chémie avšak bohaté skúsenosti, ktoré nazbieral pri práci pre súkromnú spoločnosť vyrábajúcu dynamit. Tento tím prakticky reprezentuje vyššie uvedenú štruktúru pre analýzu dát. Malina ako inžinier mal vynikajúce znalosti stavby pohonných rakiet, zatialčo von Karman poskytol matematickú a fyzikálnu expertízu. Parsons bol hacker, ktorý trávil celé dni experimentovaním s rôznymi výbušninami. V určitej fáze projektu sa zdalo, že Parsons prestal napredovať pri vývoji. Látky ktoré používal boli buď moc volatilné na to aby ich bolo možné použiť pre kontrolovaný let alebo ich tlak nebol dostatočný aby poslal raketu do atmosféry. Nastali tak pochybnosti o zmysluplnosti cieľov a smerovania projektu. V tomto bode prišiel von Karman za Malinom a dal mu vyriešiť sústavu štyroch diferenciálnych rovníc. Výsledok mal ukázať, či je teoreticky možné poslať objekt určitej váhy požadovanou rýchlosťou do atmosféry. Čím nížší je totiž ťah rakety tým viac paliva potrebuje, tým je raketa ťažšia a tým je potrebný ešte vyšší ťah. Výsledok výpočtu bol pozitívny. Projekt ďalej pokračoval. Nakoniec sa ukázalo Parsonsove rozhodnutie prejsť z pušného prachu na zmes asfaltu a chloristanu sodného ako kľúčové. Von Karman a jeho tím vyvinuli JATO systém, ktorý umožnil lietadlám vzniesť sa od zeme a takisto bol neskôr kľúčový pri vývoji rakiet pre vesmírne lety. Tento príklad demonštruje úspešnú kombináciu všetkých troch schopností pri výskume. Vyzdvihol som hlavne von Karmanov prínos. Rozdelenie schopností chcem použiť pre analýzu psychologického výskumu. Zrejme neprekvapí, že základné matematické princípy psychológia vôbec nepoužíva a ani nehľadá.

V prvom rade treba upresniť, ako tie bubliny chápem a ako ich aplikovať na psychológiu. O matematiku a štatistiku samotnú – tak ako je popísaná zelená bublina vyššie tu nejde. Skôr ide o epistemologické princípy, ktoré nám povedia ako formulovať výskum, aké výskumné otázky sú zmysluplné a aké sú najlepšie stratégie na ich riešenie. V prípade analýzy dát poskytuje tieto znalosti matematika a štatistika. V prípade vývinu raketového paliva je dôležitá znalosť fyzikálnych zákonov. Aké princípy nám pomôžu kvalifikovať psychologický výskum? Kam majú psychológovia nasmerovať svoje epistemologické otázky?

Ľudská myseľ je popri kozmológii nepochybne vedeckou celebritou a tak kandidátov na post epistemologického patriarchu určite nie je málo. Niektorí vidia psychológiu zakotvenú v ultimátnej perspektíve evolučnej biológie, ďalší sa upierajú k neurobiológii alebo k filozofii. Zopár exotov čaká, že pochopenie ľudskej mysle nám umožní len identifikovanie kvantových udalostí v mozgu. V staršom príspevku som popísal ako sa v počiatkoch psychológia orientovala na fyziku a jej pozitivistickú a dnes popperiánsku interpretáciu. Zároveň som predstavil Bischofov názor, že psychológia je inžinierstvo. Základné výskumné princípy tak psychológom poskytne teória systémov.

Bischofove názory sú nejaké to desaťročie pozadu za výpočtovou technikou, ale myslím, že jeho diagnóza v hrubých obrysoch pasuje. Inžinieri sú tiež hackeri a moc tých princípov ohľadom teórie systémov nenájdeme. Potrebné princípy podľa mňa najlepšie poskytne teória komplexity, teória automatov a teoretická informatika všeobecne. Ak k tomu pridáme teóriu pravdepodobnosti a grafických modelov, myslím že máme veľmi dobre našliapnuté. Žiaľ, snahy o takéto odvodenie psychológie z pevných teoretických princípov dnes neexistujú. Namiesto toho psychológia padla za obeť hackerom a doménovým špecialistom.

V grafe vyššie som identifikoval kognitívnych vedcov s hackerskými schopnosťami a psychológov s doménovými vedomosťami. Myslím, že takáto korešpondencia aspoň z časti vystihuje rozdieli v prístupe psychológov a kognitívnych vedcov.

Kognitívny vedci navrhujú arbitrárne ad-hoc riešenia ako ľudská myseľ rieši kognitívne problémy. Tieto sú často inšpirované informatikou, matematikou a fyzikou avšak tieto modely sú len tak formulované a posúdené na základe získaných dát. Množina alternatívnych modelov alebo množina potenciálnych experimentov (a teda možností ako model testovať a falzifikovať) nie je diskutovaná. Kognitívni vedci často ignorujú základné poznatky psychológie (doménové znalosti). Toto je ospravedlňované referenciou k Chomskemu. Chomsky tvrdil, že výskum kognície musí vysvetliť ako fungujú rôzne schopnosti (competence) a otázka ako sú tieto schopnosti algoritmicky implementované (performance) je druhoradá alebo priamo irelevantná. Kognitívny vedec tak môže s kľudom modelovať kategorizáciu, kauzálne myslenie alebo vnímanie intencionality bez toho, že by niečo tušil o tom ako funguje ľudská pamäť, exekutívne funkcie, pozornosť, vnímanie alebo motorika. Teoreticky môže aj kauzálne vnímanie ovplyvniť kategorizáciu a naopak. Tieto presahy v rámci kognitívnych domén však môže kognitívny vedec tiež zanedbať, keďže ako ukázali Chomskeho intelektuálni potomkovia myseľ je modulárna a presahy medzi rôznymi doménami sú minimálne.

Psychológ je doma v zelenej bubline. Psychológ sa samozrejme výborne vyzná vo svojom obore. Z kurzu štatistiky si zapamätal, kde v SPSS nájsť správne tlačítka, ktoré mu vypľujú p hodnoty, ktoré napíše do svojej publikácie. To sú hackerské schopnosti ktoré mu stačia na dosiahnutie olympu publikovateľnosti.

Ako som už poznamenal modrá bublina je v prípade výskumu mysle prázdna. Ak dochádza k nejakej reflexii cieľov a stratégii psychologického výskumu tak len v tracícii hackerských pokusov zaplátať deravú záplatu ďalšou záplatou. Tento prístup je o to pozoruhodnejší, že psychologický výskum prechádza perpetuálnou krízou. Od počiatku psychológie je pravidelne kritizovaná neadekvátnosť psychologického teoretizovania, testovania teórii a následných štatistických analýz. Podobne ako von Karmanov tím, psychológia sa nachádza v bode otázneho smerovania. Namiesto toho aby psychológovia prešetrili smerovanie svojho súčasného projektu ako to urobil von Karman, keď dal Malinovi vyriešiť sústavu diferenciálnych rovníc – namiesto toho sa psychológický výskum nachádza už 50 rokov v agónii. Ako som spomenul vyššie, myslím, že techniky ktoré by psychológom pomohli zodpovedať epistemologické otázky a nasmerovať výskum v zásade existujú.

Ako príklad možno uviesť súčasnú snahu o zvýšenie počtu replikácii. Niektorí ľudia môžu mať problém predstaviť si prečo by niekto mohol kritizovať snahy o replikáciu. Takéto počudovanie je z určitej perspektívy správne. Replikácia znamená, že získame dodatočné pozorovania a čím viac pozorovaní, čím viac evidencie tým spoľahlivejšie závery môžeme dosiahnuť. Otázku replikácie je lepšie chápať v kontexte alternatívneho využitia zdrojov. Zdroje investované do replikácie môžeme využiť na nové, inovatívne experimenty, dodatočné analýzy už existujúcich dát alebo napr. vytvorenie lepších teórii. V prípade nedostatočných teórii a nezmyselných hypotéz je zber ďalších dát len stratou času. Nakoľko sú súčasné psychologické teórie zmysluplné? Oplatí sa ich testovať? Oplatí sa ich replikovať? Alebo radšej by sme mali najprv vylepšiť naše teórie?

Súčasné snahy o plošné replikácie psychologického výskumu vnímam skepticky. O replikovateľnosti psychologického výskumu sa toho moc nedozvieme. Nepoznáme totiž apriórnu pravdepodobnosť správnosti psychologických hypotéz od ktorého aposteriórna pravdepodobnosť replikácie tiež závisí. Túto závislosť by bolo možné minimalizovať keby psychológovia namiesto binárnych hypotéz testovali komplexné komputacionálne modely. Tieto pochybnosti by bolo možné vyriešiť, ak by psychológovia na chvíľu zastavili a namiesto plátania deravej záplaty reflektovali, čo sa svojim výskumom snažia dosiahnuť a aká je na to najlepšia stratégia.

Povedú výkonnejšie počítače k vývoju chytrých robotov?

Moorov zákon hovorí, že počet obvodov na čipe a teda výkon počítačov sa zdvojnásobí približne každé dva roky. Nižšie prikladám grafiku z Wikipédie ktorá znázorňuje evolúciu procesorov (počet elektrických obvodov na čipe) a takisto evolúciu kapacity pevných diskov. Mierka ypsilónovej osy je logaritmická a teda lineárny súvis vyjadruje exponenciálny rast.

Pre bežného uživatela od určitého momentu prestal byť tento vývoj taký vzrušujúci. Ja napríklad nevyužijem viac ako 50 gigabajtov pevného disku. Podobne, vyššia výkonnosť procesora napríklad reakčné časy internetového prehliadača nevylepší, keďže tieto sú prakticky nulové. (Výrobcovia hardwaru preto vytvorili s výrobcovami softvéru niečo ako kartel. Softvérové firmy vyrábajú exponenciálne pomalší softvér, napr. OS Microsoftu, ktorý núti užívateľov kupovať exponenciálne rýchlejšie procesory. )
Pre vedcov je však tento vývoj dôležitý. Modely na ktorých výpočet ste pred desiatimi rokmi potrebovali univerzitné výpočtové centrum môžete dnes simulovať doma na laptope. Bayesiánska štatistika sa stala do veľkej miery vôbec aplikovateľnou vďaka nárastu výpočtovej kapacity. Ak si prelistujete 15 rokov starú učebnicu bayesiánskych analýz nájdete v nej návody ako analyticky zjednodušiť vyhodnotiť modely a aj to len pre zopár prípadov pohodlného gausovského rozdelenia. Dnes by tieto modely nikoho nenapadlo zjednodušovať a analyticky vyhodnocovať. Simulácie modelov pomocou MCMC metód sú jednoduché, rýchle a zanedbateľne presné a môžete ich aplikovať bez problémov na negausovské prípady.

Od exponenciálneho rastu výpočtovej kapacity si viacerí výskumníci učenia strojov a umelej inteligencie sľubujú inteligentnejšie stroje. Výpočtová kapacita systémov, ktoré nájdete momentálne popísané v publikovanom výskume je primitívne jednoduchá oproti výpočtovej kapacite ľudského mozgu. Je tomu jednoducho pre to, že dostupné počítače nie sú dostatočne výkonné, aby umožnili simulácie komplexnejších modelov. To sa však časom zmení a ak sa Moorov zákon potvrdí aj do budúcnosti môžeme mať za 20 rokov počítače s výkonom ľudského mozgu. Vedci ako Jürgen Schmidhuber očakávajú, že vyvoju umelej inteligencie nestojí nič v ceste a dostaví sa automaticky. Kritici namietajú, že je naivné si myslieť, že stačí posunúť súčasné primitívne modely do ríše ziliónbajtov a zrazu z nich vyskočí niečo inteligentné. Stačí si spomenúť napríklad na Deep Blue, ktorý dokázal hrať šach vďaka vysokej výpočtovej kapacite avšak inak bol dosť sprostý. V konečnom dôsledku však až budúcnosť ukáže nakoľko je vyššia výpočtová kapicita kľúčom k umelej inteligencii. Najpravdepodobnejší scenár je, že  aplikácia súčasných modelov vo väčšej mierke nebude dostatočná. Avšak táto aplikácia umožní identifikovať ich limity a nové problémy. Nové problémy zasa povedú k vývoju lepších modelov.

Medzičasom sa samozrejme môžeme pozrieť na občasné výskumné expedície na hranice výpočtovej techniky. Naposledy zveril minulý rok Google Profesorovi Ng zo Stanfordovej Univerzity klúče od miešačky. Ng s kolegami (Le et al., 2012) postavili obrovskú neurónovú sieť pozostávajúcu z deviatich vrstiev s približne miliardou spojení (synáps). Tento kybermozog rozbehli po dobu troch dní na 16 tisíc (!!!) jadrách v labákoch Googlu v Kalifornií. Neurónovú sieť kŕmili 200×200 pixlovými obrázkami z internetu. Tréningovú vzorku tvorilo 10 miliónov obrázkov, ktoré autori získali ako snapshoty z videi na youtube.

Tréning prebiehal trochu inak ako u typických neurónových sietí. Vedci nepovedali neurónovej sieti čo sa má naučiť, ale trénovali ju, aby dokázala zrekonštruovať svoje vstupy – teda obrázky. Inak povedané neurónová sieť bola trénovaná aby výstupné neuróny na konci vypľuli rovnaký obrázok, ktorý enkódujú vstupné neuróny. Táto úloha nevyzerá moc zaujímavo. Úloha začne byť zaujímavá až keď určíme, že počet neurónov v skrytých vrstvách je menší ako počet vstupný/výstupných neurónov. To znamená, že systém musí redukovať a komprimovať vstupný obrázok tak aby stratil čo najmenej obsiahnutej informácie – aby ho dokázali na výstupe znova rekonštruovať. Keďže vzorka obrázkov je omnoho väčšia ako počet skrytých neurónov, neurónová sieť sa zároveň musí naučiť extrahovať informáciu ktorá umožní obrázky optimálne kategorizovať. Získaná komprimovaná informácia musí v konečnom popísať celú vzorku obrázkov.

Týmto systémom sa hovorí auto-asociatívne neurónové siete a sú dávno známe. V podstate sa jedná o regulárne neurónové siete, ktoré možno rovnako trénovať pomocou backpropagation akurát sú výstupy v tréningovej vzorke identické s vstupmi a počet skrytých neurónov je nižší ako počet vstupných/výstupných neurónov. Ng s kolegami prebrali tento jednoduchý koncept a aplikovali ho v merítku 16 tisíc jadier, ktoré zrejme len tak ležia a nemajú čo robiť v sídle Googlu. Môžeme si skúsiť predstaviť 16 tisíc jadier. Laptop na ktorom tento príspevok píšem má procesor s dvoma jadrami. Na našom psychologickom inštitúte sú dve počítačové miestnosti (určené pre študentov) s ca. 30 počítačmi pospájaními v jednej sieti. Ak by som chcel túto sieť využiť mám k dispozícii ca. 60 jadier. K náročnejším výpočtom stojí univerzitným pracovníkom k dispozícii BW grid, počítačový cluster združujúci počítačové centrá na univerzitách v bádensku-würtembersku. BW grid poskytuje z 2800 jadier. Najrýchlejším výpočtovým centrom v Európe je SuperMUC v Leibnitz Rechenzentrum v Garchingu pri Mníchove. SuperMUC ponúka 160 tisíc jadier.

Treba dodať, že výstavba a prevádzka takýchto výpočtových centier so superpočítačmi je nákladná a výber a prevedenie projektov podlieha prísnym kritériám. Prednosť majú samozrejme projekty, ktoré sú relevantné pre národnú bezpečnosť – simulácie zemetrasení a cunami vĺn v Japonsku alebo simulácie dráh balistických a jadrových rakiet v USA. V dôležitosti nasleduje vyhodnocovanie astronomických dát, simulácie buniek, baktérii, vírusov a iných biochemických systémov. Neurónová sieť s miliardou spojení patrí do kategórie algoritmických hračiek, ktorých praktická relevancia je nízka. Zrejme však nie pre Google.

Identifikácia objektov – napríklad tvári, osôb na obrázkoch a vo videách je v súčasnosti stále ťažký problém. Obrázky objektov podliehajú obrovskej variabilite. Napr. osvetlenie, uhol pohľadu, tvar objektu sťažuje identifikáciu. Pre Google je však tento problém zjavne zaujímavý. Robustný algoritmus by dokázal vyhľadávať obsah nielen v popiskoch videa, ale aj na základe obsahu samotného videa/obrázku. Ngeho s kolegami zaujímalo, či neurónová sieť dokáže bez explicitných inštrukcii extrahovať z obrázkov nejaké zaujímavé objekty. Na to zobrali vzorku obrázkov tvárí a iných objektov a pohľadali neurón v celej sieti, ktorý je najúspešnejší pri identifikácii týchto tvárí. Výkon tohoto neurónu následne otestovali na nezávislej vzorke obrázkov. Najlepší neurón bol úspešný v identifikácii tvárí. Autori následne našli stimulus pre ktorý daný neurón produkuje najsilnejšiu reakciu. To nám umožní do určitej miery zistiť sémantiku daného neurónu. Nižšie je znázornený výsledný obrázok.

Daný neurón vskutku enkódoval archetypálnu tvár.Podobný experiment spravili pre kategóriu mačky a tela osoby.

Tieto výsledky sú povzbudivé avšak úspešnosť algoritmov možno posúdiť až v porovnaní s inými state-of-art riešeniami. K tomuto účelu existujú určité benchmarkové databázy, ktorých cieľom je umožniť porovnanie výkonnosti algoritmov naprieč publikáciami. Ak chcete publikovať výskum musíte ukázať, že algoritmus aj prakticky je úspešný. Algoritmus musíte vyhodnotiť na takejto databáze obrázkov a porovnať jeho výkon s výkonom iných algoritmov v predchádzajúcich publikáciach. Jednou takou databázou je ImageNet. ImageNet obsahuje 14 miliónov obrázkov s 20000 kategóriami objektov. Tieto databázy poskytujú tréningovú vzorku, v ktorej sú objekty pomenované a testovaciu vzorku, kde identitu objektu musí určiť algoritmus. Ng s kolegami dodatočne použili tréningovú vzorku aby doladili neurónovú sieť. Test ukázal úspešnosť identifikácie ca. 15 % čo je obrovský pokrok oproti predchádzajúcemu najlepšiemu výkonu na úrovni 9 %.

Myslím, že zaujímavé je, že spomenutá neurónová sieť sa naučila rozpoznávať tváre bez toho aby dostala feedback alebo vôbec informáciu že nejaké tváre existujú. Za zmienku takisto stojí, že autori štrukturovali architektúru siete po vzore ľudského vizuálneho areálu a táto štruktúra sa ukázala úspešnejšia ako iné štruktúry navrhnuté a rutinne používané v literatúre. (Tieto architektúry testovali v separátnych trojdňových výpočtových orgiách.) Pre psychológiu to znamená napr. že vývin vnímania tvári nemusí byť nijak geneticky preprogramovaný a neurónové detektory na tvár ktoré sa našli v mozgu nemusia byť modulárne izolované. Experiment s neurónovou sieťou ukazuje alternatívne možnosti ako tieto detektory vznikajú bez akéhokoľvek feedbacku z prostredia. Zároveň treba dodať, že výkon 15 % je stále mizerný na to aby sme mohli začať neurónovú sieť prakticky využiť na čítanie obsahu obrázkov a videa.

Nakoniec, čo sa týka nárastu výpočtových zdrojov, Ngeho štúdia ukazuje, že môžeme byť optimistický. Podobný čerstvý prípad aplikácie hlbokých neurónových sietí v ríši ziliónbajtov tvoria prekladateľské aplikácie, ktorých praktické využitie už nemusí byť ďaleko.

Le, V., Q. et al. (2012). Building High-level Features Using Large Scale Unsupervised Learning.

Neurónové siete a zmiešaná sémantika

Neurónové siete majú zaujímavú a neľahkú históriu. Zrejme je to dané zmätkami vznikajúcimi ohľadom interpretácie paralelných dynamických modelov. Výskum neurónových sietí začal Rosenblattovým Perceptronom v 50. rokoch. (Zlé jazyky hovoria, že všetky dôležité výsledky už predtým odvodili ruský štatistici akurát ich nemali ako využiť, keďže neexistovali počítače.)

Perceptron (vyššie) tvorila jednoduchá neurónová sieť pozostávajúca z viacerých vstupných a jedného výstupného uzla. Perceptron je podobný logistickej regresii. Výstupná funkcia nie je sigmoid ale jednoduchá prahová funkcia. Takisto algoritmus, ktorý Rosenblatt použil, aby našiel hodnoty parametrov bol jednoduchší s horšou konvergenciou. Každopádne Rosenblatt ukázal, že ak má klasifikáčný problém lineárne riešenie tak Perceptron toto riešenie nájde. Marvin Minsky a Seyour Pappert z MIT naopak ukázali, že v prípade ak lineárne riešenie neexistuje Perceptron nekonverguje k optimálnemu riešeniu. Títo autori zároveň vyjadrili domnienku, že podobne tomu bude aj v prípade komplexnejších modelov s viacerými vrstvami uzlov. Táto domnienka sa ukázala ako nesprávna, každopádne mýtus hovorí, že Minsky a Pappert spôsobili svojím tvrdením nezáujem o výskum neurónových sieti. Nadišla zima výskumu AI.

V 80. rokoch mali Chomsky a jeho kolegovia z východného pólu našliapnuté aby intelektuálne ovládli kognitívne vedy. Plán im skrížila nová vlna konekcionizmu zo západného pobrežia. Ako prvý doniesol tieto novinky na východ filozof Douglas Hofstadter, ktorý prezentoval na prelome 1983-1984 seminár o najnovších výsledkoch konekcionizmu na MIT. Z výskumníkov sa semináru zúčastnili len Minsky a Dennett. Neskôr bol Dennett pozvaný na plánovanú konferenciu o AI na MIT. Dennett navrhol aby namiesto neho pozvali radšej Hofstadtera.

They refused to consider my suggestion — that’s how insular and dogmatic MIT was at the time: Hofstadter was no cognitive scientist (or philosopher) by their lights. So I relented, but decided to poke some fun at their brittle ideological barriers, exploiting Jerry Fodor’s amusing explanation of why MIT was “the East Pole,” and dubbing the local orthodoxy “High Church Computationalism.” I savor the memory of Ned Block asking me, after my talk, where on earth I’d learned this amazing stuff — it was all news to him. “Mostly in Doug Hofstadter’s seminar, right here in your university,” I replied. Harry and Betty Stanton attended the conference, and asked me about these new developments. Soon they were conferring with Rumelhart and McClelland about putting together the volumes that became the bibles of connectionism. (Dennett, 1998, s.216)

Roku 1986 vydalo MIT zborníky s prácami konekcionistov. Siegelman a Sonntag (1994) neskôr ukázali, že dvojvrstvové neurónové siete s dostatočným počtom uzlov v strednej vrstve sú aspoň turing-ekvivalentné. Neurónové siete teda, kontra Minsky & Pappert, dokážu vypočítať ľubovolnú (turing-vypočítateľnú) funkciu. Neurónové siete sa stali state-of-art algoritmom a vlajkovou loďou učenia strojov a AI všeobecne. (Tento status si udržali až do nástupu Bayesiánov a SVM koncom 90. rokov.)

Úspechy slávili aj ako model ľudskej kognície. Tým sa dostali do konfliktu s východniarskými komputacionalistami. Môj úsudok je že jadrom tohoto sporu tvorí rozdielne chápanie sémantiky. Komputacionalisti zastávajú folkovú sémantiku. Sémantika konekcionistických modelov svojou paralélnym spracovaním a kontinuálnym kvalitatívnym stupňovaním reprezentácii nezodpovedá každodenným intuíciám.

Najväčší úspech slávili neurónové siete pri modelovaní mozgových procesov. Mozog bol naopak vždy tŕňom v oku modulárneho teoretizovania. Oblasti okcipitálneho ľalok, kde prebieha vizuálne spracovanie u opíc a ľudii ešte celkom pekne pasovali k modularistickým predstávam. V okcipitálnom ľaloku nájdeme hierarchicky usporiadané neuróny. Retina zasiela do mozgu signály reprezentujúce farbu a svetelné intenzitu. Mozog na ich základe postupne extrahuje kontrasty, hrany, geometrické tvary, pohyb a rýchlosť. Tým sa však výpočet končí. Reprezentáciu objektov sa nám na neurálnej úrovni ťažko podarí nájsť. Podobne je to s ďalšími komplexnejšími reprezentáciami a funkciami. Linguisti sa ešte mohli pochlapiť hrubozrnnou lokalizáciou modulov pre spracovanie a produkciu reči (Broca a Wernecke). Modulárne teórie sa tak museli uspokojiť s tým, že väčšina neurónov v mozgu produkuje zbytočný šum a nič zmysluplné nereprezentuje. Naopak v mozgu boli objavené neuróny enkódujúce z pohľadu intuitívnej sémantiky nezmyselné veci. Ako napríklad vysvetliť, že signáli vnemových niektorých neurónov boli modulované motorickou reakciou? Takéto mechanizmy miešajú vstupné a výstupné procesy bez toho že by prešli centrálnym spracovaním čo odporuje Fodorovej predstave a základnej architektúre ľudskej mysle (vstupné => centrálne => výstupné spracovanie).

Zipser a Anderson (1988) sa vo svoje štúdii zaoberali transformáciou retinálnej pozície zrakového vnemu na pozíciu v priestore (voči pozícii hlavy/tela). Priestorová reprezentácia pozície je samozrejme dôležitá pre ďalšie výpočty riadiace rozhodovanie a koordináciu motoriky. Z predchádzajúcich štúdii bolo známe, že v posteriórnom parietálnom laloku sa nachádzajú neuróny enkódujú retinálnu pozíciu. Takisto sa tu nachádzajú neuróny reagujúce na vychýlenie oka v očnej dutine a teda kam primát upiera svoj zrak. Nakoniec sa našli aj neuróny, ktoré kombinujú obe informácie. Nedá sa však povedať že by tieto reprezentovali priestorovú pozíciu.

Neurálny profil týchto komplexných neurónov možno skúmať nasledovne. Dáta sú získané snímaním aktivity jednotlivých neurónov v posteriórnom parietálnom laloku. Opice sú pri tom v bdelom stave a na monitore im vedci ukazujú svetelný stimulus. Manipulovaná je pozícia stimulu vzhľadom na retinu a takisto smerovanie zraku (teda vychýlenie oka). Nižšie je znázornený takýto experiment (a). Povedzme že stimulus sa zjaví vždy kúsok na ľavo od smerovania zraku. Meranie je opakované pre všetkých 9 možných pozícii smerovania zraku (doľava, doprava, hore, dole, stred + 4 diagonálne smery) a opakované pre každú pozíciu viackrát. Pri každom meraní získame časovú postupnosť akčných potenciálov (spikes). 9 grafov (b) – každý pre inú orientáciu oka, ukazuje časové histogramy ktoré vyjadrujú frekvenciu vzruchov akumulovanú naprieč meraniami v závislosti od času. Vertikálna čiara znázorňuje čas keď opica videla stimulus. Všetkých deväť grafov zhŕňa pritom merania z rovnakého neurónu. Z grafov sa teda dozvedáme, že neurón sa obzvlášť poteší, keď mu ukážeme stimulus vpravo, keď sa opica pozerá doľava dole. Ak by neurón reagoval na retinálnu pozíciu nezávisle od vychýlenia oka očakávali by sme podobné frekvencie naprieč všetkými deviatimi grafmi. Ak by neurón reagoval len na vychýlenie oka očakávali by sme, že stimulus neovplyvní aktivitu neurónu. Očakávali by sme teda, že aktivita v danom grafe je rovnaká pred a za vertikálnou čiarou.

Znázornený neurón neenkóduje len priestorovú pozíciu stimulu. Treba si všimnúť,že aktivita neurónu v grafoch (b) je rozdielna už pred tým než opica uvidí nejaký stimulus. Aktivita neurónu teda kóduje špecifickú interakciu nasmerovania zraku a retinálnej pozície stimulu.

Posledná grafika (c) sa snaží vyjadriť túto interakciu. Šírka bieleho vonkajšieho prstenca vyjadruje silu reakcie neurónu pred poskytnutím stimulu (suma aktivity vľavo od vertikálnej čiary v grafike (b) a šírka vnútorného čierneho kruhu vyjadruje aktivitu po poskytnutí stimulu mínus aktivita pred tým. Čierny kruh teda vyjadruje aktivitu zapríčinenú poskytnutím stimulu. c) znázorňuje jedno súkružie pre každé smerovanie zraku. V kruhovej grafike vidieť, čo sme pozorovali vyššie – s vychýlením zraku smerom doľava dole stúpa aktivita neurónu pred stimulom a ešte silnejšie po stimule.

Nižšie sú pomocou kruhovej grafiky znázornené namerané profily ďalších neurónov.

K frustrácii vedcov tieto neuróny môžu vykazovať arbitrárne komplexnú štruktúru (obzvlášť g,h,i). Je ťažké predstaviť si ako by mozog mohol profitovať z reprezentácii ktoré poskytujú tieto neuróny. Obsah ich signálov je zmiešanina smerovania zraku, retinálnej a priestorovej pozície. Naše intuície si ťažko vedia predstaviť užitočnosť takýchto semantických koňovtákov.

Zipser a Anderson sa pýtali či a ako sa neurónová sieť môže naučiť transformovať retinálne súradnice na priestorové. Neurónová sieť pozostávala z troch vrstiev neurónov. Vstupné neuróny enkódujú retinálnu pozíciu stimulu (ako aktivitu na poli 8×8 neurónov, pričom stimulus má tvar bivariátnej gausovskej krivky, čo zodpovedá profilu neurónov enkódujúcich retinálnu pozíciu v mozgu)  a takisto vychýlenie oka (8 neurónov pre každy zo štyroch smerov). Vstupné neuróny sú poprepájané k skrytej vrstve, ktorá je poprepájaná k vrstve výstupných neurónov. Výstupné uzly enkódujú priestorovú pozíciu (zasa ako gausovský stimulus lokalizovaný na poli 8×8 neurónov). Autori trénovali sieť pomocou backpropagation algoritmu pre všetky možné kombinácie pozície stimulu na retine a stupňa vychýlenia oka. Tréning bol úspešný a po jeho ukončení sa autori pozreli na profil neurónov v skrytej vrstve. Čo reprezentujú tieto neuróny? Autori zistili, že profil neurónov v skrytej vrstve je veľmi podobný profilu komplexných neurónov pozorovaných v posteriórnom parietálnom laloku u opíc. Nasledujú profily deviatich vybraných skrytých neurónov znázornené pomocou kruhovej grafiky.

Komplexné profily neurónov v posteriórnom parietálnom laloku, teda nie sú žiadnym šumom, ale sú dôležitým medzistupňom pri transformácii retinálnej pozície na pozíciu priestorovú.

Viacerí konekcionisti dospeli na základe takýchto výsledkov k názoru, že prisudzovať význam neurónom je zbytočné a že neuróny v modeloch (a v mozgu žiadnu sémantiku nemajú). Dnes túto pozíciu hlásajú hlavne zástancovia dynamických systémov, ekologickí psychológovia a radikálny zástancovia stelesnenej mysle. Patriarchovia konekcionizmu Jay McClelland alebo Jeff Elman nasledujú líniu typickú pre kognitívne vedy a síce, že neurónové siete tvoria reprezentácie.

Zaujímavé je pozrieť sa na neurónové siete z pohľadu sémantiky Norberta Bischofa, ktorú som predstavil v predchádzajúcom článku. Pripomínam, že Bischof rozdeľuje význam signálov na intencie a kognície. Výstupným/vstupným signálom udeľujeme význam na základe ich optimality. Táto definícia funguje obzvlášť dobre ak prideľujeme význam správaniu a vnemom u organizmov. Medzijednotky spracovania v mozgu však figurujú zároveň ako vstupy a aj ako výstupy k iným jednotkám s rozličnými kritériami optimality a teda rozličnou sémantikou. Produktom je zmiešaná sémantika týchto medzijednotiek. Stupeň miešania bude silnejší čím ďalej sa pozrieme do vnútra mozgu smerom od vstupných a výstupných signálov k centrálnemu spracovávaniu. Táto predpoveď je samozrejme v súlade s evidenciou. Koreláty vnemov a motoriky sú v mozgu jasne štrukturované (hierarchická organizácia V1-V4, senzomotorický homunkulus v parietálnom laloku). Koreláty vyšších kognitívnych funkcii (myslenie, plánovanie, motívácia …) sú difúzne a nie je vôbec jasné či niektoré teoreticky postulované jednotky vôbec v mozgu existujú (vedomie, morálne rozhodovanie). Podľa Bischofa zmiešaná sémantika nie je dôvod na to aby sme odmietli jeho vedeckú definíciu sémantiky v prospech tej folkovej a takisto ani dôvod aby sme sa vzdali sémantiky úplne. Bischof má, čo sa týka sémantiky najbližšie ku konekcionistom, ktorý akceptujú, že neurónové siete (a systémy všeobecne) tvoria reprezentácie akurát ich obsah nezodpovedá našim intuitívnym kategóriám.

Zvážme však nasledujúci návrh. Čo keby sme význam signálov predefinovali a otočili zvnútra von. Neuróny miešajú význam daný vstupmi a výstupmi. Prečo by však mali byť vstupy a výstupy uprednostnené? Nemôžeme definovať význam vstupov a výstupov na základe významu jednotiek so zmiešanou sémantikou? Ako pri probléme zedrých a molených drahokamov. Pojem zedrý môžeme považovať za zmiešaninu zelený a modrý. Zedrý je zložený pojem a modrý je jednoduchý. Naopak pojem modrý môžeme považovať za zmiešaninu morvený a zedrý. Modrý je zložitý pojem a zedrý je jednoduchý.

Intuitívne takéto obrátenie nedáva zmysel, avšak naše sémantické intuície sú nám na to, aby nám pomohli extrahovať význam z fenoménov okolo nás – obzvlášť zo správania iných organizmov a nie z mikroskopických udalostí hlboko v mozgu. Intuitívnosť nie je našim kritériom. Čo hovorí Bischofova sémantika na takéto obrátenie?  Z hľadiska Bischofovej sémantiky, predefinovanie nie je možné z nasledujúcich dôvodov. Sémantika systému je určená kritériom optimality. Optimalita sa vzťahuje na správanie organizmu. Neuróny a ich význam sú podriadené optimalite, avšak len prostredníctvom správania, ktoré produkujú. Z hľadiska celého systému je teda zmiešaná sémantika naozaj zmiešaná. Samozrejme ako systém môžeme zvoliť ľubovoľný výsek mozgu a v rámci tohoto inak zadefinovať optimalitu a cez ňu jednoduché a zložité významy. Tieto definície sa môžu líšiť v porovnaní s definíciami v celom systéme. V tomto prípade je otázkou ktorý systém resp. jeho výsek je ako model zmysluplnejší. Toto je však problém definície systému a nie jednotiek enkódujúcich jednoduchý vs. zložitý význam. K problém definície systému sa vrátim v niektorom z ďalších článkov.

Zipser, D., and Andersen, R.A. (1988). A back-propagation programmed network that simulates response properties of a subset of posterior parietal neurons. Nature 331, 679–684.

Jaynes: Probability Theory, Kapitola 9

V deviatej kapitole Jaynes zahajuje frontálny útok na frekventistickú definíciu pravdepodobnosti. Podľa Jaynesa pravdepodobnosť môže kľudne vyjadrovať aj početnosť avšak vo všeobecnosti tomu tak nemusí byť:

In the last five Chapters we have shown that probability theory as logic can be applied consistently in many problems of inference that do not fi t into the frequentist preconceptions, and so would be considered beyond the scope of probability theory. Evidently, the problems that can be solved by frequentist probability theory form a subclass of those that are amenable to logical probability theory, but it is not yet clear just what that subclass is. In the present Chapter we seek to clarify this with some surprising results, including a new understanding of the role of induction in science. (s. 270)

Jaynes ilustruje svoje predstavy na probléme opakovaných vrhov hracej kocky, kde n je počet vrhov. Odhady pravdepodobnosti rôznych scenárov budú závisieť od apriórnych informácii, ktoré náš model zahrnie. Najnaivnejšia možnosť je definovať množinu výsledkov opakovaných vrhov ako 6^n kombinácii. Model vie iba, že dáta tvoria jednu z 6^n kombinácii. Takto je pravdepodobnosť každého výsledku 6^-m. Pre jeden vrh je pravdepodobnosť výsledku 1/6. Dôležité je, že model nerozoznáva informáciu o konkrétnom hode. To znamená, že po tom čo sme sledovali sériu hodov (6,6,6,6) alebo (2,3,3,5) v oboch prípadoch je pravdepodobnosť ďalšieho hodu šestky rovná 1/6. Pritom pozorovanie štyroch šestiek nám môže poskytnúť užitočnú informáciu o tom, že kocka je upravená a že pravdepodobnosť hodu šestky je asi vyššia ako 1/6. Model to však nedokáže rozlíšiť. Sériu (6,6,6,6) vníma len ako jednu zo 6^4 možností (napr. s poradovým číslom od 1 do 6^4, teda 5x5x5x5+1=626). Prečo by mal výsledok s poradovým číslom 626 zvýšiť pravdepodobnosť výsledku s poradovým číslom 5 pri ďalšom vrhu?

Jaynes prirovnáva takýto model k modelu, ktorý použil Popper pre indukciu všeobecne. Ak sme zistili, že podpora prezidentského kandidáta v prieskume je 67% s odchýlkou 3%, tak ako v prípade hodu kocky, tento prieskum nám neposkytne žiadnu informáciu o podpore prezidenta v celkovej populácii. Náš model nemá možnosť odlíšiť pravdepodobnosti dvoch experimentov s rovnakými systematickými faktormi. Robot nedokáže odlíšiť výsledok psychologického experimentu so šiestimi možnými výsledkami od hodu kockou. Pri predpovedi výsledku replikácie experimentu tak vôbec nevie, že ide o replikáciu. Nedokáže využiť dáta z prvého experimenty na upresnenie odhadu a v konečnom dôsledku môže len povedať, že rozdelenie pravdepodobnosti je rovnomerne 1/6. Pri takomto modele je samozrejme indukcia vysoko problematická. Neumožní nám nič zistiť na základe minulých pozorovaní. Každý model však závisí od apriori informácie z ktorých vychádza. Ak dodáme viacej informácii, ak modelujeme vrhy kockou ako nezávislé vzorky z identického rozdelenia pravdepodobnosti, tak nám náš model dokáže poskytnúť celú radu predpovedí. Podľa Jaynesa je indukciu možné definovať len v závislosti od predchádzajúcich informácii. Podľa Jayenesa neexistujú žiadne všeobecné pravidlá indukcie, ako ich hľadajú a definujú filozofi (Popper, Carnap).

Po tejto krátkej diskusii indukcie nasleduje elaborovaná matematická pitva problému hodu kockou, kde akceptujeme, že hody tvoria vzorky z rovnakého rozdelenia a žiadnu ďalšiu informáciu nemáme. V tomto prípade je pravdepodobnosť určitého výsledku rovná frekvencii tohoto výsledku v dostupných pozorovaniach. V tomto prípade je frekvencia identická s pravdepodobnosťou. Jaynes komentuje:

In our terminology, a probability is something that we assign, in order to represent a state of knowledge, or that we calculate from previously assigned probabilities according to the rules of probability theory. A frequency is a factual property of the real world that we measure or estimate. The phrase “estimating a probability” is just as much a logical incongruity as “assigning a frequency” or “drawing a square circle”.
The fundamental, inescapable distinction between probability and frequency lies in this relativity principle: probabilities change when we change our state of knowledge; frequencies do not. It follows that the probability p(E) that we assign to an event E can be equal to its frequency f(E) only for certain particular states of knowledge. Intuitively, one would expect this to be the case when the only information we have about E consists of its observed frequency; and the mathematical rules of probability theory confi rm this.

Jaynes pokračuje vyšetrovaním prípadu modelu opakovaného vzorkovania s nezávislým a rovnakým rozdelením vzoriek. Pre tento prípad je možné testovať hypotézy. Jaynes odvodzuje takzvaný psi test, ktorý nám povie či početnosť určitého javu (napr. vrhu mincou) zodpovedá očakávaným frekvenciám/pravdepodobnostiam (napr. 0.5 pre hlava). Trochu paradoxne tento test na prvý pohľad netestuje alternatívnu hypotézu. Jaynes ukazuje, že množina alternatívnych hypotéz je v teste implicitne definovaná ako takzvaná Bernoulliho skupina. Psi test je veľmi podobný chi-kvadrát testu používaného frekventistami. Jaynes poukazuje na to, že chi-kvadrát test je typický frekventistický ad-hoc výmysel, ktorého používanie nevyhnutne vedie k problémom. V prvom rade, podmienky a množina alternatívnych hypotéz, ktoré boli dôležité pre odvodenie psi testu rovnako platia pre chi-kvadrát test, avšak nie sú frekventistom známe, keďže títo vytiahli chi-kvadrát z rukáva. Po druhé, chi-kvadrát je podobný avšak nie identický s psi testom. Pri testovaní pravdepodobnosti veľmi nepravdepodobných udalostí sa výsledky chi-kvadrát a psi testu líšia a použitie chi-kvadrát testu vedie k absurdným záverom.

Kapitolu uzatvára historický príklad. Jaynes vysvetľuje ako Edmund Halley v 17. storočí odhadoval úmrtnosť obyvateľstva. V tomto príklade sú odhady pravdepodobnosti úmrtia proporčné pozorovaným frekvenciám.

V záverečných komentároch Jaynes rozoberá svoje predstavy o roly indukcie. Trochu ma prekvapilo, že Jaynes zastáva v podstate kombináciu indukcie a dedukcie v praxi. Indukcia aplikovaná bayesiánskou štatistikou nám pomôže zistiť pravdepodobnosť určitej hypotézy. V kontraste s Popperovými predstavami nie je množina alternatívnych hypotéz nekonečná, ale vedec ju musí zadefinovať a ohraničiť. Verifikácia hypotézy nie je absolútna ale probabilistická. Jaynes to nevidí ako problém. V konečnom dôsledku nám indukcia umožní prísť s kvantitatívnymi predpoveďami. Ak sa tieto nenaplnia musíme sa vrátiť k definícii modelu a tento vylepšiť. Jaynesov proces testovania predpovedí teda zahŕňa aj deduktívnu časť falzifikovania a vylepšovania modelu. Takýto prístup je typický pre modernú bayesiánsku analýzu (Gelman, 2011). Na druhej strane by som na základe Jaynesovej koncepcie modelu ako robota, ktorému dodávame informácie a dáta očakával, že Jaynes bude preferovať plnú automatizáciu a formalizáciu inferenčného procesu – tak ako je to typické vo výskume učenia strojov.

Gelman, A. (2011). Induction and deduction in Bayesian data analysis. Rationality, Markets and Morals, 2:67–78.

Autoregresný model zápalkových dát

Vrátil som sa počas sviatkov k analýze zápalkových dát. V predchádzajúcom článku som poznamenal, že probandi sa počas konkrétnej štúdie zlepšujú – čas potrebný na vyriešenie problému v priebehu experimentu klesá. Reakčné časy môžeme modelovať ako autoregresný proces, kde reakčný čas závisí na reakčnom čas v predchádzajúcej úlohe.

x_{t} ~ \sim \mathcal{N}(A_{t-1,t}x_{t-1},\sigma)

Nová vzorka je teda zmenšená hodnota predchádzajúcej vzorky. Parameter A vyjadruje prechod od jedného typu problému k druhému. Pre jednoduché problémy a zložité problémy rovnakého typu je táto konštanta rovnaká. Povedzme, že proband potreboval 100 sekúnd na vyriešenie prvého problému, následne vyriešil 3 ďalšie jednoduché problémy a konštanta A pre prechod medzi dvoma jednoduchými problémami má hodnotu 0.8. Náš model následne predpovedá hodnoty 0.8^1 \times 100, 0.8^2 \times 100, 0.8^3 \times 100. Povedzme, že po štvrtom probléme nasleduje ťažký problém. Aká bude hodnota konštanty A, ak reakčný čas oveľa dlhší ako doba riešenia predchádzajúcej úlohy? A musí byť o dosť väčšie ako 1. Naopak ak po ťažkej úlohe nasleduje úloha ľahká A musí byť zlomok menší 1. Pri našej analýze poznáme dáta a snažíme sa hodnoty koeficientov A pre rôzne typy úloh zistiť. Tieto nám pomôžu posúdiť ktoré úlohy sú ťažšie a ktoré ľahšie. Takisto sa môžeme dozvedieť či riešenie ťažkých úloh ovplyvňuje riešenie jednoduchých úloh (ak A pri prechode z ľahkej ku ťažkej je odlišné od 1/A získaného pri prechode z ťažkej späť k ľahkej úlohe). Nakoniec ak náš autoregresný proces začne vo vychýlenom stave rôznom od nuly tak v priebehu experimentu pre A menšie ako 1 konverguje k nule čím získame exponenciálne rozdelenie reakčných časov.

Ak nechceme aby náš proces konvergoval k nule ale k nejakej pozitívnej hodnote pridáme do modelu konštantný pozitívny koeficient b.

z_{t} ~ \sim \mathcal{N}(A_{t-1,t}x_{t-1},\sigma)
x_{t} = z_{t}+b

Tento model aplikujeme na dáta od každého probanda. Pre každého probanda odhadneme b,\sigma. b možno interpretovať ako konštantný minimálny čas potrebný na vyriešenie úlohy (napr. potrebný pre prečítanie zadania). A odhadneme pre každého probanda len pri prechode medzi jednoduchými problémami. Pre situáciu prechodu od jednoduchých k zložitým úlohám nemáme dosť dát (len jedno pozorovanie u každého probanda) aby sme odhadli individuálne parametre.

Výsledky pri prechode z jednoduchých do zložitých problémov vyzerajú nasledovne.

Z grafiky vidieť, že tretia úloha je najťažšia a jej vyriešenie trvá ca. 13 násobne dlhšie ako u predchádzajúcej jednoduchej úlohy. Naopak štvrtý typ úlohy je porovnateľný s jednoduchými úlohami. Ak sa však pozrieme na koeficienty pre prechod medzi jednoduchými úlohami, zistíme, že autoregresný model je neadekvátny. Nižšie sú znázornené koeficienty A pre všetkých probandov. Znázornené sú stredové hodnoty (vyplnené bodky) aj s konfidenčným intervalom 95 % pre aposteriórne rozdelenie. V dolnej grafike je histogram stredových hodnôt.

Vidieť, že hodnoty sú v rozpätí 0 až jedna ako sme očakávali. Problém je že pre mnoho probandov sú koeficienty rovné nule. Tento výsledok nám hovorí že znalosť doby riešenia predchádzajúcej úlohy nám neumožní lepšie predpovedať nasledujúce reakčné časy. Pre A=0 získame model x_{t} ~ \sim \mathcal{N}(b,\sigma), ktorý vychádza z toho že x_{t} sú navzájom nezávislé. Tento model je ekvivalentný regresnému modelu z predchádzajúceho článku. V prípadoch, kde koeficienty nie sú rovné nule pozorujeme vysokú neistotu v odhadoch parametrov, čo znova hovorí proti správnosti modelu. Na tomto mieste je najlepšie vrátiť sa k jednoduchšiemu modely z predchádzajúceho článku. To neznamená nevyhnutne, že v dátach nie sú žiadne časové súvislosti, akurát, že náš jednoduchý AR(1) model ich nedokáže popísať.

Nate Silver: Signal and Noise

Silvera najskôr budete poznať v súvislosti s tohtoročnými americkými prezidentskými voľbami. Pomocou štatistických modelov (a s trochou šťastia) sa Silverovi podarilo na svojom blogu pre NY Times predpovedať výsledky voľby vo všetkých amerických štátoch a tým celkovú pohodlnú výhru pre Obamu. Silverove predpovede stáli v kontraste s vyjadreniami politických analytikov, ktorý očakávali tesný výsledok. Silver sa stal obeťou nevyberavých útokov zo strany republikánskych politických komentátorov (k čomu zrejme prispelo aj, že Silver je homosexuál). Silver ponúkol svojim kritikom aby sa stavili o peniaze, za čo sa mu dostalo kritiky od editorky NY Times. (Alex Tabbarok sa Silvera zastal a pri tejto príležitosti vypustil bonmot, že stávkovanie je daňou na nezmysli “A Bet is a Tax on Bullshit”.) Výsledky volieb však dali Silverovi za pravdu.

Zhodou okolností na jeseň 2012 vyšla Silverovi jeho prvá populárno-vedecká kniha s názvom “Signal and Noise: Why so many predictions fail – but some don’t“. Silver vyštudoval ekonómiu a po štúdiu pracoval ako analytik pre jednu účtovnícku firmu. Job ho moc nebavil a vo voľnom čase vyvinul štatistický program PECOTA, ktorý predpovedal štatistiky baseballových hráčov a v konečnom dôsledku ich hodnotu a úspešnosť tímov za ktoré hrajú. Neskôr svoj program odpredal a istý čas sa živil hraním pokeru. V súvislosti s plánovaným legislatívnym zákazom hrania online pokeru sa Silver začal zaujímať o politiku. Čoskoro zistil, že úroveň politických analýz je mizerná a empirický štatistický prístup by ponúkol o triedu úspešnejšie predpovede. Od roku 2007 tak začal Silver analyzovať politické predpovede.

Kniha dnes 34 ročného Silvera vychádza z jeho bohatej skúsenosti a zaoberá sa úspechmi a limitmi štatistických analýz. Jedným z hlavných leitmotívov jeho knihy je, že naše každodenné intuície a biasy nás obmedzujú pri tvorbe realistických predpovedí. Toto je najlepšie vidieť v politike, baseballe a ekonómii, kde predpovede takzvaných expertov sú mnohokrát úplne vedľa. Hlavným problém kvalitatívnych ľudských expertných analýz je že tieto nemyslia probabilisticky. Odhady bez zváženie neistoty – t.j. variability predpovedaných hodnôt sú neúplné. Toto môže viesť k fatálnym následkom, napríklad keď vedci predpovedali, že úroveň hladiny rieky dosiahne 49 palcov a teda nepresiahne 51 palcov vysokú hrádzu. Pritom zahrnutie variability odhadu by umožnilo zistiť, že pravdepodobnosť, že hladina prekročí hrádzu je až 30 percent a teda treba vykonať ďalšie opatrenia na posilnenie hrádze. Podobne, hrozivé správy o prekvapivom prepade ekonomiky oproti predpovediam o desatinu percentuálneho bodu sú bogus keďže očakávaná odchýlka samotných odhadov je oveľa viac ako 0.1.

Nie všade je však štatistický prístup zaručenou spásou. Problém tvoria nedostatočné dáta, ktoré neumožňujú zovšeobecnenia a takisto nedostatočná znalosť kauzálnych procesov, ktoré tvoria dáta. Takto je tomu v prípade predpovedí zemetrasení, chrípkových epidémii a makroekonomických indikátorov (napr. nezamestnanosť alebo inflácia). Silver naopak prezentuje úspešný príbeh predpovedania počasia, kde veda zaznamenala obrovský pokrok. Vďaka množstvu dát a schopnosti počítačovo vyhodnotiť komplexné modely sa zlepšila presnosť predpovedí počasia. Obzvlášť pozoruhodný je prípad predpovede hurikánov. Vedci sú dnes schopní predpovedať príchod hurikánu 3 dni dopredu s presnosťou ca. 100 míl, čo umožňuje zmysluplnú evakuáciu. Pred 40 rokmi vedeli vedci určiť oblasť v rozsahu 300 míl 24 hodín dopredu.

Silverovou druhou nosnou témou je, že počítače samy o sebe nám nezaručia presné predpovede. Ideálnou stratégiou je kombinovať štatistické metódy s ľudskou kreativitou a flexibilitou pri rozhodovaní. Tento bod mi nie je celkom jasný. Silver totiž formuluje svoju pozíciu ako kritiku frekventistickej štatistiky. Silver uprednostňuje bayesiánsku štatistiku, ktorá umožňuje lepšie kombinovať subjektívne vedomosti so štatistickou inferenciou. Skôr mám dojem, že Silverov kontrast vystihuje rozdelenie Christophera Bishopa ML aplikácii na tri generácie. Tretia generácia čerpá z bayesiánskej štatistiky a aplikácie umožňujú zahrnúť subjektívne doménovo špecifické poznatky do predpovedí. Druhú generáciu tvoria black-box algoritmy ako SVM a neurónové siete a prvú generáciu tvorí GOFAI. Silver sa v knihe zaoberá víťazstvom Deep-blue nad Kasparovom ku konci minulého storočia. Silver vyzdvihuje, že deep-blue bol úspešný práve vďaka tomu, že programátori zakomponovali do výpočtov množstvo šachových znalostí.

Silverova snaha kritizovať frekventistov, následne triafa mimo a viacerí štatistici už jeho knihu za to kritizovali. Výzvou by Silverovi mali byť oblasti kde 2. generácia exceluje. Napr. rôzne algoritmy sú schopné dekódovať mozgové signály v reálnom čase. Za týmito úspechmi nestoja lepšie meracie prístroje ale práve lepšia štatistika a lepšie algoritmy. Silver tieto oblasti opomína. V konečno dôsledku sa mi tak zdá, že knihu je lepšie vidieť ako prehľad zaujímavý prípadov modernej aplikácie štatistiky. Tieto moc nesúvisia a tvoria koláž na spôsob Freakonomics. Silver sa nakoniec snažil knihe dodať ucelenú myšlienku čo mu ale moc s jeho stavaním sa do pozície bayesiána nevyšlo.

Odhliadnúc od týchto viacmenej akademických polemík, som nadšený z toho, že štatistické myslenie sa vďaka Silverovej knihe dostane do širšieho povedomia. Musíme, si uvedomiť, že všetky predpovede nevyhnutne zahŕňajú určitú mieru neistoty. Pri politických prieskume sa musíme pýtať aké je rozhranie v ktorom môžeme na základe výsledkov s istotou lokalizovať popularitu strany alebo politika. Predpovede rastu HDP, nezamestnanosti alebo inflácie sú takisto stanovené s určitou presnosťou. Je rozdiel či očakávam priemerný rast HDP 1.4 pri intervale 1.3 až 1.5 alebo 0.9 až 1.9 percent. Až znalosť presnosti odhadu nám umožní vyhodnotiť jej úspešnosť. V prípade predpovedí klimatických zmien môže nesprávne chápanie predpovedí viesť k dojmu, že tieto sú nepresné, keďže nepredpovedali zmeny teploty do poslednej desatiny stupňa Celzia a tým diskreditujú celú klimatológiu. Nakoniec v oblasti hier a stávkovania môže byť probabilistické myslenie obrovskou výhodou. Trochu, paradoxne najviac ho zúžitkujete práve v konkurencii ignorantov, ktorých predpovede a stávky trpia ilúziou istoty. Poznatky zo Silverovej knihy tak môžno najlepšie aplikovať práve v izolovanej intelektuálnej púšti akou je stredozem. Do toho!