Nate Silver: Signal and Noise

Silvera najskôr budete poznať v súvislosti s tohtoročnými americkými prezidentskými voľbami. Pomocou štatistických modelov (a s trochou šťastia) sa Silverovi podarilo na svojom blogu pre NY Times predpovedať výsledky voľby vo všetkých amerických štátoch a tým celkovú pohodlnú výhru pre Obamu. Silverove predpovede stáli v kontraste s vyjadreniami politických analytikov, ktorý očakávali tesný výsledok. Silver sa stal obeťou nevyberavých útokov zo strany republikánskych politických komentátorov (k čomu zrejme prispelo aj, že Silver je homosexuál). Silver ponúkol svojim kritikom aby sa stavili o peniaze, za čo sa mu dostalo kritiky od editorky NY Times. (Alex Tabbarok sa Silvera zastal a pri tejto príležitosti vypustil bonmot, že stávkovanie je daňou na nezmysli “A Bet is a Tax on Bullshit”.) Výsledky volieb však dali Silverovi za pravdu.

Zhodou okolností na jeseň 2012 vyšla Silverovi jeho prvá populárno-vedecká kniha s názvom “Signal and Noise: Why so many predictions fail – but some don’t“. Silver vyštudoval ekonómiu a po štúdiu pracoval ako analytik pre jednu účtovnícku firmu. Job ho moc nebavil a vo voľnom čase vyvinul štatistický program PECOTA, ktorý predpovedal štatistiky baseballových hráčov a v konečnom dôsledku ich hodnotu a úspešnosť tímov za ktoré hrajú. Neskôr svoj program odpredal a istý čas sa živil hraním pokeru. V súvislosti s plánovaným legislatívnym zákazom hrania online pokeru sa Silver začal zaujímať o politiku. Čoskoro zistil, že úroveň politických analýz je mizerná a empirický štatistický prístup by ponúkol o triedu úspešnejšie predpovede. Od roku 2007 tak začal Silver analyzovať politické predpovede.

Kniha dnes 34 ročného Silvera vychádza z jeho bohatej skúsenosti a zaoberá sa úspechmi a limitmi štatistických analýz. Jedným z hlavných leitmotívov jeho knihy je, že naše každodenné intuície a biasy nás obmedzujú pri tvorbe realistických predpovedí. Toto je najlepšie vidieť v politike, baseballe a ekonómii, kde predpovede takzvaných expertov sú mnohokrát úplne vedľa. Hlavným problém kvalitatívnych ľudských expertných analýz je že tieto nemyslia probabilisticky. Odhady bez zváženie neistoty – t.j. variability predpovedaných hodnôt sú neúplné. Toto môže viesť k fatálnym následkom, napríklad keď vedci predpovedali, že úroveň hladiny rieky dosiahne 49 palcov a teda nepresiahne 51 palcov vysokú hrádzu. Pritom zahrnutie variability odhadu by umožnilo zistiť, že pravdepodobnosť, že hladina prekročí hrádzu je až 30 percent a teda treba vykonať ďalšie opatrenia na posilnenie hrádze. Podobne, hrozivé správy o prekvapivom prepade ekonomiky oproti predpovediam o desatinu percentuálneho bodu sú bogus keďže očakávaná odchýlka samotných odhadov je oveľa viac ako 0.1.

Nie všade je však štatistický prístup zaručenou spásou. Problém tvoria nedostatočné dáta, ktoré neumožňujú zovšeobecnenia a takisto nedostatočná znalosť kauzálnych procesov, ktoré tvoria dáta. Takto je tomu v prípade predpovedí zemetrasení, chrípkových epidémii a makroekonomických indikátorov (napr. nezamestnanosť alebo inflácia). Silver naopak prezentuje úspešný príbeh predpovedania počasia, kde veda zaznamenala obrovský pokrok. Vďaka množstvu dát a schopnosti počítačovo vyhodnotiť komplexné modely sa zlepšila presnosť predpovedí počasia. Obzvlášť pozoruhodný je prípad predpovede hurikánov. Vedci sú dnes schopní predpovedať príchod hurikánu 3 dni dopredu s presnosťou ca. 100 míl, čo umožňuje zmysluplnú evakuáciu. Pred 40 rokmi vedeli vedci určiť oblasť v rozsahu 300 míl 24 hodín dopredu.

Silverovou druhou nosnou témou je, že počítače samy o sebe nám nezaručia presné predpovede. Ideálnou stratégiou je kombinovať štatistické metódy s ľudskou kreativitou a flexibilitou pri rozhodovaní. Tento bod mi nie je celkom jasný. Silver totiž formuluje svoju pozíciu ako kritiku frekventistickej štatistiky. Silver uprednostňuje bayesiánsku štatistiku, ktorá umožňuje lepšie kombinovať subjektívne vedomosti so štatistickou inferenciou. Skôr mám dojem, že Silverov kontrast vystihuje rozdelenie Christophera Bishopa ML aplikácii na tri generácie. Tretia generácia čerpá z bayesiánskej štatistiky a aplikácie umožňujú zahrnúť subjektívne doménovo špecifické poznatky do predpovedí. Druhú generáciu tvoria black-box algoritmy ako SVM a neurónové siete a prvú generáciu tvorí GOFAI. Silver sa v knihe zaoberá víťazstvom Deep-blue nad Kasparovom ku konci minulého storočia. Silver vyzdvihuje, že deep-blue bol úspešný práve vďaka tomu, že programátori zakomponovali do výpočtov množstvo šachových znalostí.

Silverova snaha kritizovať frekventistov, následne triafa mimo a viacerí štatistici už jeho knihu za to kritizovali. Výzvou by Silverovi mali byť oblasti kde 2. generácia exceluje. Napr. rôzne algoritmy sú schopné dekódovať mozgové signály v reálnom čase. Za týmito úspechmi nestoja lepšie meracie prístroje ale práve lepšia štatistika a lepšie algoritmy. Silver tieto oblasti opomína. V konečno dôsledku sa mi tak zdá, že knihu je lepšie vidieť ako prehľad zaujímavý prípadov modernej aplikácie štatistiky. Tieto moc nesúvisia a tvoria koláž na spôsob Freakonomics. Silver sa nakoniec snažil knihe dodať ucelenú myšlienku čo mu ale moc s jeho stavaním sa do pozície bayesiána nevyšlo.

Odhliadnúc od týchto viacmenej akademických polemík, som nadšený z toho, že štatistické myslenie sa vďaka Silverovej knihe dostane do širšieho povedomia. Musíme, si uvedomiť, že všetky predpovede nevyhnutne zahŕňajú určitú mieru neistoty. Pri politických prieskume sa musíme pýtať aké je rozhranie v ktorom môžeme na základe výsledkov s istotou lokalizovať popularitu strany alebo politika. Predpovede rastu HDP, nezamestnanosti alebo inflácie sú takisto stanovené s určitou presnosťou. Je rozdiel či očakávam priemerný rast HDP 1.4 pri intervale 1.3 až 1.5 alebo 0.9 až 1.9 percent. Až znalosť presnosti odhadu nám umožní vyhodnotiť jej úspešnosť. V prípade predpovedí klimatických zmien môže nesprávne chápanie predpovedí viesť k dojmu, že tieto sú nepresné, keďže nepredpovedali zmeny teploty do poslednej desatiny stupňa Celzia a tým diskreditujú celú klimatológiu. Nakoniec v oblasti hier a stávkovania môže byť probabilistické myslenie obrovskou výhodou. Trochu, paradoxne najviac ho zúžitkujete práve v konkurencii ignorantov, ktorých predpovede a stávky trpia ilúziou istoty. Poznatky zo Silverovej knihy tak môžno najlepšie aplikovať práve v izolovanej intelektuálnej púšti akou je stredozem. Do toho!

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s