Diskusia o bayesiánskej filozofii

Andrew Gelman zhrnul svoju filozofiu analýzy dát v článku, ktorý vyšiel aj s diskusiou v britskom časopise pre matematickú a štatistickú psychológiu. Bayesiánska štatistika býva stotožňovaná s induktívnou filozofiou v protiklade s dominantným deduktívnym frekventistickým prístupom. Podľa tejto tradičnej bayesiánskej filozofie spočíva vedecký proces v postupnej zmene pravdepodobností rôznych hypotéz (= teórii) na základe pribúdajúcich dát.Tento proces je znázornený nižšie. Zľava doprava pribúdajú dáta a pravdepodobnosť hypotéz sa mení.

Falzifikácia a objavovanie nových hypotéz nemá v tomto prístupe priestor. Všetky hypotézy a teórie sú prítomné a vyhodnocované od začiatku zberu dát. Takáto predstava nekorešponduje so skutočným vedeckým procesom a ani nereflektuje rozšírenú bayesiánsku prax. Bayesiánske analýzy namiesto toho postupujú hypoteticko-deduktívne. Tento prístup prístup spočíva v postulovaní štatistickeho modelu, ktorý je následne testovaný, falzifikovaný a vylepšený. Táto falzifikácia pritom môže nastať bez toho aby sme získali nové dáta – falzifikácia prebieha s pomocou základe dát pomocou ktorých sme model vytvorili a ktorý slúžil získanie parametrov.

Bayesiánske modely umožňujú vygenerovať pomocou modelu syntetické dáta. Tieto sú následne porovnané s aktuálnymi dáta a ak je diskrepancia medzi modelom a realitou vážna je potrebné štatistický model vylepšiť. Túto diskrepanciu je možné určiť aj kvantitatívne avšak väčšinou sa deje porovnanie kvalitatívne resp. graficky. Takúto analýzu som ilustroval aj na Mozgostrojoch. Takisto treba dodať, že tento hypoteticko-deduktívny prístup nie je vôbec nový. Stretli sme sa s ním napríklad u E.T. Jaynesa. Ďalším dôležitým proponentom je George Box a analýzy časových rád Box-Jenkinsovou metódou sú jeho najlepším príkladom. Hypoteticko-deduktívny prístup možno z časti identifikovať ako filozofiu objektívnych bayesiánov v kontraste k subjektívnym bayesiánom, ktorý preferujú induktivistickú filozofiu.

Priznám sa, že som sa vo svojej mladej vedeckej kariére s induktivistickou bayesiánskou filozofiou takmer nestretol a mená ich zástancov ako Lindley, Savage podobne ako Popper a Fischer na druhej strane barikády sú pre mňa historickými referenciami. Myslím, že celá debata indukcia verzus dedukcia je dnes už zbytočná. Moderný prístup bude ich zmesou. Takisto si myslím, že existujú dôležitejšie a pragmatickejšie otázky ako zisťovať akú a ktorú proporciu tejto zmesy tvorí indukcia resp. dedukcia, ako indukciu, dedukciu zadefinovať a či treba zahrnúť aj ďalšie spôsoby inferencie ako abdukcia, analógia etc.

Zaujímavé otázky sa týkajú problému ako deduktívny krok štatistickej analýzy formalizovať a automatizovať. Deduktívny krok nezahŕňa len testovanie modelu ale určuje aj smer ktorým sa následne analýza vyberie – ako model vylepšiť, ktorý model testovať v ďalšom kroku. (V tomto zmysle “deduktívny krok” zahŕňa indukciu, keďže dedukcia nám neumožňuje z rozporu a falzifikácie nič konštruktívne vyvodiť.) Časťou problému je nájsť spôsob ako reprezentovať množinu všetkých modelov. Táto množina musí byť dostatočne veľká aby zahrnula optimálne riešenia a pri všemožných analýzach – teda aby bola automatizovaná metóda dostatočne všeobecná a aplikovateľná na celé spektrum štatistických problémov. Na druhej strane je ťažké takúto rozsiahlu množinu modelov prehľadať. Ako zvoliť správnu sekvenciu modelov tak, aby sme sa dopracovali v čo najkratšej sérii krokov (=falzifikácii) k optimálnemu modelu? Tieto otázky sa dotýkajú roli kreativity a vhľadu vo vedeckom procese (a pri riešení problémov všeobecne) a ako kreativitu a vhľad formalizovať. Možno trochu typicky ostali tieto zaujímavé otázky pred bránami filozofickej diskusie. (Diskusiu však nájdete na Gelmanovom blogu aj s odkazmi na prvé pokusy o formalizáciu – tu, tu a tu.)

Gelman, A., & Shalizi, C. R. (2013). Philosophy and the practice of Bayesian statistics. British Journal of Mathematical and Statistical Psychology, 66, 8–38