Pravdepodobnosť chybných hlasov

Marek Pícha píše:

Dejme tomu, že kandidát na prezidenta odevzdá 60 000 hlasů. Práh je 50 000 dobrých hlasů. Předpokládejme, že kandidát tedy potřebuje šanci 5:1 ve prospěch dobrých hlasů, tj. hypotéza, že projde, má prior probability 83 %. Ukázalo se ale, že průměrná chybovost ve vzorku 17 000 hlasů je 20 %. Jak se změní pravděpodobnost hypotézy s ohledem na tato nová data? Lze to vměstnat do Bayesova teorému? A dozvím se tím vlastně něco zajímavého?

To zadanie rozviniem a preformulujem do žargónu bayesiánskej analýzy. Modelujeme pravdepodobnosť platnosti hlasu ako parameter t s hodnotami medzi 0 a 1. Naše apriori vedomosti sú dané ako rozdelenie pravdepodobnosti p(t). Tu začínajú zmätky, lebo nás zaujíma pravdepodobnosť pravdepodobnosti. Lepšie je vnímať t ako parameter, ktorého hodnoty sú zhodou okolností v rozhraní 0 až 1. Volajme t jednoducho platnosť hlasu. Povedzme že naša apriori informácia je, že pravdepodobnosť platnosti hlasu t je rovnomerne rozdelená medzi hodnotami t 0 až 1. Platí teda napríklad, že p(t>0.75)= p(0.75>t>0.5)= p(0.5>t>0.25)= p(t<0.25)=0.25 a vo všeobecnosti p(t=r)=1 pre každé 0<r<1. Ďalej sme sa dozvedeli, že bolo zozbieraných N=60k hlasov. Na základe nášho apriori p(t) sa pýtame aká je pravdepodobnosť pre H1: minimálne 50k hlasov je platných? Označme počet platných hlasov ako K. Platí (pomocou marginalizácie) p(H1)=p(K>50k)=\sum_r p(K>50k|t=r,N)p(t=r) = \sum_r p(K>50k|t=r,N). Povedzme, že p(K>50k|t,N)= 1/N ak t>K/N a inak 0. Inak povedané pozriem sa na každé t medzi 0 a 1 na základe t a N odhadnem K ako K=t*N a pozriem sa, či K>50k. Zrátam prípady všetkých t pre ktoré K>50k platí a vydelím N. Tým dostanem 83%.

Teraz prichádza na radu bayes. Dostaneme informáciu, že N1 = 17k a K1 = 13.6k. Ako prvé zistíme posterior pre parameter t: p(t|N1,K1)= p(N1,K1|t) p(t)/p(N1,K1). Potom môžeme odhadnúť pravdepodobnosť H1 ako p(H1|N1,K1)=p(K2>36.4k)=\sum_r p(K2>36.4k|t=r,N2)p(t=r|N1,K1), pričom som definoval N=N1+N2 a K=K1+K2. Konkrétny výsledok závisí od voľby p(N1,K1|t). Napríklad môžeme povedať, že N1 a K1 sú jednoznačne a bez akýchkoľvek pochybností determinované parametrom t. Potom platí, že p(N1,K1|t)=1 pre t=K1/N1 a 0 pre všetky ostatné t. Následne p(H1|N1,K1)=0, jednoducho preto lebo 13.6/17 = 0.79 < 0.847 = 36.4/43. Zmysluplnejšia voľba pre p(N1,K1|t) by bolo binomiálne rozdelenie.

Potom očakávaná hodnota pre p(t|N1,K1) je znova 0.79 ale štandardná odchýlka je ca. 1% a teda nenulová. Na výsledku p(H1)=0 to však moc nezmení, keďže 0.847 je vzdialené až ca. 5 štandardných odchýlok od 0.79. Analýzu by bolo možno ďalej vylepšiť tým, že by sme pri výpočte p(K>50k|t=r,N) neodhadovali K=t*N deterministicky, ale počítali napr. pomocou binomiálneho rozdelenia ako vyššie pre p(N1,K1|t). Výsledok sa mi nechcelo rátať takže som ho simuloval. Nižšie vidieť v histograme že žiadna z 10k simulovaných vzoriek nebola vyššia ako K=35200.

Zaujímavé je podľa mňa, že stratégia výpočtu, ktorú používa MP pre 0.83 zahŕňa implicitný predpoklad,že apriori rozdelenie p(t) je rovnomerné. Takýto predpoklad značne uľahčuje výpočet, ale nedáva moc zmysel. Napríklad p(t=0) (všetky chybné) je oveľa menej pravdepodobná ako povedzme p(t=0.999). Bayesiánska analýza odkrýva tento predpoklad a umožňuje zvoliť plauzibilnejšie rozdelenie pravdepodobnosti.

EDIT 30/11/2012: Opravil som čísla pre N1,K1 a K2 aby boli konzistentné so zadaním a doplnil výsledky. Pôvodné znenie článku nesprávne rátalo s N1=20k a K1=17k.

Špeciáne vydanie PPS o replikácii

Novembrové číslo PPS sa venuje téme replikácie. Ak sledujete tento blog tak ste si zrejme všimli, že táto téma je vďaka viacerým škandálom tak trochu aktuálna. Vskutku o tejto téme sa už toľko popísalo, že sám som si nebol istý či ešte treba nejaké ďalšie články. Musím však dodať, že niektoré príspevky rozhodne prinášajú nové perspektívy a myšlienky. Ak sa vám nechce čítať všetky články, tento blogpost poskytuje krátky prehľad a súhrn toho najdôležitejšieho (výber je samozrejme subjektívny).

Špeciálne číslo editovali E.J. Wagenmakers a Harold Pashler. V editoriáli poskytujú krátky súhrn súčasných kauz, ktoré postihli psychológiu a rovnako krátko predstavia zahrnuté články. Články poskytuju rozličné riešenia a pohľady na krízu:

In the opinion of the editors of this special section, it would be a mistake to try to rely upon any single solution to such a complex problem. Rather, it seems to us that psychological science should be instituting parallel reforms across the whole range of academic practices—from journals and journal reviewing to academic reward structures to research practices within individual labs—and finding out which of these prove effective and which do not. (s. 529)

Pashler vo svojom autorskom článku s Christine Harris vyvracajú tri argumenty, ktoré sa snažia bagatelizovať rozsah krízy. A1. “Nereplikovateľné signifikantné výsledky sa vždy objavia a síce s nominálnou pravdepodobnosťou 5 %.” Na tomto blogu sme viackrát videli, že problémom súčasnej krízy je že táto nominálna úroveň alfa chyby je vyššia v dôsledku používania nesprávnych výskumných stratégii. A2. “Priame replikácie sú síce zriedkavé ale konceptuálne replikácie sú bežné a efektívne riešia problém replikovateľnosti.” Proti konceptuálnym replikáciám sa vyjadrili už LeBel s kolegom (a ja som písal o ich článku tu). V PPS sa problémami konceptuálnych replikáci zaoberá aj autorských článok Wagenmakersa. V skratke, konceptuálne replikácie nedokážu falzifikovať hypotézu. Replikácie buď uspejú a hypotéza je potvrdená. Ak replikácie neuspejú tak nevieme, či hypotéza neplatí alebo či ľahká obmena v dizajne experimentu viedla k negatívnemu výsledku. Jedinou možnosťou ako identifikovať neplatné signifikantné výsledky je priama replikácia. Priama replikácia sa snaží verne zopakovať experiment na základe metodiky uvedenej v publikácii. A3. “Veda koriguje nesprávne signifikantné výsledky ale chvíľu to potrvá. Momentálne rozpaky nad nereplikovateľnosťou predstavujú len zbytočnú netrpezlivosť.” Autori poukazujú na to, že ak určité teórie vymiznú z literatúry tak to nemusí byť nevyhnutne kvôli ich replikovateľnosti. Naopak kopa teórii mizne, lebo prestávajú byť módne. Teoretický posun v psychológii nemusí znamenať posun na základe empírie, ale len prechodné módne zmeny. Autori ďalej poukazujú na vývin v onkológii, kde nízka replikovateľnosť  nezabránila propagácii nesprávnych záverov. Vskutku viaceré následné štúdie boli vystavané na neplatných výsledkoch. Autori uzatvárajú, že korekcia chýb sa nestane sama od seba ale bude vyžadovať reformu.

Makel s kolegami sa pozreli na počet publikovaných replikácii a zistili že zhruba 1% štúdii tvoria pokusy o replikácie. Táto štatistika nie je moc zaujímavá. Publikované replikácie trpia publikačným biasom. Väčšina publikovaných replikácii je úspešná. Polovicu replikácii vykonali autori pôvodnej štúdie. A vo väčšine prípadov (80%) ide o konceptuálne replikácie, ktoré sú, ako bolo spomenuté vyššie nezaujímavé.

Giner-Sorrola napísal asi najzaujímavejší článok v celom čísle. Ponúka trochu historickej perspektívy. Podobná kríza bola totiž diskutovaná psychológmi už v 70. rokoch. Viaceré pokusy riešenia neuspeli (napr. v založených časopisoch venovaných replikáciam a nesignifikantným výsledkom takmer nikto nepublikoval). Zmenila sa aj štatistická prax. Intepretovanie výsledkov s 0.05 < p <0.1 prestalo byť tabu, sila efektu sa stala povinnou súčasťou štatistického súhrnu článku a meta-analýzy sa stali súčasťou dobrej výskumnej praxe. Ďalším vývinom bol nárast počtu experimentov v jednej publikácii. Tieto majú tvoriť úspešné konceptuálne replikácie a tým chrániť pred alfa chybou. Okrem problémov samotných konceptuálnych replikácii, viaceré malé štúdie na úkor jednej väčšej poskytujú širšíe možnosti pre selektívne ukrývanie štúdii v zásuvke. Malé štúdie nemajú dostatočnú silu, aby odhalili psychologické efekty. Ide teda len o žonglovanie s p hodnotami, kde sa zopár najlepších experimentov dostane do publikovaného výberu. Funkčnosť tejto stratégie (ideálne v kombinácii s pochybnými výskumnými stratégiami) ilustrujú Bakker s kolegami vo svojom článku. Bakker et al. takisto ukazujú ako malé štúdie s publikačným biasom sužujú meta-analýzy. Pomocou štatistický testov (podobných Francisovmu) štúdii z meta-analýz ukázali, že viaceré výskumné oblasti trpia publikačným biasom. Meta-analýzam sa venujú aj Ferguson s Heenem vo svojom článku. Ukazujú že meta-analýzy sú kvôli publikačnému biasu neefektívne. Súčasné snahy o štatistickú korekciu biasu alebo solicitovanie nepublikovaných štúdii sú nedostatočné. Meta-analýzy tak nedokážu zabrániť prežívaniu nesprávnych teórii a záverov.

Klein et al. diskutujú možný vplyv experimentátorových očakávaní na probandov. Tento fenomén sa týka hlavne experimentov v sociálnej psychológii. Autori prezentujú zaujímavý nedávny príklad, keď výsledky socio-psychologického experimentu boli odlišné v závislosti od toho či experimentátori vedeli o cieli a hypotézach experimentu a takáto “zaujatosť” mala nevedomý vplyv na správanie probandov. Klein et al. diskutujú možné vysvetlenia takéhoto fenoménu a dávajú rady výskumníkom ako podobným problémom predísť.

Psychológovia musia v rámci štúdia absolvovať empirické praktiká. V priebehu týchto praktík vykonajú experiment a napíšu správu o jeho výsledkoch. Experiment je buď nejaký tradičný psychologický experiment (napr. stroop test), ktorý zaručene dodá výsledky alebo nový výskum, ktorý je napínavejší ale zároveň aj prináša riziko, že výsledky sa nedostavia. Jednoduchou a lacnou možnosťou vykonať replikácie je spraviť tak v rámci experimentálnych praktík. Frank a Saxe a Grahe et al. diskutujú vo svojich článkoch pozitíva a negatíva takýchto študentských replikácii.

Psychologický výskum sa neorientuje na robustné výsledky. Čo sa stáva jeho cieľom? Giner-Sorrola, Koole a Lakens a Nosek s kolegami tvrdia, že cieľom výskumu je publikovateľnosť. Publikovateľnosť sa zachytáva irelevantné estetické kritéria – desatinné miesta p-hodnôt alebo naratívnu hodnotu článku. Naratívnu hodnotu tvorí hlavne prevratnosť. Replikácie majú mizernú naratívnu hodnotu. (Trochu paradoxne naratívna hodnota neúspešných replikácii môže byť vyššia ako u tých úspešných.) Autori navrhujú viaceré riešenia ako zmeniť tieto nesprávne ciele vedcov.

Špeciálne vydanie uzatvára článok od Ioannidisa. Ioannidis je síce autorita, ale jeho článok iba podškrtáva, že po tomto špeciálnom vydaní k téme replikovateľnosti nie je možné dodať nič nové.

Teda samozrejme ja mám vždy niečo nové, čo viem dodať. Myslím, že replikovateľnosť a časté alfa chyby treba vnímať v rámci širšieho problému psychologických teórii. Psychológovia málokedy ponúkajú konkrétne teórie a hypotézy. Väčšinou ide o rozprávky, ktoré majú síce nejakú naratívnu hodnotu ale ich informačný obsah je mizivý. Napríklad, hypotéza predpovedá, že výkon jednej skupiny probandov bude signifikantne odlišný od výkonu druhej skupiny. Takáto hypotéza a jej následný test poskytujú 1 bit informácie. Teória nešpecifikuje veľkosť efektu. Naopak experiment  poskytuje ďalšie stupne voľnosti ako stanovenie veľkosti vzorky. Proces písania publikovania správy zasa umožňuje založiť neúspešné štúdie do zásuvky. Tieto stupne voľnosti znižujú informatívnosť štúdie niekam smerom k 0 bitom. Alternatívou je použiť komplexné a presné hypotézy. Tak robia komputacionálne modely. Tieto špecifikujú veľkosti efektov (a tým pádom aj veľkosť vzorky potrebnej na odhalenie efektu), silu a vzory interakcii a mnoho ďalších parametrov.

Testovanie neinformatívnych teórii z môjho pohľadu nemá veľmi zmysel. To isté platí o replikáciach. V prípade replikácie je akurát sila efektu a veľkosť vzorky daná predchádzajúcou štúdiou a teda ten nominálny 1 bit informácie je dodržaný. V prípade onkologického výskumu je informatívnosť hypotéz omnoho vyššia. Autori musia určiť viaceré parametre intervencie, časový plán, zloženie lieku, dávkovanie… Každý z týchto parametrov sa môže ukázať ako nesprávny. Pri 8 bitoch informácie musí každý bit sedieť, aby bola štúdia replikovaná. Pravdepodobnosť, že sa tak stane náhodou je 0.5^8= 0.004. Replikačná úspešnosť okolo 0.2 je teda stále celkom dobrá. V prípade psychologického výskumu a jedného bitu informácie je náhodná pravdepodobnosť replikácie 0.5^1. Presuňme sa do budúcnosti. Replikačný projekt OSF sa úspešne skončil. Polovicu testovaných publikovaných výsledkov sa podarilo replikovať. Čo to znamená? Prvá odpoveď je “Hurá, sme na tom lepšie ako onkológia!” Moja odpoveď je iná. Neinformatívne teórie vedú k neinformatívnym experimentom a neinformatívnym replikáciam. Vskutku Miller ukázal, že neinformatívne hypotézy v kombinácii s malou vzorkou vedú k očakávanej pravdepodobnosti replikácie okolo 0.5. Replikačný projekt OSF má za cieľ zistiť replikovateľnosť psychologických výsledkov. My však vieme, že psychologické hypotézy sú neinformatívne a takisto vieme, že psychologické experimenty používajú malú vzorku na to, aby získali robustné výsledky. Tým pádom vieme, že replikovateľnosť štúdii je 0.5. Replikovateľnosť nie je zaujímavá. Potrebujeme vylepšiť informatívnosť a falzifikovateľnosť psychologických teórii. Potom sa môžeme zaoberať aj replikovateľnosťou. Zároveň dodávam, že nepovažujem zväčšenie vzorky za nevyhnutné pre dosiahnutie robustných výsledkov. Komputacionálne modely v kombinácii s bayesiánskou štatistikou dokážu vyťažiť aj s mála dát robustné výsledky. O tom ale niekedy nabudúce.

Stavili by ste si na vedu?

V súvislosti s predpoveďami priebehu a výsledku amerických prezidentských volieb prišiel Alex Tabarrok s bonmotom, že stávkovanie je daň na nezmysli. Kontext výroku bol nasledovný. Politický komentátori v USA predpovedali tesný a vyrovnaný priebeh volieb. Štatistik Nate Silver predpovedal pohodlnú výhru pre Obamu za čo bol viacerými komentátormi v diskusiách atakovaný. Silverova reakcia bola, že nech si na výsledok stavia, čo vyvolalo ešte väčšiu vlnu pobúrenia. Výsledok je taký, že k stávke radšej nedošlo, Silver predpovedal výsledok pre každý jeden americký štát správne a politický komentátori a analytici sa mýlili. Xkcd zhrnul celú kauzu nasledovne.

Návrh stávky je výzva, aby si autori za svojimi nezmyslami stáli. Pre realitu a fakty je to win-win situácia. Buď producenti memetického smogu stíchnu alebo prídu o peniaze. Ten druhý prípad nie je vôbec zriedkavý. Koniec koncov stávkové kancelárie práve na tomto zarábajú. Nie je prekvapivé, že stávkovanie sa týka oblastí kde sa väčšina populácie cíti expertmi – šport a politika. K tomu sa môže pridať aj ekonomika, či už v rámci tipovania v stávkových kanceláriách alebo ak ste viac pri peniazoch a máte známosti tak cez hedgeové fondy. Ak si zoberieme internetové diskusie ako indikátor pre rozšírenie memetického smogu, určite by sa oplatilo rozšíriť portfólio stávkových kancelárii o takzvané alternatívne hypotézy. Nepochybne by mnoho ľudí ocenilo, keby si mohli vsadiť na účinnosť modlitby, škodlivosť geneticky modifikovaných potravín, deficity detí vychovávaných homosexuálnymi pármi alebo účinnosť homeopatie.

Rovnakému testu však môžeme podrobiť aj vedu. Vskutku niekoľko nedávno publikovaných článkov poukazuje na problémy publikovaných výsledkov v oblasti biomedicíny a farmácie, takže zo stávkovania proti (publikovanej) vede môže byť celkom dobrý biznis. Farmaceutický výskum je oblasť kde sú výsledky ovplyvňované aj inými cieľmi ako je hľadanie pravdy. Pre farma firmy je výskum a vývoj nových liekov biznis a ich ultimátnym cieľom je docieliť zisk. Takáto snaha môže viesť k vývoju neefektívnych liekov, kde je samotný vývoj vnímaný skôr ako marketing než hľadanie účinnej drogy. Tieto problémy – zhrňme ich pod pojmom farma bias, sa čiastočne darí riešiť pomocou povinného predregistrovania a schválenia štúdii štátnymi inštitúciami poverenými nezávislým dohľadom. Výsledky musia byť publikované, sprístupnené nezávisle od úspešnosti lieku. Farma bias je problém, ktorý sa stále nepodarilo celkom eliminovať. Farmaceutický priemysel však v súčasnosti viac brzdí iný problém a to publikačný bias, ktorým trpí výskum akademikov.

Farma firmy rešeršujú publikovaný akademický výskum, aby identifikovali potenciálne úspešné lieky. Ako prvé musia samozrejme replikovať publikované efekty. No a tu vzniká problém. Problémy publikačného biasu sa netýkajú len psychológie ale aj medicíny. Ich dôsledkom je, že väčšina publikovaného výskumu tvoria tzv. alfa chyby – signifikatné efekty, ktoré sa nedá replikovať lebo neexistujú. Prinz a kolegovia (2011) pracujúci pre nemecký Bayer sa podelili so svojou frustráciou s nereplikovateľnosťou akademického výskumu. Autori spravili krátky prieskum medzi 23 vedúcimi labákov (onkológia a kardiovaskulárny výskum) vo farma firmách ohľadom úspešnosti ich replikačných projektov. Len 25 % publikovaných výsledkov sa podarilo replikovať. V dvoch tretinách prípadov boli získané dáta nekonzistentné s publikovanými výsledkami, takže firma musela buď previesť dodatočný výskum alebo projekt rovno vzdať. V novšom komentári sa ozvali výskumníci z onkologického oddelenia kalifornskej firmy Amgen (Begley & Ellis, 2012). Ich úspešnosť je ešte mizernejšia. Z 53 štúdii, ktorých výsledky testovali, sa im podarilo replikovať len 6 štúdii. V neúspešných prípadoch výskumníci kontaktovali autorov pôvodných štúdii:

For results that could not be reproduced data were not routinely analysed by investigators blinded to the experimental versus control groups. Investigators frequently presented the results of one experiment, such as a single Western-blot analysis. They sometimes said they presented specific experiments that supported their underlying hypothesis, but that were not reflective of the entire data set. (s. 532)

Čiže znova vidíme tradičný mix publikačného biasu a pochybných výskumných stratégii ako to poznáme z psychológie. Rozdielom je, že zatiaľ čo na psychológov nie sú kladené nejaké vysoké nároky – veď títo aj tak produkujú len rozprávkárske teórie a ťažko niečo aplikovateľné; od biológov a medikov sa čaká, že ich drahý výskum povedie aj k aplikovateľným výsledkom. Biológovia tak nemajú už moc času. Ak nedokážu sami reformovať svoje výskumné praktiky a svoj publikačný proces budú k tomu zrejme donútený inštitúciami, ktoré ich financujú. Že najhlasnejšie na tieto problémy upozorňujú práve hnusné ziskubaživé farma firmy pôsobí trochu bizarne.

Nech už riešenie akademických problémov dopadne akokoľvek, farmaceutický priemysel sa medzičasom vynašiel. Atlas Venture a zrejme aj ďalšie fondy poskytujú poistku farma firmám pre prípad, že sa im nepodarí výskum replikovať a ich projekt tak prepadne. V podstate ide o hedgeové fondy (a teda stávkovanie), akurát ich záruky sa netýkajú bankrotu veriteľa a jeho neschopnosti splatiť dlh ale neúspešnosti replikácie.

Psychológovia si budú ešte musieť počkať, kým vyprodukujú niečo aplikovateľné, aby sa o nich priemysel vôbec začal seriózne zaujímať. Medzičasom si môžete v rámci replikačného projektu na Open Science Framework staviť aspoň symbolickú sumu na (ne)replikovateľnosť individuálnych psychologických štúdii.

Begley, C. G., & Ellis, L. M. (2012). Drug development: Raise standards for preclinical cancer research. Nature, 483, 531–533.

Prinz, F., Schlange, T., & Asadullah, K. (2011). Believe it or not: How much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery, 10, 712–713.

Francisov lov na čarodejnice

V predchádzajúcom článku som spomenul ako sa Simonsohnovi podarilo odhaliť prípady podvodov v psychologickom výskume pomocou štatistických analýz. Psychológ Gregory Francis z Univerzity v Purdue začal upozorňovať na publikačný bias v individuálnych štúdiách. Publikačný bias označuje uprednostnenie pozitívnych výsledkov ktoré sú konzistentné s hypotézami vedca. Ostatné výsledky skončia v psychológovej zásuvke – nie sú publikované a nikto sa o nich nedozvie. Pochybné výskumné praktiky takisto vedú k publikačnému biasu.

Publikačný bias je možné štatisticky identifikovať pre sériu experimentov, ktoré možno považovať za replikácie (musia mať podobne silný efekt). V prípade publikačného biasu vykazujú parametre štatistických analýz rôzne diskrepancie. Napríklad rozdelenie p hodnôt vykazuje nadmernú početnosť v oblasti tesne pod .05. Výskumníci sa snažia získať signifikantné efekty a pritom minimalizovať použité zdroje (veľkosť testovanej vzorky). Signifikantnosť výsledku závisí od veľkosti efektu a veľkosti vzorky. Pre silné efekty stačí menšia vzorka a pre slabé efekty treba viacej meraní, aby mohol byť výsledok signifikantný. V praxi silu efektu nepoznáme a rozprávkárske psychologické teórie a z nich vyplývajúce hypotézy ju tiež nepredpovedajú. Tým pádom by sila nameraného efektu nemala súvisieť s veľkosťou vzorky v rôznych štúdiách. Korelácia ukazovuje na prítomnosť publikačného biasu, kde úspešné štúdie (malá vzorka velký efekt alebo veľká vzorka a malý efekt = sig. výsledok) sú publikované a zvyšok ostáva v zásuvke.

Na základe vyššie uvedených úvah Ioannidis a Trikalinos (2007) navrhli test pre publikačný bias. Pripomínam, že pri frekventistických testoch hypotéz musíme zvážiť štyri kvantity.

1. pravdepodobnosť odmietnutia nulovej hypotézy na základe dát ak nulová hypotéza platí v celkovej populácii (alfa pochybenie)

2. pravdepodobnosť nulovej hypotézy ak platí nulová hypotéza

3. pravdepodobnosť odmietnutia nulovej hypotézy ak nulová hypotéza neplatí (sila testu)

4. pravdepodobnosť nulovej hypotézy ak nulová hypotéza neplatí (beta pochybenie)

Silu testu možno vyrátať na základe veľkosti efektu a veľkosti vzorky. Veľkosť efektu môžeme odhadnúť pomocou jeho nameranej hodnoty, ktorá je väčšinou uvedená v publikovaných štúdiách. Pomocou sily testu môžeme vyrátať očakávaný počet signifikantných experimentov pre danú vzorku experimentov. Túto vzorku môže tvoriť meta-analytický súhrn štúdii. Väčšina (obzvlášť sociopsychologických) článkov pozostáva z viacej experimentov, ktoré tvoria konceptuálne replikácie. Tým pádom môžeme aplikovať test a odhadnúť očakávaný počet sig. experimentov pre takýto publikovaný článok. Test pozostáva v posúdení pravdepodobnosti publikovaného počtu signifikantných experimentov v porovnaní s odhadovaným počtom. Ak je odhad značne nižší tak pravdepodobne došlo (či už vedome alebo nevedome) k publikačnému biasu zo strany autorov. Test teda testuje niečo ako internú konzistentnosť výsledkov série experimentov.

Francis (2012a) ilustroval daný test na prípade Bemovej štúdie. Nižšie uvedená tabuľka znázorňuje všetky relevantné údaje pre danú sériu experimentov. Vpravo sú dva odhady pre silu testu. Prvý odhad používa rovnakú silu efektu (vážený priemer tretieho stĺpca) pre všetky efekty. Druhý odhad je založený na individuálnej sile efektu znázornenej v treťom stĺpci.

Sila testu vyjadruje pravdepodobnosť, že v danom experimente získame signifikantný efekt. Sčítaním individuálnych hodnôt pre silu testu získame očakávaný počet signifikantných experimentov. V prípade Bemovej štúdie očakávame na základe sily testu 6.27 (resp. 6.64 pre OP) signifikantných výsledkov z celkového počtu desať experimentov. Bem získal 9 signifikantných výsledkov. Pravdepodobnosť 9 a viac signifikantných experimentov je .058 (.088). Ioannidis a Trikalinos klasifikujú hodnoty pod .1 ako podozrivé z publikačného biasu. Treba dodať, že test publikačného biasu je značne konzervatívny. Publikačný bias nadhodnocuje silu efektu. Tým pádom je aj očakávaný počet signifikantných experimentov nadhodnotený, v skutočnosti je zrejme o  dosť nižší a získaný vysoký počet signifikatných štúdii tým pádom ešte menej vierohodnejší.

Ako som spomenul vyššie, test poukazuje na internú nekonzistentnosť výsledkov a nedokáže odhaliť konkrétnu formu publikačného biasu, ktorá viedla k diskrepancii. Nevieme teda, či nejaké experimenty ostali v zásuvke, či nejaké nesignifikantné merané indikátory neboli popísané alebo či autori pokračovali v zbere dát v závislosti od signifikantnosti výsledku …Nech je už príčina akákoľvek Francis (2012b, 2012c, 2012d, in press) začal lustrovať psychologické štúdie a upozorňovať na publikačný bias.

Čo poviete na štúdiu Balcetisa a Dunninga (2010) publikovanú v prestížnom PsychScience. V tejto ukázali, že ľudia podhodnocujú vzdialenosť žiadaných objektov (sú bližšie). Autori predstavili v svojom článku päť experimentov z ktorých každý dopadol signifikantne v prospech hypotézy autorov. Presvedčivé, nie? Očakávaný počet signifikantných experimentov je len 3.11 a pravdepodobnosť piatich signifikantných výsledkov je .076. Publikačný bias!

A čo štúdia Piffa a kolegov (2012). Títo v siedmych signifikantných experimentoch ukázali, že ľudia z vyšších sociálnych vrstiev sú náchylnejší k neetickému správaniu ako ľudia z nižších sociálnych vrstiev. Očakávaný počet signifikantných experimentov je ale len 4.09 zo siedmych. Pravdepodobnosť publikovaných sedem zo siedmych je .02. Publikačný bias!

Galak a Meyvis (2011) ukázali v sérii ôsmych experimentov, že ľudia hodnotia udalosť ako viac nepríjemnú ak očakávajú, že budú v blízkej budúcnosti tejto udalosti znova vystavení. Galak a Meyvis potvrdili svoju hypotézu v siedmych z ôsmych experimentov. Očakávaný počet sig. experimentov je 4.06. Pravdepodobnosť publikovanej série experimentov je .079. Publikačný bias!

Elliot s kolegami (2010) ukázali v sérii siedmych experimentov, že ženy hodnotia vyššie atraktivitu, sexuálnu príťažlivosť a status mužov na fotografiách ak sú títo oblečení v červenom alebo pozadie fotografie je červené. Francis (in press) vyrátal pravdepodobnosť signifikantnosti všetkých 12 testov v siedmych experimentoch na .005. Publikačný bias!

Toľko na zatiaľ. Snáď Francisovi neprejde apetít, a my sa aj v budúcnosti môžeme dočkať záplavy analýz publikačného biasu v ďalších štúdiách. Medzičasom sa samozrejme zdvihla vlna nevôle medzi autormi usvedčených štúdii a nesúhlasnú reakciu pridal aj Uri Simonsohn (Simonsohn, 2012). Kritiku možno rozdeliť do dvoch bodov.

1. Francis selektívne vyberá štúdie. Ak si vezmeme vzorky štúdii bez publikačného biasu tak určitá proporcia z nich čisto náhodou dosiahne signifikatný výsledok vo Francisovom teste publikačného biasu. Francisov test teda môže usvedčiť nevinných vedcov, ktorí čisto náhodou získali podozrivé výsledky a teda dopustiť sa alfa chyby. Keďže počet publikovaných štúdii je obrovský aj vždy sa nájdu podozrivé a nevinné štúdie, ktoré padnú Francisovi za obeť.

Samotná pravdepodobnosť alfa chyby Francisovho testu však závisí ešte od jednej hodnoty a to je proporcia štúdii s publikačným biasom z celkového počtu publikovaných štúdii. Ak je týchto štúdii veľa tak väčšina štúdii s nízkou pravdepodobnosťou signifikantnosti (pod 0.1) vo Francisovom teste bude naozaj trpieť publikačným biasom. Ak je naopak kontaminovaných štúdii málo, pravdepodobnosť pod 0.1 budú tvoriť z veľkej časti alfa chyby.

Proporciu štúdii kontaminovaných publikačným biasom žial nepoznáme takže spoľahlivosť Francisovho testu nemôžeme priamo posúdiť. Štúdia od John et al. (2012) však ukazuje, že pochybné výskumné praktiky sú medzi psychológmi značne rozšírené. Teoreticky by sme mohli odhadnúť proporciu publikácii, pri ktorých zostali nejaké experimenty v zásuvke, keby sme sa v prieskume popýtali zopár autorov publikácii. Zaujímavé je, že niektorí obvinení v svojej reakcii priznali štúdie v zásuvke a tým vlastne potvrdili validitu Francisovho testu. Galak a Meyvis sa priznali k ďalším piatim experimentom Balcetis a Dunning priznali jednu nesignifikantnú štúdiu. V každom prípade sa samozrejme autori dušujú, že dodatočné štúdie nemenia nič na ich interpretáciách. Škoda, že sme sa to nemohli dozvedieť v ich publikovanom článku.

Opačný problém Francisovho testu môže byť, že publikačný bias je taký rozšírený, že Francisov test je zbytočný. Stačilo by tak náhodne vybrať štúdiu, ukázať prstom a máme záruku, že nájdeme nejakého kostlivca v autorovej zásuvke.

2. Druhá výhrada sa týka odporúčaní, ktoré Francis poskytuje. Francis sa s tým proste nefára: “Now that the data are known to be contaminated with publication bias, […]. Researchers […] are advised to ignore the findings […] and run new experiments.”
(Francis, 2012b, p. 177). Nie je takáto reakcia prehnaná? Dáta by bolo možné očistiť pomocou dodatočný analýz, ktoré by zahrnuli aj experimenty v zásuvke.

Výsledky dodatočných analýz môžu byť užitočné a smerodajnejšie – otázne je prečo sme si tieto analýzy nemohli prečítať v platforme tomu venovanej – vo vedeckej publikácii. Namiesto toho publikáciu tvorí ochutnávka skutočných výsledkov – Best of Filedrawer.

Ťažšie až nemožné je očistiť dáta kontaminované pochybnými výskumnými praktikami. Francisov záver sa mi teda nezdá až taký extrémny. Zasa visí vo vzduchu či potrebujeme extra test aby nám to ukázal. Vo výskumnej klíme kde je publikačný bias vysoko rozšírený, môže byť najlepším odporúčaním sa proste nespoliehať na výsledky publikovaných (a nereplikovaných !!!) štúdii.

Samozrejme je možné nájsť 1000 štatistických námietok, prečo Francisova metóda nie je dokonalá. Tieto sa však nevzťahujú na konkrétne prípady a konkrétnu kritiku a preto nie sú moc zaujímavé ani relevantné. Myslím, že Francisova inkvizícia trochu prefúkne stojaté vody postpublikačného procesu. Už som zvedavý, ktorú štúdiu si Francis podá nabudúce.

Balcetis E., Dunning D. (2010). Wishful seeing: More desired objects are seen as closer. Psychological Science, 21 147–152.

Elliot, A. J., Greitmeyer, T., Gramzow, R. H., Kayser, D. N., Lichtenfeld, S., Maier, M. A. & Liu, H. (2010). Red, rank, and romance in women viewing men. Journal of Experimental Psychology: General, 139, 399-417.

Francis, G. (2012a). Too good to be true: Publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review, 19, 151-156.

Francis G. (2012b). The same old New Look: Publication bias in a study of wishful seeing. i-Perception 3(3) 176–178.

Francis, G. (2012c). Evidence that publication bias contaminated
studies relating social class and unethical behavior. Proceedings of the National Academy of Sciences, USA, 109.

Francis, G. (2012d). The psychology of replication and replication in psychology. Perspectives on Psychological Science, 7(6), 580-589.

Francis, G. (in press). Publication bias in “Red, Rank, and Romance in Women Viewing Men” by Elliot et al. (2010). Journal of Experimental Psychology: General.

Galak, J., & Meyvis, T. (2011). The pain was greater if it will happen again: The effect of anticipated continuation on retrospective discomfort. Journal of Experimental Psychology: General, 140, 63–75.

Ioannidis, J. P. A., & Trikalinos, T. A. (2007). An exploratory test for an excess of significant findings. Clinical Trials, 4, 245-253.

Piff P.K., Stancato D.M., Côté S., Mendoza-Denton R., Keltner D. (2012). Higher social class predicts increased unethical behavior. Proc Natl Acad Sci USA 109:4086-4091.

Simonsohn, U. (2012). It Does Not Follow : Evaluating the One-Off Publication Bias Critiques by Francis (2012a, 2012b, 2012c, 2012d, 2012e, in press). Perspectives on Psychological Science 2012 7: 597.

Jaynes: Probability Theory, Kapitola 5

Obsah piatej kapitoly označil Jaynes ako neobvyklé (queer) aplikácie teórie pravdepodobnosti. Táto kapitola tvorí ilustráciu a diskusiu bayesiánskeho testovania hypotéz, ktoré Jaynes predstavil v štvrtej kapitole.

Frekventistickú tradíciu tvoria dva hlavné prúdy reprezentované R.A. Fischerom na jednej strane a Jerzy Neymanom na strane druhej. Spor medzi týmito dvoma tradíciami sa týka práve testovania hypotéz. Pedľa Neymana potrebujeme na to aby sme vyvrátili nulovú hypotézu sformulovať alternatívnu hypotézu. Podľa Fischera môžeme nultú hypotézu len falzifikovať a alternatívnu hypotézu na to nepotrebujeme. Bayesiáni v tomto ohľade súhlasia s Neymanom. Testovanie hypotéz je relatívne a pravdepodobnosť hypotézy vždy závisí od ostatných zvažovaných hypotéz.

Jaynes ilustruje problém testovania bez zváženia alternatívnej hypotézy na prípade parapsychologického výskumu. V jednom experimente na začiatku minulého storočia demonštrovala Gloria Stewartová jasnozrivosť, keď uhádla 9410 z 37100 (25.3 percent) kariet správne. Pritom náhodné hádanie (nulová hypotéza) by viedla v danom experimente k úspechu pri 1/5, čo tvorí 7420 úspešných ťahov so štandardnou odchýlkou 77 ťahov. Zástancovia mimo-zmyslového vnímania vyrátali , že pravdepodobnosť nulovej hypotézy je 10 na -139. Pravdepodobnosť náhodného hádania je teda mizivá.

Táto interpretácia je problematická z nasledujúcih dôvodov. Pravdepodobnosť nulovej hypotézy závisí od počtu hypotéz. Napríklad pri jednom vrhu mincou mám dve hypotézy H (0.5) a Z (0.5). Pri dvoch vrhoch tri HH, HZ, ZZ (0.25,0.5,0.25). Čím väčší počet hypotéz máme tým nižšia je pravdepodobnosť respektívnych hypotéz. V prípade jasnozrivej pani tvorí množinu hypotéz pravdepodobnosť úspešných predpovedí, čo je hodnota v rozmedzí 0 až 1. V prípade, že zoberieme docielený úspech 25.3 ako alternatívnu hypotézu, pravdepodobnosť tejto hypotézy nie je obzvlášť vysoká – 0.00476. Musíme teda posúdiť vzájomnú pravdepodobnosť hypotéz a presne to má za cieľ bayesiánske testovanie. V tomto prípade to ale na výsledku nezmení keďže pravdepodobnosť nulovej hypotézy je mizivá. Otázkou je však akú hodnotu máme zvoliť pre alternatívnu hypotézu pred tým než zozbierame naše dáta.  Ak napríklad zvolíme alternatívnu hypotézu že pani Stewartová bude úspešná v polovici prípadov, tak pozorovaná 25.3 úspešnosť podporí našu nulovú hypotézu. Tieto problémy s vyhodnocovaním parapsychologického výskumu sa objavujú stále znova. V najnovšom prípade Bemovej štúdie sa kritika Wagenmakers a kolegov točila hlavne okolo tohotu bodu. Akú alternatívnu hypotézu chceme stanoviť pre Bemove experimenty? Problémom parapsychologického výskumu je že pozorované efekty sú slabé až mizivé. To platí aj v porovnaní so silou efektov, ktoré tradične pozorujeme v psychologických štúdiách. Každopádne špecifikovanie alternatívnej hypotézy zvýši pravdepodobnosť nulovej hypotézy.

Jaynes ale ponúka ďalšie vysvetlenie, prečo parapsychologickým výsledkom neverí. Výsledky sú totiž sprostredkované experimentom – jeho dizajnom, prevedením a experimentátormi. Musíme teda zvážiť pravdepodobnosť možnosti, že došlo k pochybeniu alebo podvodu. Možností ako k takýmto pochybeniam a podvodom možno dojsť sme videlo dosť aj na tomto blogu. Každá z týchto možností sa zdá byť apriori pravdepodobnejšia ako jasnovidectvo pani Stewartovej. Tieto alternatívne hypotézy procesu vzniku dát sa akumulujú a dokopy tvoria skeptické apriórne presvedčenie, ktoré nemôže v podstate prebiť žiadna evidencia z parapsychologických experimentov. To neznamená, že sme apriori presvedčení a nemožnosti jasnovidectva. Akurát má jeden dobre prevedení experiment (napr. pod taktovkou skeptického publika) vyššiu vierohodnosť ako desať zle prevedených. Žiaľ je tomu tak (c.f. Bem), že aj súčasná psychologická metodika má nedostatky, takže sa v prípade jasnovidectva radšej namiesto psychologických experimentov spoľahneme na výsledky našich kolegov fyzikov.

Jaynes ilustruje, že bayesiánska štatistika dokážu zahrnúť sprostredkovanosť informácie do modelov. Tým je možné vysvetliť aj divergujúce interpretácie rovnakej evidencie. Ako príklad zvážme novú informáciu D: “Pán N vyhlásil v televízii, že jeden bežne užívaný liek je nebezpečný.” Traja pozorovatelia pán A, B a C sa o tom dozvedia. Ich apriori presvedčenie o nezávadnosti lieku je P(S|I)=(0.9, 0.1, 0.9) respetívne (I označuje množinu apriórnych informácii). A a C veria v nezávadnosť lieku a B v liek neverí. Otázne je nakoľko veria dotyční pánovi N. Všetci traja sa zhodnú v tom, že ak by bol liek nebezpečný tak by to N ohlásil, teda P(D| not S,I)=(1,1,1), ich názor sa však rozchádza v prípade ak je liek bezpečný P(D| S)=(0.01,0.3,0.99). Aposteriórnu pravdepodobnosť získame pomocou bayesovej vety P(S| D,I) =  P(D| S,I) P(S|I) /P(D|I) = (0.083, 0.32, 0.89). Pozorovatelia A a C teda hodnotia rovnakú evidenciu inak a to aj napriek tomu, že ich apriori presvedčenie je rovnaké. A si totiž povedal: N je dôveryhodná a znalá osoba a jeho názor treba brať vážne. Preto na základe jeho stanoviska liek, nepokladám za bezpečný. C si naopak povedal: N je magor, ktorí len túži na seba prilákať pozornosť planým poplachom. Jeho názor je v prípade že liek je bezpečný irelevantný a na mojom vnímaní jeho bezpečnosti nová informácia nič nezmení.

Situácie v ktorých ľudia v kontexte rovnakých informácii dospejú k rozličným záverom sú typické. Jaynes tvrdí, že tieto situácie nesmieme interpretovať ako ľudskú iracionalitu (Kahneman & Tversky), ale naopak je možné ich vysvetliť pomocou bayesiánskej štatistiky:

Jaynes rozvíja svoj nápad modelovania ľudskej psychológie pomocou bayesiánskej štatistiky v niekoľkých odstavcoch. Tento náčrt vyznieva z hľadiska súčasnej psychológie určite amatérsky ale na svoju dobu bol zaujímavý a nie je ťažké si predstaviť, že Tenenbaum a ostatní zástancovia bayesiánskej mysle sa značne inšpirovali práve u Jaynesa (Tenenbaum a co. na Jaynesovu knihu vo svojich publikáciach opakovane odkazujú).

Ani v tejto kapitole nie sú filozofi ušetrení obligátnej nakladačky. Ak nemodelujeme sprostredkovanosť informácii explicitne môžeme dojsť k nesprávnym záverom, na základe ktorých niektorí filozofi dospeli k mylnému zovšeobenenie, že nie model je chybný ale samotný inventár teórie pravdepodobnosti je na vine.

Princetonský filozof Richard C. Jeffreys odmieta modelovať P(A| B,I) pomocou Bayesovej vety: P(A| B,I) =  P(B| A,I) P(A|I) /P(B|I). Bayesova veta totiž nezohľadňuje neistotu zdroja tvrdení o B. Namiesto toho RCJ navrhuje vážený priemer P(A)=q P(A| B,I) + (1-q) P(A| not B,I). Takéto riešenie je presne to proti čomu Jaynes brojil v uvodných kapitolách knihy. Riešenie je ad-hoc. Nevychádza z axiómov teórie pravdepodobnosti. Ako také je nekonzistentné a vedie k paradoxom.

Správne riešenie spočíva v modelovaní neistoty zdroja. Ako v prípade spoľahlivosti lieku, musíme rozlíšiť informáciu C a samotnú skutočnosť B, ktorú C sprostredkuje. Následne môžeme odvodiť pomocou pravidla sumy a bayesovej vety P(A|CI)= P(AB|CI)+P(A notB|CI) = P(A|BCI) P(B|CI)+P(A| notBCI) P(notB|CI). Táto formulka sa trochu podobá na RCJ-ov návrh. Mohli by sme  zameniť P(B|CI) za q a P(notB|CI) za (1-q). RCJ však ignoruje priamy vplyv samotnej (hoc aj nesprávnej) správy C na A a namiesto P(A| C,B,I) zvažuje P(A| B,I), čo je chyba.

Kapitolu uzatvára diskusia Hempelovho paradoxu. Hempel vychádzal z tvrdenia “všetky vrany sú čierne”. Tento výrok je ekvivalentný ku “všetky ne-čierne objekty sú ne-vrany”, čo je podporené pozorovaním bielej topánky. Tým pádom je pozorovanie bielej topánky evidenciou, že všetky vrany sú čierne, čo odporuje intuícii, že všeobecné tvrdenie je podporované jednotlivými konkrétnymi pozorovaniami. Jaynes prezentuje riešenie Irvinga Gooda. Hempel vychádza zo striktne vzaté nesprávnej intuície, že pozorovanie jednej čiernej vrany podporuje tvrdenie že všetky vrany sú čierne. Či však jedno konzistenté pozorovanie potvrdí všeobecné tvrdenie závisí ako sme videli na prípade parapsychológie a spoľahlivosti lieku od alternatívnych hypotéz.Good ilustroval túto možnosť na nasledujúcom príklade. H1 z milióna vtákov je 100 čiernych vrán (žiadne biele vrany). H2 z dvoch miliónov vtákov tvoria 1.8 milióna biele vrany a 0.2 milióna čierne vrany. Pri takomto scenári pozorovanie čiernej vrany hovorí v neprospech H1 a teda v neprospech hypotézy, že všetky vrany sú čierne.

Jaynes uzatvára diskusiu povzdychom:

In the literature there are perhaps a hundred paradoxes” and controversies which are like this, in that they arise from faulty intuition rather than faulty mathematics. Someone asserts a general principle that seems to him intuitively right. Then when probability analysis reveals the error, instead of taking this opportunity to educate his intuition, he reacts by rejecting the probability analysis. […] As a colleague of the writer once remarked, “Philosophers are free to do whatever they please, because they don’t have to do anything right”. But a responsible scientist does not have that freedom; he will not assert the truth of a general principle, and urge others to adopt it, merely on the strength of his own intuition.