What is the replication probability of statistically significant effect?

Možno ste si už po prečítaní nejakej tej najnovšej a najúžasnejšej psychologickej štúdie položili nasledujúcu otázku: Ak by som túto štúdiu zopakoval, dostal by som tiež signifikantný výsledok? V tomto príspevku odhliadnem od chýb vedcov (napr. Simmons et al., 2011), ktoré pravdepodobnosť replikácie znižujú. V tomto príspevku vychádzame z toho že vedci sa správajú ideálne. Dáta však nie sú ideálne, ale ovplyvnené náhodnými faktormi (napr. momentálnou náladou pokusnej osoby). Proporcia šumu vo výsledkoch závisí od veľkosti efektu. Silný efekt je ľahšie replikovať ako slabý. Aj slabé efekty môžu byť signifikantné. Potrebujeme na to však väčšie množstvo dát. Pravdepodobnosť replikácie je teda možné zvýšiť, zvýšeným veľkosti vzorky. V tomto príspevku sa však budeme zaoberať len pravdepodobnosť čistej replikácie – teda všetky parametre replikačnej štúdie vrátane veľkosti vzorky sú rovnaké ako parametre štúdie pôvodnej.

Začal som s otázkou z pohľadu laika, ktorý reflektuje robustnosť výsledkov. Problém určenia replikačnej pravdepodobnosti je však dôležitý aj z praktického hľadiska. Pomôže nám pri interpretácii dôležitosť výsledkov medzi rôznymi štúdiami. Takisto sú dôležité pri plánovaní experimentov. Ďalej, pred pár rokmi časopis Psychological Science zaviedol replikačnú pravdepodobnosť ako dodatočný štandard pre posudzovanie experimentov (PS editorial board, 2005; neskôr sa tento štandard nenápadne vytratil). No a nakoniec, psychológovia majú silné intuície o tom aká je replikačná pravdepodobnosť, ktoré sú však nesprávne (p_{rep}\neq 1-\alpha je nesprávne). Duo Tversky & Kahneman (1971) samozrejme ani v tomto prípade nechýba na scéne aby usvedčili psychológov z omyľnosti.

Jeff Miller z Univerzity Otago na Novom Zélande sa rozhodol preskúmať ako to s tou replikačnou pravdepodobnosťou je. Jeho nástrojom sú hlavne simulácie a odhad replikačnej pravdepodobnosti v bežných psychologických štúdiach. Miller uvádza dve možnosti ako definovať replikačnú pravdepodobnosť. V oboch prípadoch sú výsledky rovnaké a tak ilustrujem výsledky len na prvej definícii. V tomto prípade uvažujeme o pravdepodobnosti v rámci jediného experimentu a jeho replikácie. Ako zistiť replikačnú pravdepodobnosť je ilustrované pomocou obrázku nižšie.

Znázortnený je graf procesu rozhodovania so všetkými opciami. \gamma je základná pravdepodobnosť, že ak si vedec vyberie hypotézu tak táto je nesprávna. \alpha je pravdepodobnosť alfa chyby – teda že odmietneme nulovú hypotézu aj keď táto je správna. Táto je stanovená arbitrárne pomocou p hodnôt. \beta je opačná chyba a to, že odmietneme alternatívnu hypotézu, napriek tomu, že táto hypotéza je správna. 1-\beta sa nazýva aj “sample power” – robustnosť vzorky. Pri konštantnom \alpha závisí \beta od veľkosti efektu,  \beta je možné merať a väčšinou sa pohybuje okolo 20%.

V prípade signifikantného výsledku (nulová hypotéza bola odmietnutá) sa môžeme pokúsiť náš experiment replikovať. Hodnoty štatistických chýb sú pri replikácii rovnaké s malým rozdielom. \alpha je tentokrát jednosmernou hypotézou. Nás zaujíma pravdepodobnosť, že pri replikácii tiež získame signifikantný výsledok, teda ak S_i je udalosť že i-ty experiment je signifikantný, tak získame p_{rep}=P(S_2|S_1)=P(S_2,S_1)/P(S_1). Z vyššie uvedeného grafu je možné odvodiť výsledok:

p_{rep}=\frac{\gamma \cdot (1-\beta)^2+(1-\gamma)\cdot \alpha^2 /2}{\gamma \cdot (1-\beta)+(1-\gamma)\cdot \alpha}

V menovateli je pravdepodobnosť prvej a tretej vetvy (reject H0, follow-up). Táto je normovaná celkovou pravdepodobnosťou všetkých štyroch vetiev (reject + retain H0, follow-up). Pomocou simulácii sa môžeme pozrieť na výšku replikačnej pravdepodobnosti v závislosti od parametrov (\gamma=0.5; \beta je vyjadrené pomocou veľkosti vzorky, N):

Veľkosť vzorky nemá vplyv na replikačnú pravdepodobnosť a s klesajúcim p replikačná pravdepodobnosť rastie. Hrozným výsledkom sú konfidenčné intervaly, ktoré siahajú od replikačnej pravdepodobnosti 0.05 až po 1 pri nominálnom p väčšom ako 0.005, čo sú p hodnoty bežné v psychologických študiách.

Miller dochádza na základe simulácii k záveru, že replikačnú pravdepodobnosť nie je možné zmysluplne určiť a ide až tak ďaleko že neodporúča používať výsledky pilotných experimentov pre plánovanie veľkosti vzorky. Ja si myslím, že replikačná pravdepodobnosť je dobrý príklad zlyhania kalibrácie frekventistických metód (o tom so písal tu). Frekventistická štatistika umožňuje určiť, či sa nám podarí experiment replikovať alebo nie. Bayesiánska štatistika nám akurát môže poskytnúť aposteriorne rozdelenie replikačnej pravdepodobnosti. Miller s takýmto názorom nesúhlasí a podľa neho sú problémy inherentné všetkým metódam, keďže pramenia z neistoty merania. Psychológom teda žiadne lepšie metódy nepomôžu, ale potrebujú robustnejšie výsledky (zrejme na úrovni pod p = 0.001). Miller dokladá svoj názor simuláciami s binomiálnymi dátami, kde bayesiánske metódy dosiahli podobné výsledky ako NHST. Miller tu však podľa mňa znásilňuje bayesiánsku inferenciu. Táto mu poskytuje aposteriórne rozdelenie replikačnej pravdepodobnosti. Miller toto rozdelenie komprimuje do dichotomickej výpoveď, či experiment bude alebo nebude replikovaný. Už som spomínal, že výhodou bayesiánskych modelov nie je pregnantnosť ich záverov. Jej výhodou je, že rozdelenie pravdepodobnosti je možné použiť ako vstup do ďalších modelov. Teoreticky môžeme napríklad navrhnúť stroj, ktorý okrem analýzy aj plánuje veľkosť vzorky experimentov.

Millerove závery dosť visia na jeho kompresii dát (typické pre NHST). Replikačnú pravdepodobnosť zhŕňa pomocou konfidenčných intervalov. Tie určujú kde leží 95 percent dát. Videli sme, že zaberajú dosť veľké rozhranie. Ak sa však sústredí povedzme na 80 percent dát, tieto ležať v rozhraní trebárs 4 percent replikačnej pravdepodobnosti. (Ak je teda priemerná hodnota 45 percent tak by definoval hypotetický KI 43 až 47 percent.) To by rozhodne nebol zlý výsledok. Ak zohľadníme celé rozdelenie replikačnej pravdepodobnosti, môžeme získať viacej informácii. Ak potrebujeme, kategorické rozhodnutie tak nám je celé rozdelenie zbytočné, ale pri plánovaní veľkosti vzorky je to cenná informácia.

Bolo by myslím, že zaujímavejšie kontrastovať výkon NHST a Bayesa pri komplexnejších analýzach, ktoré vyžadujú určitú mieru flexibility. Namiesto kategorizácie replikačnej pravdepodobnosti binomiálnych dát do skupín úspešná/neúspešná replikácia by bolo zaujímavé porovnať napríklad ich úspešnosť plánovania veľkosti vzorky potrebnej pre replikáciu.

Psychological Science editorial board (2005). Information for contributors. Psychological Science, 16(12).
Tversky, A., & Kahneman, D. (1971). Belief in the law of small numbers. Psychological Bulletin, 76, 105-110.
Miller, J. (2009). What is the probability of replicating a statistically significant effect? Psychonomic Bulletin & Review. vol. 16, nr. 4 (2009), 617-640.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s