Francisov lov na čarodejnice

V predchádzajúcom článku som spomenul ako sa Simonsohnovi podarilo odhaliť prípady podvodov v psychologickom výskume pomocou štatistických analýz. Psychológ Gregory Francis z Univerzity v Purdue začal upozorňovať na publikačný bias v individuálnych štúdiách. Publikačný bias označuje uprednostnenie pozitívnych výsledkov ktoré sú konzistentné s hypotézami vedca. Ostatné výsledky skončia v psychológovej zásuvke – nie sú publikované a nikto sa o nich nedozvie. Pochybné výskumné praktiky takisto vedú k publikačnému biasu.

Publikačný bias je možné štatisticky identifikovať pre sériu experimentov, ktoré možno považovať za replikácie (musia mať podobne silný efekt). V prípade publikačného biasu vykazujú parametre štatistických analýz rôzne diskrepancie. Napríklad rozdelenie p hodnôt vykazuje nadmernú početnosť v oblasti tesne pod .05. Výskumníci sa snažia získať signifikantné efekty a pritom minimalizovať použité zdroje (veľkosť testovanej vzorky). Signifikantnosť výsledku závisí od veľkosti efektu a veľkosti vzorky. Pre silné efekty stačí menšia vzorka a pre slabé efekty treba viacej meraní, aby mohol byť výsledok signifikantný. V praxi silu efektu nepoznáme a rozprávkárske psychologické teórie a z nich vyplývajúce hypotézy ju tiež nepredpovedajú. Tým pádom by sila nameraného efektu nemala súvisieť s veľkosťou vzorky v rôznych štúdiách. Korelácia ukazovuje na prítomnosť publikačného biasu, kde úspešné štúdie (malá vzorka velký efekt alebo veľká vzorka a malý efekt = sig. výsledok) sú publikované a zvyšok ostáva v zásuvke.

Na základe vyššie uvedených úvah Ioannidis a Trikalinos (2007) navrhli test pre publikačný bias. Pripomínam, že pri frekventistických testoch hypotéz musíme zvážiť štyri kvantity.

1. pravdepodobnosť odmietnutia nulovej hypotézy na základe dát ak nulová hypotéza platí v celkovej populácii (alfa pochybenie)

2. pravdepodobnosť nulovej hypotézy ak platí nulová hypotéza

3. pravdepodobnosť odmietnutia nulovej hypotézy ak nulová hypotéza neplatí (sila testu)

4. pravdepodobnosť nulovej hypotézy ak nulová hypotéza neplatí (beta pochybenie)

Silu testu možno vyrátať na základe veľkosti efektu a veľkosti vzorky. Veľkosť efektu môžeme odhadnúť pomocou jeho nameranej hodnoty, ktorá je väčšinou uvedená v publikovaných štúdiách. Pomocou sily testu môžeme vyrátať očakávaný počet signifikantných experimentov pre danú vzorku experimentov. Túto vzorku môže tvoriť meta-analytický súhrn štúdii. Väčšina (obzvlášť sociopsychologických) článkov pozostáva z viacej experimentov, ktoré tvoria konceptuálne replikácie. Tým pádom môžeme aplikovať test a odhadnúť očakávaný počet sig. experimentov pre takýto publikovaný článok. Test pozostáva v posúdení pravdepodobnosti publikovaného počtu signifikantných experimentov v porovnaní s odhadovaným počtom. Ak je odhad značne nižší tak pravdepodobne došlo (či už vedome alebo nevedome) k publikačnému biasu zo strany autorov. Test teda testuje niečo ako internú konzistentnosť výsledkov série experimentov.

Francis (2012a) ilustroval daný test na prípade Bemovej štúdie. Nižšie uvedená tabuľka znázorňuje všetky relevantné údaje pre danú sériu experimentov. Vpravo sú dva odhady pre silu testu. Prvý odhad používa rovnakú silu efektu (vážený priemer tretieho stĺpca) pre všetky efekty. Druhý odhad je založený na individuálnej sile efektu znázornenej v treťom stĺpci.

Sila testu vyjadruje pravdepodobnosť, že v danom experimente získame signifikantný efekt. Sčítaním individuálnych hodnôt pre silu testu získame očakávaný počet signifikantných experimentov. V prípade Bemovej štúdie očakávame na základe sily testu 6.27 (resp. 6.64 pre OP) signifikantných výsledkov z celkového počtu desať experimentov. Bem získal 9 signifikantných výsledkov. Pravdepodobnosť 9 a viac signifikantných experimentov je .058 (.088). Ioannidis a Trikalinos klasifikujú hodnoty pod .1 ako podozrivé z publikačného biasu. Treba dodať, že test publikačného biasu je značne konzervatívny. Publikačný bias nadhodnocuje silu efektu. Tým pádom je aj očakávaný počet signifikantných experimentov nadhodnotený, v skutočnosti je zrejme o  dosť nižší a získaný vysoký počet signifikatných štúdii tým pádom ešte menej vierohodnejší.

Ako som spomenul vyššie, test poukazuje na internú nekonzistentnosť výsledkov a nedokáže odhaliť konkrétnu formu publikačného biasu, ktorá viedla k diskrepancii. Nevieme teda, či nejaké experimenty ostali v zásuvke, či nejaké nesignifikantné merané indikátory neboli popísané alebo či autori pokračovali v zbere dát v závislosti od signifikantnosti výsledku …Nech je už príčina akákoľvek Francis (2012b, 2012c, 2012d, in press) začal lustrovať psychologické štúdie a upozorňovať na publikačný bias.

Čo poviete na štúdiu Balcetisa a Dunninga (2010) publikovanú v prestížnom PsychScience. V tejto ukázali, že ľudia podhodnocujú vzdialenosť žiadaných objektov (sú bližšie). Autori predstavili v svojom článku päť experimentov z ktorých každý dopadol signifikantne v prospech hypotézy autorov. Presvedčivé, nie? Očakávaný počet signifikantných experimentov je len 3.11 a pravdepodobnosť piatich signifikantných výsledkov je .076. Publikačný bias!

A čo štúdia Piffa a kolegov (2012). Títo v siedmych signifikantných experimentoch ukázali, že ľudia z vyšších sociálnych vrstiev sú náchylnejší k neetickému správaniu ako ľudia z nižších sociálnych vrstiev. Očakávaný počet signifikantných experimentov je ale len 4.09 zo siedmych. Pravdepodobnosť publikovaných sedem zo siedmych je .02. Publikačný bias!

Galak a Meyvis (2011) ukázali v sérii ôsmych experimentov, že ľudia hodnotia udalosť ako viac nepríjemnú ak očakávajú, že budú v blízkej budúcnosti tejto udalosti znova vystavení. Galak a Meyvis potvrdili svoju hypotézu v siedmych z ôsmych experimentov. Očakávaný počet sig. experimentov je 4.06. Pravdepodobnosť publikovanej série experimentov je .079. Publikačný bias!

Elliot s kolegami (2010) ukázali v sérii siedmych experimentov, že ženy hodnotia vyššie atraktivitu, sexuálnu príťažlivosť a status mužov na fotografiách ak sú títo oblečení v červenom alebo pozadie fotografie je červené. Francis (in press) vyrátal pravdepodobnosť signifikantnosti všetkých 12 testov v siedmych experimentoch na .005. Publikačný bias!

Toľko na zatiaľ. Snáď Francisovi neprejde apetít, a my sa aj v budúcnosti môžeme dočkať záplavy analýz publikačného biasu v ďalších štúdiách. Medzičasom sa samozrejme zdvihla vlna nevôle medzi autormi usvedčených štúdii a nesúhlasnú reakciu pridal aj Uri Simonsohn (Simonsohn, 2012). Kritiku možno rozdeliť do dvoch bodov.

1. Francis selektívne vyberá štúdie. Ak si vezmeme vzorky štúdii bez publikačného biasu tak určitá proporcia z nich čisto náhodou dosiahne signifikatný výsledok vo Francisovom teste publikačného biasu. Francisov test teda môže usvedčiť nevinných vedcov, ktorí čisto náhodou získali podozrivé výsledky a teda dopustiť sa alfa chyby. Keďže počet publikovaných štúdii je obrovský aj vždy sa nájdu podozrivé a nevinné štúdie, ktoré padnú Francisovi za obeť.

Samotná pravdepodobnosť alfa chyby Francisovho testu však závisí ešte od jednej hodnoty a to je proporcia štúdii s publikačným biasom z celkového počtu publikovaných štúdii. Ak je týchto štúdii veľa tak väčšina štúdii s nízkou pravdepodobnosťou signifikantnosti (pod 0.1) vo Francisovom teste bude naozaj trpieť publikačným biasom. Ak je naopak kontaminovaných štúdii málo, pravdepodobnosť pod 0.1 budú tvoriť z veľkej časti alfa chyby.

Proporciu štúdii kontaminovaných publikačným biasom žial nepoznáme takže spoľahlivosť Francisovho testu nemôžeme priamo posúdiť. Štúdia od John et al. (2012) však ukazuje, že pochybné výskumné praktiky sú medzi psychológmi značne rozšírené. Teoreticky by sme mohli odhadnúť proporciu publikácii, pri ktorých zostali nejaké experimenty v zásuvke, keby sme sa v prieskume popýtali zopár autorov publikácii. Zaujímavé je, že niektorí obvinení v svojej reakcii priznali štúdie v zásuvke a tým vlastne potvrdili validitu Francisovho testu. Galak a Meyvis sa priznali k ďalším piatim experimentom Balcetis a Dunning priznali jednu nesignifikantnú štúdiu. V každom prípade sa samozrejme autori dušujú, že dodatočné štúdie nemenia nič na ich interpretáciách. Škoda, že sme sa to nemohli dozvedieť v ich publikovanom článku.

Opačný problém Francisovho testu môže byť, že publikačný bias je taký rozšírený, že Francisov test je zbytočný. Stačilo by tak náhodne vybrať štúdiu, ukázať prstom a máme záruku, že nájdeme nejakého kostlivca v autorovej zásuvke.

2. Druhá výhrada sa týka odporúčaní, ktoré Francis poskytuje. Francis sa s tým proste nefára: “Now that the data are known to be contaminated with publication bias, […]. Researchers […] are advised to ignore the findings […] and run new experiments.”
(Francis, 2012b, p. 177). Nie je takáto reakcia prehnaná? Dáta by bolo možné očistiť pomocou dodatočný analýz, ktoré by zahrnuli aj experimenty v zásuvke.

Výsledky dodatočných analýz môžu byť užitočné a smerodajnejšie – otázne je prečo sme si tieto analýzy nemohli prečítať v platforme tomu venovanej – vo vedeckej publikácii. Namiesto toho publikáciu tvorí ochutnávka skutočných výsledkov – Best of Filedrawer.

Ťažšie až nemožné je očistiť dáta kontaminované pochybnými výskumnými praktikami. Francisov záver sa mi teda nezdá až taký extrémny. Zasa visí vo vzduchu či potrebujeme extra test aby nám to ukázal. Vo výskumnej klíme kde je publikačný bias vysoko rozšírený, môže byť najlepším odporúčaním sa proste nespoliehať na výsledky publikovaných (a nereplikovaných !!!) štúdii.

Samozrejme je možné nájsť 1000 štatistických námietok, prečo Francisova metóda nie je dokonalá. Tieto sa však nevzťahujú na konkrétne prípady a konkrétnu kritiku a preto nie sú moc zaujímavé ani relevantné. Myslím, že Francisova inkvizícia trochu prefúkne stojaté vody postpublikačného procesu. Už som zvedavý, ktorú štúdiu si Francis podá nabudúce.

Balcetis E., Dunning D. (2010). Wishful seeing: More desired objects are seen as closer. Psychological Science, 21 147–152.

Elliot, A. J., Greitmeyer, T., Gramzow, R. H., Kayser, D. N., Lichtenfeld, S., Maier, M. A. & Liu, H. (2010). Red, rank, and romance in women viewing men. Journal of Experimental Psychology: General, 139, 399-417.

Francis, G. (2012a). Too good to be true: Publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review, 19, 151-156.

Francis G. (2012b). The same old New Look: Publication bias in a study of wishful seeing. i-Perception 3(3) 176–178.

Francis, G. (2012c). Evidence that publication bias contaminated
studies relating social class and unethical behavior. Proceedings of the National Academy of Sciences, USA, 109.

Francis, G. (2012d). The psychology of replication and replication in psychology. Perspectives on Psychological Science, 7(6), 580-589.

Francis, G. (in press). Publication bias in “Red, Rank, and Romance in Women Viewing Men” by Elliot et al. (2010). Journal of Experimental Psychology: General.

Galak, J., & Meyvis, T. (2011). The pain was greater if it will happen again: The effect of anticipated continuation on retrospective discomfort. Journal of Experimental Psychology: General, 140, 63–75.

Ioannidis, J. P. A., & Trikalinos, T. A. (2007). An exploratory test for an excess of significant findings. Clinical Trials, 4, 245-253.

Piff P.K., Stancato D.M., Côté S., Mendoza-Denton R., Keltner D. (2012). Higher social class predicts increased unethical behavior. Proc Natl Acad Sci USA 109:4086-4091.

Simonsohn, U. (2012). It Does Not Follow : Evaluating the One-Off Publication Bias Critiques by Francis (2012a, 2012b, 2012c, 2012d, 2012e, in press). Perspectives on Psychological Science 2012 7: 597.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s