Podozrivé rozdelenie p hodnôt

Zápas o vedeckú psychológiu pokračuje. Tu sú najnovšie správy z fronty. Uri Simonsohn, ktorý bol hlavným páchateľom článku o mylných pozitívnych výsledkoch v psychológii (Simmons et al., 2011; môj článok tu), teraz prišiel so štatistickou metódou ktorá umožňuje pochybné praktiky, o ktorých minulý rok referovali odhaliť. Ešte z toho nič nie je zverejnené, ale nie je ťažké si predstaviť o čo zhruba pôjde. Na pomoc si priberiem zatiaľ nepublikovanú štúdiu od tímu ekonómov (Brodeur et al. 2012), ktorý si posvietil na rozdelenie p hodnôt v ekonomických vedeckých článkoch.

Autori postupovali nasledovne. Náhodne vybrali 637 vedeckých článkov publikovaných v rokoch 2006-2011 v ekonomických časopisoch. V každom článku zaznamenali počet štatistických testov a ich p hodnotu. Výsledky vyzerajú takto:

Na x-ovej osy sú z-hodnoty na základe, ktorých sa p hodnoty vyrátavajú. Z-hodnota okolo 1.65 zodpovedá 0.1 p, 1.96 zodpovedá 0.05 p a všeobecne vyššie z hodnoty zodpovedajú nízkym p hodnotám. V grafe pekne vidieť “podlezný” kopček hodnôt, ktoré sú tesne nižšie ako .05, teda p hodnota, ktorá býva interpretovaná ako štatisticky signifikantný výsledok. V grafe vidieť aj dva efekty, ktoré by sme očakávali. Veľmi vysoké p hodnoty sú zriedkavejšie. Na druhej strane grafu, p hodnoty blízke 1 sú zriedkavejšie (tento efekt nie je tak dobre viditeľný, lebo transformácia medzi z a p hodnotami nie je lineárna), čo by sme aj očakávali, keďže nesignifikantné výsledku nie sú až tak zaujímavé a nebývajú publikované. Ako však vysvetliť ten kopček za hranicou .05? Ostávajú hodnoty nad .05 nepublikované?

V kontexte článku od Simmonsohna a kolegov (Simmons et al., 2011) sme videli, že signifikantné hodnoty možno dosiahnuť aj pomocou určitých stratégii vyhodnocovania dát. Tieto metódy sú aplikované až kým nevydajú signifikantný výsledok. Tento je s vysokou pravdepodobnosť tesne pod 0.05, keďže reálna p hodnota je niekde nad touto hranicou. Túto implikáciu môžeme otočiť. Ak sa pozrieme na rozdelenie p hodnôt v článkoch konkrétneho výskumníka, vysokofrekvenčné nerovnosti v rozdelení môžno interpretovať ako indície, že popísané p hodnoty sú skreslené. Simmonsohnova metóda zrejme takto funguje.

Simmonsohn už aplikoval svoju metódu a kontaktoval dvoch výskumníkov, ktorých p hodnoty boli veľmi podozrivé. Jedným z nich je holandský sociálny psychológ Dirk Smeesters z Univerzity v Rotterdame. Tento priznal, že pri jednej štúdii ľubovoľne vylučoval probandov zo vzorky, aby získal signifikantné výsledky. Smeesters vinu odmieta, lebo ide podľa neho o praktiku, ktorá s v jeho obore bežne používa. Prešetriť ďalšie štúdie sa podarí ťažko, keďže Smeesters pred pár mesiacmi stratil dáta zo svojich novších experimentov. Každopádne Smeesters sa vzdal profesúry na univerzite, údajne z osobných dôvodov, ktoré s podozreniami nesúvisia. Na druhú obeť Simmonsohnovej analýzy a jej reakciu si musíme ešte počkať. Druhým výskumníkom je sociálny psychológ Lawrence Sanna z univerzity Michigan, ktorý sa už tiež vzdal svojej pozície. (zdroj tu). Detaily jeho prípadu zatiaľ nie sú známe.

Medzitým sa rozprúdili reakcie na možné aplikácie a zneužitia Simmonsohnovej metódy. Mnohí psychológovia sa boja, že to výusti do lovu na čarodejnice. Napríklad výskumníci zastávajúci konkurenčné teoretické pozície určite hneď využijú danú metódu aby poukázali na to, že konkurenčný výskum je humbug. Samozrejme Simmonsohnova metóda detekcie určite nie je perfektná. Napriek tomu si myslím, že poctiví výskumníci sa nemajú čoho báť.

Ďalší holandský psychológ Denny Borsboom napísal na fóre OSF komentár, ktoré pekne vystihuje môj dojem z káuz okolo sociálnej psychológie a ktorý s tu dovolím odcitovať v plnom znení. Borsboom na začiatku komentuje tvrdenie, že takéto problémy sa netýkajú len psychológie.

I hate to bring the bad news, but nobody buys the defense that this is a science-wide problem anymore. Most people don’t even buy the idea that it’s a problem of psychology at large. Probably many of us know about some more skeletons in the closet, which may or may not fall out depending on whether the evidence will hold up. At least I do know of some, and none of them come from behavior genetics, clinical psychology, or cognitive science. All of them are from social psychology, and all of them are of the “wow”-variety: the type of unbelievable effects under flashy headline titles that journals like Psych Science continue to advertise (as if nothing has happened!) as revolutionary findings; you know, “rubbish in the street makes people more racist” etc etc.

What should we do? Pointing to other sciences, like the biomedical sciences, and saying ‘it happens there too!’ isn’t a smart PR strategy, because it’s perceived as trying to shake the attention rather than addressing the problem. It reminds me of the response of the catholic church to the sexual abuse scandal (first response: “It’s an isolated phenomenon”, second response: “It happens in other organizations too”, third response: “It has nothing to do with the celibate culture”. Sounds familiar?). Neither is it smart to label the current work of people like Simonsohn as a witch hunt. In this case, witches do exist and Smeesters was clearly one of them, so many people think a witch hunt isn’t such a bad idea at all, as long as you succeed in correctly identifying the witches.

Apparently many psychologists hope that all this bad stuff will go away by itself. The Smeesters case nicely illustrates this. Apparently, Smeesters thought he could get away from his problems by saying that throwing people out to reach significance is part of the research culture. Right! As if the man in the street doesn’t understand that, if you’re throwing out data to confirm your hypotheses, you’re a con artist! But perhaps more revealing was the lack of response. I have seen very little happening at the (social) psychology front. In particular, what I have not seen is a public, clear message being sent out by (social) psychology and marketing research organizations saying: Smeesters is wrong, this is NOT our research culture, throwing out subjects to reach significance is unacceptable, we won’t have any of it anymore and we’ll do everything in our power to prevent this kind of malpractice. Why has this not happened? Why the silence?

I think it’s another response is called for. We as psychologists need to show that we understand that we are the *owners* of this problem and that we are *addressing it*, and are addressing it forcefully. It’s the only way to go.

Brodeur, Abel, Lé, Mathias, Sangnier, Marc and Zylberberg, Yanos, Star Wars: The Empirics Strike Back (June 18, 2012). Paris School of Economics Working Paper No. 2012-29.

Simmons, J.P., Nelson, L.D. and Simonsohn, U. (2011). False Positove Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science November 2011 vol. 22 no. 11 1359-1366

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s