Feeling the Future: Daryl Bem a Psi

Ak ste posledný rok nežili v úplnej izolácii od vedeckej komunity, tak ste už zrejme počuli o tom čo Daryl Bem a Journal of Personality and Social Psychology vyviedli. Bem je rešpektovaným výskumníkom na poli sociálnej psychológie s občasnou záľubou v parapsychologických experimentoch. Vo svojej poslednej parapsychologickej štúdii Bem (2011) predstavil 9 experimentov testujúcich prekogníciu (teda schopnosť predpovedať budúcnosť). Experimenty boli variácie jednoduchých psychologických experimentov akurát mali Bemove  experimenty opačný priebeh ako tradičné verzie. Manipulácia prišla až pod meranej reakcii. V prvom experimente mali napr. probandi na výber jednu z dvoch záclon. Za jednou záclonou sa skrýval objekt a úlohou probandov bolo tento objekt správne “tipnúť”.  V prvom experimente boli predmetom erotické obrázky. Inštrukcia pre probandov znela nasledovne Bem(2011, s.410):

this is an experiment that tests for ESP. It takes about 20 minutes and is run completely by computer. First you will answer a couple of brief questions. Then, on each trial of the experiment, pictures of two curtains will appear on the screen side by side. One of them has a picture behind it; the other has a blank wall behind it. Your task is to click on the curtain that you feel has the picture behind it. The curtain will then open, permitting you to see if you selected the correct curtain. There will be 36 trials in all.

Tretí a štvrtý experiment Bem boli otočené priming experimenty. Piaty, šiesty a siedmy testovali habituáciu a ôsmy a deviati experiment testovali pamäť. V 8 z 9 experimentov získal Bem signifikantné výsledky v prospech existencie Psi. Bem poslal svoje výsledky do JPSP, čo je najprestížnejší žurnál v pod-obore sociálnej psychológie. Vlna pobúrenia prišla už počas review procesu, keď manuskript cirkuloval vedeckou komunitou. JPSP sa nakoniec rozhodli Bemov článok, čo spôsobilo obrovskú kontroverziu. Čo nasledovalo popisujú Wagenmakers  a kolegovia (2011b):

Bem’s findings—and, perhaps more importantly, the fact that they were going to be published in a major journal—created a storm of media attention. In the New York Times, several researchers voiced strong opinions: Dr. Ray Hyman, a long-time critic of ESP research, questioned the quality of the refereeing process as he believed that the publication of Dr. Bem’s article was “(…) pure craziness (…) an embarrassment for the entire field” , and Dr. Douglas Hofstadter argued for “(…) a cutoff for craziness, and when that threshold is exceeded, then the criteria for publication should get far, far more stringent.” Bem’s article was also discussed in Science and many other media throughout the world. A Google search on “Bem” and “feeling the future” generates over 50,000 hits. Bem himself appeared on the popular US television show The Colbert Report, where the host described Bem’s work as “extrasensory pornception” referring to the fact that Experiment 1 in Bem found that precognition was present only for erotic pictures. In the New York Times, Bem was quoted as saying “What I showed was that unselected subjects could sense the erotic photos, but my guess is that if you use more talented people, who are better at this, they could find any of the photos.”

Okrem značnej pozornosti médii nasledovala aj silná reakcia vedeckej komunity – desiatky publikovaných komentárov a stovky blogov. Na scénu samozrejme nabehli aj profesionálni skeptici s nespočetnými vysvetleniami ako sa mohol Bem k svojim nesprávnym výsledkom dopracovať.

Sledovať celú diskusiu a kontroverzie okolo Bemovej štúdie je úmorné. Štúdiu je možné rozobrať zo všetkých uhlov a ako v každej štúdii je možné nájsť pochybenia. V zásade však treba dodať, že Bemova štúdia zodpovedá  štandardom pre design, prevedenie a publikovanie experimentov v sociálnej psychológii resp. v mnohých bodoch tento štandard aj predčila (a to bol aj jeden z argumentov prečo sa editori rozhodli štúdiu publikovať). Výsledky teda implikujú, že buď Psi existuje a prekognícia funguje alebo psychologická metodológia vedie k nesprávnym výsledkom. Najlepšou metódou uzavrieť túto problematiku je replikácia.  Ritchie a kolegovia (2012) predstavili tri replikácie s celkovou vzorkou 150 probandov, ďalšie 4 labáky pod vedením Josepha Simmonsa (Galak et al., 2012.) vykonali celoplošnú replikáciu s celkovou vzorkou 3289 (!!!) pokusných osôb a mnohé ďalšie nasledovali. PSI sa v žiadnom z týchto prípadov replikovať nepodarilo. Kombinovaná meta-analýza (teda aj s Bemovými výsledkami) ukázala že celkový efekt nie je významne odlišný od nuly (d=.04). Výsledky tejto metaanalýzy a zároveň výsledky všetkých replikácii vyzerajú nasledovne:

Vľavo sú zoradené všetky štúdie a graf vpravo znázorňuje veľkosť efektu aj s konfidenčným intervalom. Veľkosť čiernej bodky ilustruje veľkosť vzorky a teda váhu konkrétnej štúdie. (Tieto replikácie sa týkajú experimentov 8, 9, ktoré sa z technického hľadiska dajú najľahšie zopakovať. Experiment 9 mal okrem toho najsilnejší efekt zo všetkých experimentov v Bemovej štúdii.) Dole je znázornený celkový efekt všetkých dát, ktorého konfidenčný interval zahŕňa nulu.

To znamená, že fyzika je zachránená a psychológia má problém. Možeme identifikovať niekoľko problémových miest. 1. experimentálna metodika a spôsob vyhodnocovania dát. Ako je možné, že Bem získal signifikantné výsledky pomocou štandardných metód? 2. Publikačný proces. Ako je možné, že Bem publikoval svoju štúdiu v prestížnom vedeckom periodiku? 3. Pokusy o replikáciu. Prečo JPSP nepublikoval replikácie?

1. Jedna možnosť je samozrejme, že motyka vystrelí a Bem náhodou získal signifikatné výsledky. Náhoda zrejme zohrala rolu, avšak pri vyše tisíc probandoch má skôr malý vplyv. Problémy teda treba hľadať v metodike. Nie v Bemovej metodike, ale v metodike psychologického výskumu. V predchádzajúcom príspevku som spomenul zopár hriechov a môžeme si ich po jednom prejsť v súvislosti s Bemovou štúdiou.

1.1 viaceré merané hodnoty. V tomto prípade nie je Bemovi čo vyčítať. Ak sa sústredíme na Bemovu hypotézu, že ľudia dokážu predpovedať za ktorou oponou sa obrázok objaví, tak v tomto prípade bola v každom experimente meraná hodnota len jedna a jasne definovaná – počet úspešných predpovedí.

1.2 priebežná analýza dát a ukončenie testovania pri signifikantných výsledkoch. Vo všetkých Bemových experimentoch bolo testovaných 50,100,150 alebo 200  probandov. Tieto uhladené čísla indikujú že veľkosť vzorky bola plánovaná vopred. Na druhej strane sa však zdá, že ktorý násobok päťdesiatky sa realizuje, o tom bolo rozhodnuté na základe veľkosti efektu, a teda na základe priebežnej analýzy dát. Obrázok nižšie ukazuje koreláciu medzi veľkosťou vzorky a veľkosťou efektu.

1.3 viaceré kovariáty. Bem dal svojim probandom aj viaceré psychologické testy, ktoré aj vyhodnocuje (napr. extraverti sú lepší v prekognícii) avšak jeho základné výsledky platia pre celú vzorku a nezávisle od týchto ostatných faktorov.

1.4 viaceré manipulácie. Experimenty boli prehľadné a používali len jedinú manipuláciu. Všeobecne, Bem používal etablované paradigmy, v ktorých je manipulácia a meraná hodnota jednoznačná takže Bem sa nenaskytol veľký priestor v týchto oblastiach pre pochybenia.

Môžeme pokračovať ďalej s inými potenciálnymi faktormi. 1.5 File-drawer (FD) problém: signifikantné výsledky sú publikované zatiaľčo tie nesignifikatné skončia v zásuvke a nikto sa o nich nedozvie. V parapsychológii toto nie je až taký problém. Na jednej strane, keďže nie je toľko labákov zaoberajúcich sa parapsychológiou, výskumníci sa navzájom poznajú, výskum je priehľadný a vedia navzájom o sebe, na čom sa v ostatných labákoch pracuje. Na druhej strane nie je celkom jasné, čo je nultá hypotéza a čo je alternatívna hypotéza. Chýbajúca Psi je tiež dôležitý výsledok, ktorý treba publikovať. No a keď sme už pri publikovaní, tak signifikantnú štúdiu asi rovnako ťažké publikovať ako nesignifikantné výsledky (Bemova štúdia je výnimka, 99 % parapsychológie skončí v bezvýznamných publikáciach špecializovaných na parapsychológiu a iné bizarnosti). Tieto faktory znižujú možnosti ale aj motiváciu selektívneho publikovania signifikantných výsledkov. Ďalšej variantou FD je selektívne rozdelenie probandov medzi pilotovaním a testovaním. Bem diskutuje túto možnosť, no tvrdí, že snáď s výnimkou prvého a druhého experimentu, žiadne pilotovanie nebolo potrebné.

1.6 nesprávna aplikácia NHST. Treba povedať, že Bemom merané efekty nie sú moc silné v dôsledku čoho väčšina p-hodnôt kolíše medzi .01 a .05 (ako sme videli tu, šance na replikáciu nie sú moc vysoké). Takisto bolo Bemovi vyčítané, že aplikoval testy jednosmerných hypotéz a síce, že probandi budú signifikantne lepší a nie signifikatne horší ako 50 % pri svojich predpovediach. Problémom je, ako už bolo spomenuté, že nie je jasné čo je v tomto prípade nulová hypotéza a čo je alternatívna hypotéza. Pre Bema je nulová hypotéza, že výkon je 50 % a menej, lebo ho zaujíma PSI. Pre skeptika je nulová hypotéza 50% a alternatívou je všetko pod tým a nad tým. (Aj tento prípad pekne ilustruje ako p hodnota zase závisí od úmyslov experimentátora.) V Experimentoch 5,6 a 7 pritom ani smer efektu v súvislosti s Bemovou hypotézou nie je jasný. Bem testuje aký ma manipulácia vplyv na reakcie v minulosti. Pri štandardnom poradí by sme očakávali, že manipulácia reakciu urýchli. Bem predpovedá spomalenie reakcii.  Ak by Bem testoval obojstranne tak by mu ostalo 5 z 9 experimentov signifikantných a štúdiu by asi ťažko publikoval.

1.7 správna aplikácia NHST. Wagenmakers a co. (2011a) nemohli chýbať na scéne, aby znovu kopli NHST do zadku. Bem si zavolal na pomoc štatistikov (Bem et al., 2011), no Wagenmakers a co. (2011b) sa ich nezľakli. Táto štatistická diskusia má v podstate dva ťažné body. Prvý môžeme vyjadriť slovami Carla Sagana: “Extraordinary claims require extraordinary evidence”. V prípade Bemovej psi výnimočnej hypotézy, teda potrebujeme veľkú vzorku, silné efekty a ideálne oboje. Bayesiánska štatistika umožňuje zahrnúť nízku apriórnu pravdepodobnosť Psi do konečného výpočtu pravdepodobnosti Psi. V tomto prípade táto analýza nie je moc iluminujúca. Keďže Bemova hypotéza popiera v podstate všetko čo vieme o fyzike, o biológii a o psychológii človeka, výsledná pravdepodobnosť bude nízka. Pri výške Bemových efektov by musel Bem testovať niekoľko desaťtisícov probandov aby prebil prior. Bem a co. považujú takýto postup  za neférový. Diskusia sa preto upriamila k umierneným poprípade neutrálnym apriori pravdepodobnostiam hypotéz. Tým sa dostávame k druhému bodu a tým je, že bayesiánske analýzy sú o čosi konzervatívnejšie pre väčšie vzorky a väčšina p hodnôt na rozmedzí .01 až .05 podľa nich neposkytuje významnú evidenciu. Pri neutrálnej apriori pravdepodobnosti hypotéz tak bayesiánske analýzy neposkytnú jednoznačnú evidenciu pre Psi.

2. Otázka publikovania štúdie mi nepríde až taká zaujímavá, keďže to nevidím ako problém. Momentálny publikačný systém má kopu problémov a v mnohých úlohách zlyháva. Nemyslím však že by cenzúra mala patriť k jeho úlohám. To, že štúdiu uverejnil práve prestížny JPSP vnímam skôr ako problém tohoto periodika. V konečnom dôsledku však môžu uverejniť, čo chcú ak to zodpovedá ich formálnym publikačným požiadavkam a Bemov článok zodpovedal.

3. Môžeme sa pýtať, či kritéria pre publikáciu sú tie správne. Čo JPSP rozhodne nevyšlo je, že odmieta publikovať pokusy o replikáciu. JPSP v tomto nie je výnimka. Drvivá väčšina prestížnych periodík pri svojej honbe za prevratnými, inovatívnymi a supersignifikantnými výsledkami odmieta publikovať neúspešné pokusy o replikáciu. Dôsledkom nizkej publikovateľnosti replikácii je nízky počet publikovaných replikácii a v konečnom dôsledku nízka replikovateľnosť publikácii. Pritom od vedeckých časopisov by sme očakávali, že im bude záležať na tom, že výskum čo publikujú je replikovateľný. Zdá sa, že JPSP netrápi, že Bemove výsledky sú mylné a že neúspešné pokusy o replikácie možno najsť akurát na internete. Editori JPSP dosť alibisticky vyhlásili, že považujú replikácie za dôležité, ale nech ich publikuje niekto iný. Autori prvej replikácie (Ritchie et al., 2012) tak tiahli s lampou za bieleho dňa od jedného žurnálu k ďalšiemu. Nakoniec ich štúdiu publikoval open-source outlet PlosOne, ktorý sa pri review procese prevratnosťou štúdii netrápi. Replikáčnú štúdiu a metaanalýzu Simmonsa a kolegov táto odysea ešte len čaká. Manuskript je však už dostupný na SSRN.

Cieľom tohoto príspevku bolo kurzórne zhrnúť doterajší priebeh Bemovej kauzy. Bemova štúdia zodpovedá súčasným metodologickým a publikačným štandardom v psychológii. Jej výsledky nás však nútia tieto štandardy prehodnotiť. V Bemovom prípade je podozrenie, že rozhodoval o veľkosti vzorky na základe priebežných výsledkov. Kontroverzné je aj použitie jednosmerných hypotéz v experimentoch 5, 6 a 7. Kombinácia týchto chýb uberá Bemovým výsledkom a záverom na váhe. Ultimátnym rozhodcom je vždy replikácia a viaceré tými vedcov sa pokúsili o replikáciu. Bemove výsledky sa replikovať nepodarilo a metaanalýza všetkých dát nepodporuje existenciu prekognície.

Prínosom Bemovej štúdie je, že podnietil viacero príspevkov reflektujúcich výskumnú prax psychológov. Tieto reflektujú experimentálnu metodológiu a štatistiku ale aj publikačné prostredie a úlohu replikácie v psychológii. V ďalších článkoch sa k týmto témam ešte vrátim.

P.S. Práve som aktualizoval referencie a zdá sa, že replikácia od Galak et al. (2012) predsa len výjde v JPSP. Som zvedavý na vysvetlenie editorov, ale predpokladám, že štúdiu publikujú ako metaanalýzu a nie ako štúdiu alebo nebodaj replikáciiu.

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407– 425.

Bem, D. J., Utts, J., & Johnson, W. O. (2011). Must psychologists change the way they analyze their data? A response to wagenmakers, wetzels, borsboom, & van der Maas (2011).Journal of Personality and Social Psychology, Vol 101(4), 716-719.

Galak, Jeff, LeBoeuf, Robyn A., Nelson, Leif D. and Simmons, Joseph P., Correcting the Past: Failures to Replicate Psi (June 19, 2012). Forthcoming, Journal of Personality and Social Psychology.

Ritchie SJ, Wiseman R, French CC (2012) Failing the Future: Three Unsuccessful Attempts to Replicate Bem’s ‘Retroactive Facilitation of Recall’ Effect. PLoS ONE 7(3): e33423.

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011a). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011). Journal of Personality and Social Psychology, 100, 426 – 432.

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011b).Yes, psychologists must change the way they analyze their data: Clarifications for Bem, Utts, and Johnson (2011). Unpublished Manuscript.

Reklamy

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Odhlásiť sa /  Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Odhlásiť sa /  Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Odhlásiť sa /  Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Odhlásiť sa /  Zmeniť )

w

Connecting to %s