Problems with p values

V predchádzajúcom článku som spomenul bayesiánske a frekventistické štatistické metódy. V tomto článku chcem poukázať na argumenty podporujúce bayesiánsky prístup (nielen v psychológii). Argumentovať pre bayesiánske metódy znamená argumentovať proti tým frekventistickým. Tieto prístupy nemusia byť exkluzívne. Štatistické programy umožňujú rýchlo spraviť viaceré analýzy. Obmedzenie prichádza v momente referovania a publikovania výsledkov (lebo priestor v publikáciach je obmedzený). Tu sa treba rozhodnúť, ktorú analýzu popísať a ako Wagenmakers (2007) poznamenáva v 100 percent psychologických štúdii dopadne rozhodnutie v prospech frekventistov.

Frekventistický prístup je asociovaný s p hodnotami, ktoré vyjadrujú pravdepodobnosť dát ak platí nulová hypotéza (tejto metóde sa preto hovorí aj Null Hypothesis Significance Testing – NHST). V prípade ak je táto pravdepodobnosť nízka je možné odmietnuť nulovú hypotézu. Aká nízka hodnota je dosť nízka je určené arbitrárnymi konvenciami. Pre publikovanie v psychologických vedeckých časopisoch vám postačí hodnota nižšia ako 0.05. Wagenmakers (2007) poukazuje na viacero problémov s týmto prístupom.

1. p hodnota závisí od postulovaného rozdelenia pravdepodobnosti dát v závislosti od nulovej hypotézy. Napríklad ak hádžem kockou tak pravdepodobnosť každej hodnoty je 1/6. Ak je však kocka upravená môže byť pravdepodobnosť hodu šestky vyššia ako u ostatných hodnôt. Aj malé rozdiely v rozdelení pravdepodobnosti majú vplyv na p hodnoty a v konečnom dôsledky na fakt či odmietneme nulovú hypotézu. V prípade kocky vieme s vysokou istotou že rozdelenie pravdepodobnosti je rovnomerné. V prípade dát však toto rozdelenie nemusíme poznať, a musíme ho zistiť na dát a dostupných informácii. Nasledujúci príklad ilustruje celú problematiku, (Pratt, 1962, cit. podľa Wagenmakers, 2007, s.782-783):

An engineer draws a random sample of electron tubes and measures the plate voltage under certain conditions with a very accurate volt-meter, accurate enough so that measurement error is negligible compared with the variability of the tubes. A statistician examines the measurements, which look normally distributed and vary from 75 to 99 volts with a mean of 87 and a standard deviation of 4. He makes the ordinary normal analysis, giving a confidence interval for the true mean. Later he visits the engineer’s laboratory, and notices that the volt meter used reads only as far as 100, so the population appears to be “censored.” This necessitates a new analysis, if the statistician is orthodox [=frekventista, M.S.]. However, the engineer says he has another meter, equally accurate and reading to 1000 volts, which he would have used if any voltage had been over 100. This is a relief to the orthodox statistician, because it means the population was effectively uncensored after all. But the next day the engineer telephones and says: “I just discovered my high-range volt-meter was not working the day I did the experiment you analyzed for me.” The statistician ascertains that the engineer would not have held up the experiment until the meter was fixed, and informs him that a new analysis will be required. The engineer is astounded. He says: “But the experiment turned out just the same as if the high-range meter had been working. I obtained the precise voltages of my sample anyway, so I learned exactly what I would have learned if the high-range meter had been available. Next you’ll be asking me about my
oscilloscope.

Obmedzenie meracieho prístroja určuje rozdelenia pravdepodobnosti dát a tým pádom aj hodnotu. Deje sa tak napriek tomu že inžinier žiadne hodnoty vyššie ako 99 voltov nenameral. Jeffreys zhŕňa celú situáciu nasledovným výrokom. “What the use of P implies, therefore, is that a hypothesis that may be true may be rejected because it has not predicted observable results that have not occurred.”(Jeffreys, 1961,s.385; citované podľa Wagenmakers, 2007). Záverom je, že by sme mali vyžadovať od našich štatistických metód aby ich výsledky záviseli len od meraných dát.

2. Ako už bolo spomenuté v predchádzajúcom príspevku, p závisí od plánov a intencii vedca. Ak vedec plánoval 20 pokusných osôb, vyhodnotil dáta a rozhodol sa zozbierať dáta od ďalších 40 pokusných osôb, je p hodnota konečnej analýzy odlišná ako keby zozbieral dáta rovno od 40 pokusných osôb a až následne ich vyhodnotil. Pritom dáta sú v oboch prípadoch úplne rovnaké. Jedným riešením (Simmons et al.,2011) je jasne vyformulovať svoje v plány v publikáciach a poprípade zakázať predbežné vyhodnocovanie dát (vyhodnoť dáta po každej pokusnej osobe a prestaň zbierať dáta ak si dosiahol signifikantné výsledky). Toto môže byť na škodu. Priebežná analýza výsledkov je intuitívne zmysluplnou stratégiou a môže byť aj eticky žiadaná. Napríklad ak zistím že nový liek proti chorobe funguje tak dáva zmysel zastaviť zber dát resp. zmeniť dizajn experimentu, a poskytnúť liek aj osobám v kontrolnej skupine. Naopak ak má liek nežiadúce účinky je takisto zmysluplné zastaviť zber dát a nevystavovať ďalšie osoby nežiadúcim účinkom. Alternatívne boli preto navrhnuté frekventistické riešenia, ktoré umožňujú priebežné analýzy avšak neposkytujú generické riešenie. Riešenie Simmonsa a co. navyše uvádza viac problémov ako ich rieši. Ako zistiť presné intencie experimentátora? Čo ak vedec zabudol? Čo ak výskumníkove spomienky alebo rozhodovanie je ovplyvnené nevedomými biasmi? Mali by sme poslať vedcov na skener alebo hypnózu aby sme zistili ich úmysli? Čo ak rozhodovala skupina vedcov? Čo ak si vedci pri rozhodovaní hodili mincov?

Problém vo všetkých týchto prípadoch je v princípe. Intuitívne, tak ako nechceme aby výsledky psychologických experimentov boli skreslené úmyslami experimentátora (a v psychológii to môže byť problém, napr. Rosentahl effect), takisto musíme vyžadovať, aby úmysly vedcov nemali vplyv na výsledok štatistických analýz.

3. Posledný problém sa týka chudobnej interpretácie p hodnôt. Frekventistická analýza umožňuje výrok typu “nultú hypotézu môžeme odmietnuť s pravdepodobnosťou p”. Analýza nám neprezradí nič o alternatívnej hypotéze. Podľa Fischera, otca freqentistickej štatistiky, totiž v zásade nie je možné platnosť hypotézy preukázať, ale iba ju odmietnuť. Ani nulovú hypotézu nie je možné prijať. Prakticky teda odmietnutie nulovej hypotézy znamená len toľko, že táto hypotéza bola horšia ako tá alternatívna, v skutočnosti však obidve hypotézy môžu mať nízku pravdepodobnosť a poskytovať mizerný popis reality. Wagenmakers ďalej pomocou simulácii ukázal, že ak meriame pravdepodobnosť nulovej hypotézy v porovnaní s alternatívnou tak táto pravdepodobnosť (pre konštantné p) stúpa v závislosti od počtu dát. Hodnota p totiž okrem veľkosti vzorky závisí aj od sily efektu a preto pri väčšej vzorke sú aj malé efekty štatisticky signifikantné. Túto variabilitu je možné vnímať ako nežiadúcu vlastnosť a často sa pri interpretácii výsledkov výskumu preto odporúča zohľadniť aj silu efektu (Cohen, 1994). (Fischer to však v zásade nevnímal ako problém).

Wagenmakers (2007, s.794) zhŕňa problém s frekventistickou štatistikou a svoju pozíciu nasledovne:

The use of NHST is tainted by statistical and practical difficulties. The methodology requires knowledge of the intentions of the researcher performing the experiment. These intentions refer to hypothetical events, and can therefore not be subjected to scientific scrutiny. It is my strong personal belief that the wide majority of experiments in the field of psychology violate at least one of the major premises of NHST. […] The most positive interpretation of the widespread abuse is that researchers are guided by the Bayesian intuition that they need not concern themselves with subjective intentions and hypothetical events, since only the data that have actually been observed are relevant to statistical inference. Although this intuition is, in my opinion, correct as a general guideline, in the framework of NHST it is completely off.

Zjavným riešením je uvedenie bayesiánskych metód do praxe. Problém je že psychológovia nemajú dostatočnú kvalifikáciu aby aplikovali bayesiánske metódy. Wagenmakers navrhol kvantifikovať evidenciu pomocou BIC (bayesian information criterion). BIC umožňuje takisto ako p vyrátať pravdepodobnosť hypotéz a na rozdiel od p hodnôt ho netrápia vyššie uvedené problémy. Wagenmakers ukázal ako je možné spraviť tieto výpočty rýchlo a prakticky pomocou SPSS, čo je hlavný štatistický softvér používaný psychológmi.

Dlhodobo sa samozrejme oplatí presadzovať inú stratégia a to spraviť bayesiánske metódy súčasťou kurikula študentov psychológie. Psychológ John Kruschke vydal knihu Doing Bayesian Data Analysis, napísal viacero propagačných článkov vrátane otvoreného listu editorom psychologických časopisov a momentálne cestuje s workshopmi po univerzitách . Wagenmakers a Lee takisto sprístupnili skript k svojmu bayesiánskemu kurzu. Ostáva už len dúfať, že akceptácia bayesianskych metód sa zmení aj v psychologických časopisoch.

Cohen, J. (1994). The earth is round (p < .05). American Psychologist, Vol 49(12), Dec 1994, 997-1003.

Wagenmakers, E.J. (2007). A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review. Vol. 14, Nr. 5, 779-804

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s