Neurónové siete

Tento týždeň som začal pilotovať experiment s kojencami, takže dočasne fungujem v pohotovostnom režime. Tým pádom nemám moc času venovať sa Mozgostrojom. Dnes som doklepol aspoň jeden príspevok, ktorý by vám mal uľahčiť preklenúť toto ťažké obdobie.

V tomto príspevku nás zaujímajú neurónové siete z informatického hľadiska a preto sú na tomto mieste úvahy o ich biologickej alebo kognitívnej plauzibilite irelevantné. Ako píše Christopher Bishop (2006, s. 226) v úvode ku kapitole o neurónových sietiach:

The term ‘neural network’ has its origins in attempts to find mathematical representations of information processing in biological systems. Indeed, it has been used very broadly to cover a wide range of different models, many of which have been the subject of exaggerated claims regarding their biological plausibility. From the perspective of practical applications of pattern recognition, however, biological realism would impose entirely unnecessary constraints. Our focus in this chapter is therefore on neural networks as efficient models for statistical pattern recognition.

Striktne možno interpretovať neurónové siete ako viacúrovňové rozšírenie lineárnych modelov. Inováciou je, že výstup lineárneho modelu použijeme ako vstup do ďalšieho lineárneho modelu. Ak je teda v prípade lineárnej regresie model daný ako y_j= \sum_i w_{ij} x_i) tak získame náš neurónový model ako y= \sum_j w_j ( \sum_i w_{ij} x_i ). Takýto model je dosť nezaujímavý keďže tvorí znovu len lineárny model y_j= \sum_i w_i x_i s w_i = w_{ij} w_j. Zaujímavejší je prípad, keď majú výstupy na prvej úrovni formu klasifikátora. Takto získame formuláciu neurónovej siete: y_k= \sum_j w_{jk} \sigma ( \sum_i w_{ij} x_i ), pre viaceré výstupy y_k. Ak chceme aby neurónová sieť klasifikovala dáta, preženieme výstupy tiež sigmoidálnou funkciou: y_k=\sigma(\sum_j w_{jk} \sigma(\sum_i w_{ij} x_i)). Tento systém sa správa nelineárne, keďže prechodné výsledky na prvej úrovni prechádzajú sigmoidálnou funkciou. Pritom ako už bolo spomenuté pri logistickej regresii, sigmoidálna funkcia nie je jediná možná, ale má viaceré zaujímavé vlastnosti a preto sa často používa a u neurónových sietí.

Tým sme hotový s formuláciou modelu a ideme optimalizovať parametre w na základe dát x,y. Po minulých príspevkoch sú z vás už experti na optimalizáciu a čo sa bude diať vás neprekvapí. Ak sformulujeme vierohodnosť modelu a hľadáme w pre ktoré je derivácia rovná nula, tak neuspejeme. Ako v prípade logistickej regresie, môžeme riešiť optimalizáciu iteratívne pomocou Newtonovho algoritmu. Hľadáme W_{t+1}=W_{t}- \eta \nabla \nabla E^{-1} \nabla E, kde \nabla E je gradient vierohodnosti (prvá derivácia vzhľadom k parametrom). Na rozdiel od logistickej regresie, však vierohodnosť netvorí konvexnú funkciu a preto iteratívny postup nemusí nájsť globálne optimálnu množinu parametrov. Výsledok optimalizácie závisí od inicializácie Newtonovej metódy W_{0} a väčšinou predstavuje najbližšie maximum v blízkosti tejto štartovacej pozície. Toto maximum nemusí byť jediné maximum a nemusí byť tým najsámmaximálnejším maximom.

Nasleduje implementácia.

class NeuralNetwork():
    """
    A simple two-layer neural network classifier
    """

    def __init__(self,x,y,W):
        """ N - nr of samples, M = nr of features+1
            x - NxM numpy array, the first column is a vector of ones
            y - NxL numpy array
            W - (M+K+L)x(M+K+L) numpy array with weights, K nodes in the intermediate layer
        """
        self.N=x.shape[0]
        self.M=x.shape[1]
        self.L = y.shape[1]
        self.K = W[1].shape[0]
        self.W1 = W[0]
        self.W2= W[1]
        self.x=x
        self.y=y

    def prediction(self,x=None,W=None):
        if x is None: x=self.x
        if W is None: W1=self.W1; W2=self.W2
        else: W1,W2=W
        self.a= -np.ones((x.shape[0],self.K))
        #print self.a[:,1:].shape,x.shape,W1.shape
        self.a[:,1:]=sigmoid(x.dot(W1))
        return sigmoid(self.a.dot(W2))
    def dE(self,W=None,x=None,y=None):
        """ Error gradient of the data under
            the current settings of parameters. """
        if not x is None: self.x=x; self.y=y
        if W is None: W1=self.W1; W2=self.W2
        else: W1,W2=W
        q=self.prediction()
        d2=(1-q)*q*(q-self.y) # error at output
        d1=(1-self.a)*self.a*d2.dot(W2.T)
        dW1= np.zeros(W1.shape)
        for i in range(dW1.shape[0]):
            for j in range(dW1.shape[1]):
                dW1[i,j]= d1[:,j].T.dot(self.x[:,i])
        dW2= np.zeros(W2.shape)
        for i in range(dW2.shape[0]):
            for j in range(dW2.shape[1]):
                dW2[i,j]= d2[:,j].dot(self.a[:,i])
        return dW1,dW2
    def checkCorrectness(self,xTest,yTest):
        """ Gives performance in percent correct """
        t = np.squeeze(yTest) > 0
        y = np.squeeze(self.prediction(x=xTest) > 0.5)
        return 100 * np.sum(t==y)/ np.size(yTest)

Neurónovú sieť môžeme rozbehnúť pomocou nasledujúceho algoritmu. Tento nepoužíva Newtonovu metódu. Parametre upravíme len na základe prvej derivácie vierohodnosti: W_{t+1}=W_{t}- \eta \nabla E. Pri neurónových sietiach musíme zvoliť pre \eta nízku hodnotu. Nízka hodnota znamená menšie postupné úpravy parametrov a optimalizácia následne trvá dlhšie. Nízke hodnoty sú však nutné, lebo funkcia, ktorú optimalizujeme nie je konvexná. Tak by sa napríklad mohlo stať, že pri veľkom \eta sa posunieme moc ďaleko v priestore parametrov a tým preskočíme optimálne hodnoty v bezprostrednej blízkosti.

K=2 # nr of hidden neurons
W1=np.random.randn(3,K)
W2=np.random.randn(K+1,1)
nn=NeuralNetwork(x,y,[W1,W2])

ynew=nn.prediction()
c0=0
eta= -0.0001
for i in range(20000):
    dW1,dW2=nn.dE()
    nn.W1+= eta*dW1
    nn.W2+= eta*dW2
    c1=(np.linalg.norm(dW1)**2+np.linalg.norm(dW2)**2)**0.5
    if abs(c1-c0)    if i%1000==0: print i,abs(c1-c0), nn.checkCorrectness(x,y)
    c0=c1

Priestor parametrov je zaujímavý koncept. Pre každú konšteláciu hodnôt parametrov môžeme odmerať ich vierohodnosť. Vierohodnosť pridáme tiež ako dimenziu v priestore a ak tých dimenzii nie je moc veľa, môžeme priestor vizualizovať. Pre dva parametre môže vyzerať tento priestor nasledovne:

Optimalita modelu je väčšinou znázornená na vertikálnej osy. Oblasti vysokej vierohodnosti pritom tvoria kotliny (teda minimá). Koncept rozdelenia vierohodnosti v priestore parametrov sa netýka len neurónových sietí, ale optimalizácie parametrických modelov vo všeobecnosti. Napr. v kontexte genetických algoritmov sa tomuto priestoru hovorí aj “fitness landscape”, pričom vierohodnosť možno chápať ako fitness. Tak ako evolúcia optimalizuje fitness, takisto my hľadáme optimálne parametre pre náš model. Nezávisle od dimenzionality problému môžeme identifikovať určité kategórie rozdelení. Tieto kategórie nám umožnia lepšie pochopiť, prečo v niektorých prípadoch optimalizácia zlyhá.

A ukazuje najjednoduchší prípad monotónne konvexnej funkcie. Nech sa na začiatku nachádzame v hocakom bode stačí nám ísť stále dole kopcom a optimum (= minimálna hodnota funkcie) zaručene nájdeme. B a C ukazujú viaceré optimá. Pri B sú lokálne optimá plytké v porovnaní s globálnym optimom a so zopár trikmi môžeme vytvoriť algoritmus, ktorému sa z plytkých roklín podarí vybŕdnuť. Pri C a D je jedinou možnosťou skúsiť trénovať algoritmus s rôznymi počiatočnými hodnotami parametrov. Horšie je to v prípade E. Sútok lokálneho optima je široký oproti sútoku toho globálneho a tak väčšina inicializácii skončí uväznená v rokline lokálneho optima. Väčšina algoritmov vyžíva gradient vierohodnotsti (alebo inej objektívnej funkcie). Gradient nám povie, ktorým smerom sa bod (v priestore parametrov) zvažuje a teda ktorým smerom sa máme vybrať. Pri F, G a H stojíme na rovine a algoritmus nevie ktorým smerom sa vybrať. Môže sa napríklad stať, že bude chodiť v kruhu. G oproti F má izolované úzke optimum, ktoré by sa oplatilo nájsť. Algoritmus by však musel mať jasnovidecké schopnosti aby to dokázal. Pri H je situácia ešte horšia v tom, že úzkych optím je viacej. Takisto pri H povrch (bez tých úzkych dier) vykazuje určitý smer. Pri G teda aspoň môžeme zistiť, že náš algoritmus sa nepohol z miesta, lebo nenašiel žiadny svah. Pri F však môžeme nadobudnúť klamlivý dojem, že algoritmus konvergoval k optimu a pritom tento všetky zaujímavé optimá preskákal, lebo sú veľmi úzke.

Neurónovú sieť môžeme odskúšať na našom klasifikačnom probléme, ktorý som použil v prípade logistickej regresie. Náš algoritmus problém bez ďalších dodatočných trikov nevyrieši.

Problém je v tom, že parametre iniciujeme s hodnotami okolo nuly, pritom pozorované hodnoty ležia v oblasti s koordinátami (5,150). Aspoň niektoré parametre by mali byť inicializované s podobnými hodnotami. Neurónovej sieti môžeme pomôcť správnou inicializáciou (alebo alternatívne transformáciou dát).

nn.W1=np.array([[155,1,1],[155,0.01,1]]).T


Algoritmus nájde správne riešenie avšak ani v tomto prípade nie je perfektné (nelineárny model by teoreticky mohol vytvoriť ľubovoľnú deliacu krivku, nemusí isť o rovnú čiaru). Takisto algoritmus ho nenájde vždy – výsledok stále závisí od správnej inicializácie parametrov pre závažia smerujúce od skrytých uzlov k výstupnému uzlu.

Celý čas sme používali neurónovú sieť s dvoma dodatočnými skrytými uzlami, z ktorých každý je napojený na všetky vstupné a výstupné neuróny. Mohli by sme použiť viacej skrytých uzlov alebo pridať ďalšie vrstvy skrytých uzlov. Tým sa zlepší klasifikačný potenciáln neurónovej siete. Zároveň však stúpne dimenzionalita priestoru parametrov. Počet možných konštelácii hodnôt parametrov stúpa exponenciálne s dimenzionalitou, čím sa optimalizácia ďalej sťažuje.

Jednoduché neurónové siete sú dosť nešikovný model a málokedy sa dnes používajú na riešenie klasifikačných alebo regresných problémov. Historicky však neurónové siete inšpirovali viacero modelov kognitívnych procesov. K ich kognitívnej a biologickej plauzibilite a takisto k ich historickej roli v kognitívnych vedách sa vrátim v ďalších príspevkoch.

Bishop, C. (2006). Pattern Recognition and Machine Learning. Springer, New York.

Potrebujem pomôcť s výpočtom

EDIT 10.10.2012: čiastočný výpočet je tu.

Naposledy som predstavil jednoduchý regresný model s cenzurovanými dátami. Tento bral reakčné časy ako nezávislé, čo nie je zmysluplné, keďže počas experimentu dochádza k učenie a probandi riešia za sebou nasledujúce problémy postupne rýchlejšie. Preto chcem použiť autoregresívny model prvého stupňa (AR(1)): y_{t+1}=\theta y_{t} + \eta_t, kde \eta_t je WGN so štandardnou odchýlkou  \sigma. Vierohodnosť modelu je daná ako

L=p(t_0) \prod_{t=1}^T p(y_{t}|y_{t-1}) =p(t_0) \prod_{t=1}^T \phi (\frac{y_t - \theta y_{t-1}}{\sigma})

kde \phi(.) je hustota pravdepodobnosti normovaného gausovského rozdelenia. Problém mi robí vypočítať vierohodnosť pre cenzurované dáta. V skratke, cenzurované dáta tvoria reťaze cenzurovaných hodnôt nasledované vždy pozorovanou hodnotou. Napr. P P C C C P P P C C C P P C P obsahuje dva reťazce dĺžky 4 a jeden dĺžky dva. Problémom je určiť vierohodnosť cenzurovaných hodnôt a pozorovanej hodnoty, ktorá nasleduje po cenzurovanej (keďže táto je podmienená cenzurovanou hodnotou). Zeger a Brookmeyer (1986) popisujú ako tieto vierohodnosti získať. Ich postup však vyžaduje znalosť podmienenej strednej hodnoty a podmieneného rozptylu, ktorých výpočet mi robí problémy. Označme hodnotu posledného pozorovania pred cenzurovanou reťazou ako A a hodnotu prvej pozorovanej hodnoty nasledujúcej po cenzurovaných hodnotách ako Z (teda reťaz hodnôt vyzerá A C … C Z). Cenzurované hodnoty označme ako Y_i, i=1,...,N. Potrebujem určiť stredové hodnoty E(Z|A), E(Y_i|A,Z) a príslušný rozptyl cov(Z|A), cov(Y|A,Z), pričom cov(Y|A,Z) je NxN matica. Ostatné hodnoty sú skaláry. Zeger a Brookmeyer uvádzajú stredové hodnoty pre AR(1). Prvý výraz je E(Z|A)= \theta^{N+1} A. Analogicky viem rekurzívne odvodiť

cov(Z|A)= \sigma^{2}\sum_{i=0}^{N}\theta^{2i}= \sigma^{2} (1- \theta^{2(N+1)})/ (1- \theta^2)

Výraz pre druhú stredovú hodnotu je uvedený ako

E(Y_i|A,Z)= (1-\theta^{2N})^{-1} (\theta^i (1-\theta^{2(N-i)}) A + \theta^{N-i} (1-\theta^{2i}) Z))

Nemám potuchy ako autori tento výraz získali. Zjavne výraz interpoluje Y_i ako vážený pomer A a Z na základe vzdialenosti v čase. Výpočet pre najjednoduchší prípad A C Z je :  E(Y_1|A,Z)= \theta (A + Z) / (1+ \theta^2). Dosadením A=\theta^{-1}Y_1, Z=\theta Y_1 možno overiť správnosť výrazu, ako ho však autori odvodili stále neviem. Problémom je, že tým pádom neviem odvodiť  cov(Y|A,Z), ktorého výpočet autori neuvádzajú a teda neviem vypočítať vierohodnosť.

Ak máte predstavu alebo aspoň nejaký hint ako posledné dve kvantity odvodiť, napíšte mi do komentárov alebo pošlite mi správu. Budem veľmi vďačný.

Zeger, S., L. & Brookmeyer, R. (1986). Regression Analysis with Censored Autocorrelated Data. Journal of the American Statistical Association. Vol. 81, No. 395. 722-730.

Filozofia tráviaceho traktu

Od filozofie mysle k filozofii tráviaceho traktu

Prečo je práva filozofia mysle takou hanbou? Prečo nemôže filozofia mysle žiť s vedcami rovnako súčinne a konštruktívne ako je tomu vo filozofii biológie alebo filozofii kognitívnych vied. Prečo je vôbec filozofia mysle takou veľkou a dôležitou témou pre filozofov? Jednou odpoveďou je, že filozofia mysle je proste iná. Túto odpoveď môžeme dostať z pozície nadšencov ťažkého problému vedomia. Výskum mysle totiž vyžaduje zohľadnenie introspekcie a ak to veda nedokáže tak to filozofi ako ochrancovia pravdy musia uviesť na správnu mieru.

Tí čo chápu filozofiu mysle ako “naivnú aprioristickú autoantropológiu” (Dennett, 2005, s.34) môžu s výnimočnosťou filozofie mysle takisto súhlasiť. Určité konceptuálne kategórie sú univerzálne a len veľmi ťažko sa z nich ľudia dokážu vymaniť. Sem patria obzvlášť intuitívna psychológia s esencializmom a dualizmom na čele. Filozofovanie reflektuje tieto intuitívne teórie a historicky stala sa ich obhajcom. Ľudskej mysle sa dostalo veľkej pozornosť, lebo a) v tejto oblasti majú ľudia silné intuície (na rozdiel napr. od intuitívnej archeológie) a b) tieto intuície sú v rozpore so súčasnými vedeckými poznatkami.

Tony Chemero vo svojej knihe zastáva inú pozíciu. Podľa neho myseľ a filozofia mysle nie je ničím výnimočná. Uletenosť filozofie mysle je daná historicky a má so samotným obsahom málo spoločné. Filozofia mysle reflektuje nezrelosť výskumu mysle. V budúcnosti, tým, že výskum pokročí sa chybná, absurdná a irelevantná argumentácia vytratí. Chemero uvádza ako prípadovú štúdiu rozkvet filozofie tráviaceho traktu v období vrcholnej scholastiky.

Filozofia tráviaceho traktu

V 12. a 13. storočí vznikali prvé univerzity a už vtedy nebolo núdza o akademické kontroverzie. V týchto nechýbali tradičný aktéri – mainstream na východnom pobreží, pomýlená konkurencia na západnom pobreží, filozofi (a teológovia) ako ochrancovia pravdy a do toho zlí materialistickí biológovia (vtedy medici). Začnime pekne poporiadku. Na začiatku 12. storočia bola rozšírená predstava, že ľudia nerastú vďaka potrave. Potrava nemala na rast tela žiadny vplyv a iba ním prechádzala bez toho, že by bola nejak vstrebaná. Hmota tvoriaca ľudské telá mala inherentnú schopnosť množiť sa. Všetky ľudské telá pochádzali z Adama a doslova v sebe niesli prvotný hriech. Tým pádom ani stvorenie Evy z Adamovho rebra nebolo problematické. Toto je jadro multiplikačnej teórie.

Prvú revíziu multiplikačnej teórie uviedol Peter Lombard pôsobiaci v 1150-tych rokoch v Paríži. Lombard sa snažil vyriešiť nasledujúce problémy:

1. Podľa vtedajšej predstavy zahŕňalo zmŕtvychvstanie aj obnovenie hmoty, nielen duše. Každá duša teda musela mať telo. Problém: čo ak jeden človek zje telo druhého človeka? Alebo ak nevedome zje rybu, ktorá zjedla iného človeka?

2. Teológom sa nepáčilo, že ľudia by mali pozostávať z rovnakého typu hmoty ako iné stvorenia. Hlavným problémom bolo, že lekári a medici pôsobiaci v tradícii Galena a Hypokrata skúmajúci anatómiu živočíchov (vrátane tráviaceho traktu) zovšeobecňovali svoje závery aj na človeka a tak sa či už priamo alebo nepriamo vyjadrovali k filozofickým a teologických otázkam. Teológovia, preto chceli postulovať dva typy hmoty. Jeden, ktorý by skúmali lekári a prírodní filozofi a druhý nadradený typ, ktorý by bol v pôsobnosti teológie.

Lombard upravil multiplikačnú teóriu pre potreby aktuálneho akademického života. Podla Lombarda pozostáva ľudské telo z hmoty, ktorá pochádzala od Adama a ktorá sa dokáže multiplikovať. Potrava však stimuluje rast tejto esenčnej hmoty a môže sa dočasne stať aj súčasťou tela. Zmŕtvychvstanie sa týkalo iba esenčnej hmoty a Boh tak, skôr než dotyčný vstal z mŕtvych, okrem redukcie vrások a nadmerného ochlpenia odpumpoval aj potravu zo žalúdka a z ostatných častí telo ktoré ju náhodou vstrebali.

Lombardove učenie sa stalo populárnym na začiatku 13. storočia v Paríži. Na vznikajúcej univerzite sa okrem teológie učila aj prírodná filozofia a medicína. Cez vtedy vznikajúce preklady nových Aristotelových diel sa zistilo, že Aristoteles tvrdil, že hmota v ľudskom semene pochádza z potravy. Tým pádom nemohli ľudia pochádzať z Adama. Multiplikačná teória slúžila ako zbraň proti Aristotelovým heretickým predstavám. Medici boli viacej pragmatický. Hrdili sa Avicenovým výrokom, že “Neznalosť pravdy lekárovi neuškodí”. Ako som už spomenul vyššie, revidovaná multiplikačná teória umožnila obmedziť oblasť pôsobnosti medikov. Títo sa vyznali v anatómii živočíchov avšak ich vedomosti sa nevzťahovali na ľudské telo, keďže toto tvorila špeciálna hmota.

Nové preklady Aristotelových diel však postupne naberali na popularite. K tomu sa pridali preklady arabských filozofov, Avicenu a Averoa, ktorých tvrdenia stáli tiež v opozícii s Lombardovou teóriou. Táto popularita podkopávala autoritu teológie, ktorá vtedy formálne stála nad medicínou a prírodnou filozofiou. Na druhej strane parížski teológovia (Bonaventura, Albert veľký, Tomáš Akvínský) sa lepšie zoznámili s novými prekladmi a našli spôsoby ako vylepšiť teologické učenie tak aby nestálo v konflikte s predstavami medikov. Základným kameňom bol Aristotelov hint, že učenie na vyššej intelektuálnej úrovni nemusí zahŕňať detaily na nižších úrovniach. Medikom ostali črevá a žlazy. Teológia riešila dušu a v nej obsiahnutú pravdu. Teológovia ďalej použili Aristotelovo delenie tela na telo-ako-hmota a telo-ako-tvar. Podľa tejto predstavy bolo ľudské telo ako rieka. Jeho hmota sa neustále menila, ale telo-ako-tvar držalo premennú hmotu pokope. Koncept telo-ako-tvar bolo podobný ďalšej esencialistickej predstave rozšírenej medzi medikmi – základnej vlhkosti (humidum radicale). Táto tvorila časť tela, ktorá sa prenášala z rodičov na potomkov a niesla napríklad charakterové vlastnosti. Zatiaľčo Bonaventura chápal telo-ako-tvar ako časť tela a teda priamo identifikoval základnú vlhkosť s telom-ako-tvar, Tomáš Akvinský chápal, že telo-ako-tvar je u Aristotela myslené ako abstraktný nehmotný aspekt hmoty. Akvinský sa teda celkom vzdal multiplikačnej teórie. Tým, sa ale dostal znovu do problémov so zmŕtvychvstaním, ktorým sa Lombard snažil vyhnúť. Ktorá porcia z tej všetkej hmoty, ktorá prešla telom bude obnovená? Akvinský tvrdil, že tá najmladšia časť, ktorá tvorila fétus. Tento názor bol rigorózne doložený myšlienkovými experimentami o kanibaloch, ktorý sa živili výlučne mäsom novorodencov.

Tým by sa mohol náš príbeh skončiť. Akurát, že Lombardove myšlienky sa dostali cez kanál do Anglicka a miestni zmätkovia, v nevedomosti aktuálneho parížskeho diania ich adaptovali a vylepšili. Podľa Angličanov (Richard Fishacre a Richard z Cornwallu, 1230-te až 1250-te roky) hmota sama o sebe nemá žiadny rozmer. Rozmer jej dával jej tvau a hmota mohla nadobudnúť hocaký tvar a hocaký rozmer. Čiže multiplikácia adamskej hmoty tak nebol problém. Parížska škola musela prísť s dalšou dávkou argumentov a myšlienkových experimentov, aby uviedli predstavy prichádzajúce spoza kanála na pravú miery. A ak nezomreli tak argumentujú ešte dodnes.

Od filozofie tráviaceho traktu k filozofii mysle

Ja to vidím tak, že debaty okolo tráviaceho traktu z obdobia vrcholnej scholastiky dosahujú kvality súčasného filozofovania o mysli. V ponuke sú bizarne teórie, uletené myšlienkové experimenty a delenie na “ťažké” a “ľahké” problémy tráviaceho traktu. Zaujímavý je ale hlavne aspekt, na ktorý upozorňuje Chemero. Totiž, že multiplikačná teórie rozhodne nebola intuitívna. Práve naopak, ľudia samozrejme videli, že osoby, ktoré jedia viacej sú tlstejší a ľudia, ktorí jedia menej sú chudší. Podobné pozorovania mohli vykonať u dobytka. Čo z toho vyplýva?

V prvom rade, Chemerov posudok, že nekvalita a bizarnosť argumentov (Chemero ich volá hegeliánske argumenty) v kognitívnych vedách je dôsledkom nezrelosti oboru, dáva zmysel.

Ďalej, Tomáš Marvan si naposledy sťažoval, že Mozgostroje sa prezentujú slabou meta-filozofiou. To musíme napraviť. Tu sú meta-filozofické otázky na dnes večer: Je filozofovanie formované konceptuálnymi kognitívnymi mechanizmami a z nich prameniacimi intuitívnymi teóriami? Alebo je filozofovanie produktom arbitrárnych kultúrnych faktorov? To sú dôležité otázky. Ak filozofické teórie reflektujú kognitívne mechanizmy, tak je filozofia zaujímavá pre psychológov. Napríklad, ak chce vývinový psychológ získať hypotézy o vývine intuitívnych teórii tráviaceho traktu u detí, tak rešeršuje filozofické teórie tráviaceho traktu. Naopak, ak sú filozofické teórie kultúrnym produktom, tak je ich obsah viacej volatilný a ťažšie z neho niečo vyvodiť. Je však možné si predstaviť antropológa, ktorý práve objavil nový kmeň domorodcov v amazonskom pralese. V tomto kmeni sa traduje, že potrava nesúvisí s rastom tela. Antropológ tak môže siahnuť po filozofii, aby lepšie pochopil predstavy domorodcov.

Pravda bude samozrejme niekde na rozmedzí. Niektoré filozofické predstavy budú reflektovať kognitívne kategórie viacej a niektoré menej. Príklad filozofie tráviaceho traktu je však zdvihnutým výkričníkom pre nás psychológov, aby sme sa zbytočne nesnažili pochopiť a aby sme nadmerne nepsychologizovali filozofické teórie. Ich bizarnosť a absurdnosť môže dosiahnuť arbitrárne rozmery!

Dennett, D. (2005). Sweet Dreams. Philosophical Obstacles to the Science of Consciousness. MIT Press. Cambridge, MA.

Reynolds, P. (1999). Food and the Body:Some Peculiar Questions in High Medieval Theology. BRILL. Leiden, NL.

Reynolds, P. (2001). Growth, decay, digestion, and resurrection. History Today, 51,
42-47.

LeBel & Peters: Deficiencies in Modal Research Practice

Nová psychologická štúdia prevedená v súlade s vedeckým štandardom ukázala, že ľudia dokážu predpovedať budúcnosť. Ako interpretovať tieto výsledky?

a) Fyzikálne teórie času a kauzality boli falzifikované.

b) Štandardné metódy nie sú dosť rigorózne na to, aby sme sa mohli na ich výsledky spoľahnúť.

Psychológovia Etienne LeBel a Kurt Peters vo svojej reakcii na štúdiu Daryla Bema poukazujú na teoreticky orientované interpretácie dát v psychologických článkoch. Ako demonštruje vyššie uvedený príklad dáta možno interpretovať ako metodológický artefakt alebo ako autentický výsledok. Psychológovia (a vedci všeobecne) podľa autorov vykazujú neduživý bias interpretovať výsledky konzistentné s ich teóriou ako autentické a výsledky protirečiace ich teóriám sa snažia uhrať do autu ako metodologické artefakty. Autori spomínajú Quinov epistemologický konzervatizmus, ktorý rozlišuje medzi centrálnymi a okrajovými teóriami. Ak sú získané dáta v rozpore so súčasnými teóriami treba tieto upraviť, avšak tak aby sme toho museli čo najmenej meniť. Pri revízii by sme teda mali obetovať radšej okrajové vedecké predstavy, ktoré nie sú také dôležité a nemajú takú oporu v dátach ako tie centrálne. Ak sa pozrieme na náš parapsychologický prípad tak fyzikálne zákony by mali byť centrálnejšie ako psychologická metodológia a psychologická metodológia by mala byť zasa centrálnejšia ako psychologické teórie. Myslím, že s týmto sa dá len súhlasiť. Okrajovosť psychologickej metodológie je daná jej nezrelosťou, ale čiastočne aj komplexnosťou skúmaného objektu. O úbohom stave psychologického rozprávkárskeho teoretizovania som nariekal už vo viacerých článkoch.

Prax je žiaľ často opačná a tak dochádza k takým bizarnostiam, že psychológovia sú ochotní v prospech svojej teórie (a aj psychologickej metodológie, keďže táto v Bemovom prípade teoreticko-konzistentne vydala) hodiť základy fyziky cez palubu. Autori poukazujú na všeobecné manifestácie tejto obrátenej hierarchie. Jedným príkladom je dôraz na konceptuálnu replikáciu. Pri tejto, na rozdiel od exaktnej replikácie predchádzajúcich experimentov, výskumník zľahka obmení prevedenie experimentu – farba stimulov je iná, alebo sa regrutuje vzorka pedagógov namiesto študentov psychológie. Metodologická interpretácia prvej úspešnej štúdie tak nemôže byť overená. Ak získame pri konceptuálnej replikácii pozitívny výsledok tak ho interpretujeme ako evidenciu v prospech našej teórie. Ak je výsledok negatívny tak ho môžeme pripísať na vrub drobných rozdielov v dizajne experimentu a odložiť výsledky na dno zásuvky.

Centralita autorových teórii v konečnom dôsledku vedie k záplave štúdii ktoré tieto teórie potvrdzujú. Keďže vedci zastávajú často protichodné teórie, dochádza k propagácii protichodných výsledkov a krkolomných pokusov o vytvorenie teórii, ktorá by všetky tieto výsledky vysvetlili. Jednoduchšia cesta je priznať, že niektoré publikované výsledky sú metodologické artefakty. Aby sme zistili do akej miery tomu tak je oplatí sa nasledovať odporúčania autorov. Podľa nich musia klásť psychológovia väčší dôraz na potenciálne metodologické vysvetlenia svojich výsledkov a overiť tieto cez presnú replikáciu, cez dodatočné validovanie experimentálnych procedúr a materiálov a použiť konzervatívnejšie metódy testovania ako ich ponúka bayesiánska štatistika.

Lebel, E.; Peters, K. (2011). Fearing the future of empirical psychology: Bem’s (2011) evidence of psi as a case study of deficiencies in modal research practice. Rev. Gen. Psychol., 15, 371-379.

APA, SPSP, ORI: Mistakes were made

Mistakes were made je americká fráza pochádzajúca z politického prostredia. V preklade znamená “došlo k pochybeniu”. Umožňuje politikom (a nielen politikom) vecne priznať chybu bez toho, že by prebrali za ňu zodpovednosť. Výrok prichádza väčšinou v situáciach vyžadujúcich značnú dávku kognitívnej dizonancie až pokrytectva. Ako, keď váš syn v nadšení hodí na zem kelímok s jogurtom a keď ho za to vyhrešíte a pýtate sa ho prečo to spravil, tak sa zháči a povie, že “to samo“. V tomto duchu sa nesú oficiálne vyjadrenia troch organizácii, ktoré majú najpriamejšie možnosti zakročiť proti príčinám posledných škandálov otriasajúcich vedeckým statusom psychológie (,ktorým som sa výdatne venoval na mozgostrojoch).

APA je americká psychologická asociácia, ktorá zastrešuje časopisy Psychological Science a JSPS. Oba časopisy sú vysoko karentované a sú notorické svojim dôrazom na prevratnosť publikovaných výsledkov. Hlavne tieto dva časopisy sú kritizované za publikovanie splaškových štúdii. JSPS publikovala napríklad Bemovu parapsychologickú štúdiu a odmietla publikovať následné neúspešné replikácie. SPSP je spoločnosť pre osobnostnú a sociálnu psychológiu, ktorá združuje sociálnych psychológov, organizuje konferencie, letné akadémie a do veľkej má tak možnosť ovplyvniť ich výskumnú prax. ORI (Office of Research Integrity) je z trochu iného súdka. ORI je súčasťou amerického ministerstva zdravotníctva a vyšetrovalo pochybenia Marca Hausera. ORI minulý týždeň vydala konečné stanovisko k prípadu Marca Hausera. Od APA a SPSP sa objavili prvé oficiálne reakcie k škandálom. Všetky tri reakcie priznávajú, že čo sa stalo nie je optimálne avšak neidentifikujú konkrétne príčiny ani nepredkladajú žiadne konkrétne riešenia.

Stanovisko ORI predviedlo asi najväčšie kotrmelce. Tvrdí sa v ňom, že Hauser publikoval fabrikované výsledky. To sa týka časti výsledkov Hauserovej štúdie s opicami publikovanej v Cognition ako o tom už pred dvoma rokmi písal na svojom blogu Gerry Altmann. Správa nehovorí o tom či Hauser konal úmyselne. Nie je teda jasné či Hauser fabrikoval dáta. Ako poukazujú Hauserovi zástancovia, jeho priečin treba tak kvalifikovať ako zlyhanie a nie ako úmyselný podvrh. Ak vám zlyháva predstavivosť tak ono sa to stalo asi takto: Hauser príde ráno do roboty, nájde na stole disketu s dátami, ktorú tam zrejme zanechali laboratórni škriatkovia. (Áno to sú tí, čo sa starajú o to, aby vám zlyhal hardvér a softvér práve v tom momente, keď máte pripravenú pokusnú osobu a chcete začať s experimentom). Hauser si povie, “Super – dáta, publikujem ich.” A tak došlo k publikácii vyfabrikovaných dát. Zdá sa, že podobnú interpretáciu zdieľa aj ORI, súdiac podľa načrtnutých opatrení, ktorým sa musí Hauser podrobiť. Hauser je na tri roky pod dozorom, čo sa týka aplikácie a čerpania štátnych výskumných grantov a po túto dobu nesmie vykonávať dozorné funkcie. Priznám sa, že neviem aké sú právomoci a povinnosti štátnych inštitúcii dohliadajúcich na udeľovanie a čerpanie grantov v USA. Ja som si to vždy z pohľadu daňovníka predstavoval tak, že štát zadáva zákazky a výskumníci sú zodpovední za ich naplnenie. Tak ako keď firma, ktorej štát (alebo hocikto) zaplatil za to, aby dodala počítače a táto ich v termíne nedodala, nech (prinajmenšom) uhradí naspäť sumu alebo dodatočné dodá tovar. Podobne, ak si Hauser vycucal výsledky z prsta, nech zaplatí naspäť grant alebo nech dodá výsledky. No vďaka ORI museli všetci zlomyseľníci, čo sa tešili, že Hauser na vlastné náklady poletí so stopkami a experimentálnym protokolom v ruksaku za opicami na Kostariku ostať sklamaní. Motivácia ORI k takémuto vlažnému verdiktu mi nie je jasná. ORI nie je Harvard (aj keď väčšinu evidencie získala od miestnej vyšetrovacej komisie) a nemusí si chrániť verejný image cez ututlávanie tejto kauzy. Je možné, že existujúca legislatíva nerieši takéto prípady “pochybenia” v dostatočnej miere aby bolo možné vyvodiť zodpovednosť, následky a prijať efektívne opatrenia. Je možné aj, že samotné ministerstvo, tak ako univerzita, trpí konfliktom zájmov a nechce priznať previnenie v strachu, že by prišlo trebárs v konkurencii s obranou o príspevky z rozpočtu. Tejto poslednej možnosti ale moc neverím.

Podobné konflikty zájmov možno však vidieť v prípade APA a SPSP. Škandály vrhajú zle svetlo na tieto inštitúcie, bolo by lepšie ak by sa škandálom nevenovalo toľko pozornosti a teda stoja pred pokušením škandály ignorovať a ututlávať. Od SPSP sa očakávalo, že prevezme nové výskumné štandardy navrhnuté Simonsohnom. SPSP predostrela namiesto toho vágnu stratégiu intenzívnejšie diskutovať o etických otázkach a metodologických problémoch a ich potenciálnych riešeniach. SPSP pripomína európskych politikov, ktorí ako riešenie akútnej dlhovej krízi zorganizujú sériu kongresov a stretnutí, na ktorých sa dohodnú, že sa dohodnú, že sa dohodnú… Je možné, že si SPSP vo svojom prvom vyjadrení pripravuje pozície pre radikálnejšie zmeny. Je však možné, že ide o prvý krok smerujúci celú záležitosť do zabudnutia.

APA podobne ako SPSP môže ovplyvňovať výskumnú prax psychológov. APA zároveň môže priamo ovplyvniť publikačnú prax časopisov, ktoré spravuje. Viacerí komentátori poukázali na to, že jadrom celého problému je nefunkčný publikačný systém a ponúkli aj riešenia. APA má teda v repertoáry bazuku. Ak APA povie, že PsychScience a JSPS budú publikované Open Access, budú ignorovať prevratnosť pri peer review a vedci musia s publikáciami zároveň sprístupniť aj dáta, tak sa tak stane. Na druhej strane aj APA je len súčasťou publikačného systému a je možné, že aj v tomto prípade by ich impact zdegeneroval, keďže tento je naviazaný na prevratnosť a exkluzívnosť publikovania. Každopádne APA prišla s koncepciou nového časopisu, ktorý má byť Open Access a bude vyžadovať, aby vedci sprístupnili dáta. Archives of Scientific Psychology okrem toho chce inovovať peer review aby sa tento stal transparentnejším a aby zohľadňoval najnovšie metodologické odporúčania. Prvotný dojem kazia exorbitálne publikačné poplatky pre autorov (350 dolárov za podaný manuskript a ďalších 1950 dolárov v prípade prijatia pre publikáciu). Takisto nie je celkom jasné, či sa časopis mieni vzdať prevratnosti ako kritéria pre peer review. Týmto vyzerá časopis byť odsúdený na neúspech. APA by tak akurát získala výhovorku – snažili sme sa niečo podniknúť, ale nepodarilo sa. Mnoho detailov nového časopisu však ešte nie je známych a je predčasné ho odpisovať. APA sa zo všetkých troch inštitúcii odhodlala k najráznejšiemu kroku. Na druhej strane sa zdá, že čo sa týka PsychScience a JSPS, tak tu sa nič nezmení a tieto časopisy budú veselo pokračovať v publikovaní superprevratných splaškových štúdii.

Vhľad ako sebaorganizácia

Pred troma rokmi vyšla séria článkov a štúdii o vhľade od zástancov dynamických systémov. Tieto ma zaujímali hneď z dvoch dôvodov. Po prvé zahŕňali formálne modelovanie vhľadu. Po druhé, Tony Chemero sa vo svojej knihe odvolával na tieto štúdie ako na existenčnú evidenciu, že dynamické systémy môžu vysvetliť aj kognitívne fenomény a nielen vnímanie a motoriku na periférii.

Autori (Stephen et al., 2009a, 2009b) použili sériu problémov pozostávajúcich zo systému ozubených kolies. Probandi dostali informácie, že jedno koleso sa pohne v určitom smere a mali určiť, či sa iné koleso v reťazi pohne v smere, proti smeru hodinových ručičiek alebo či sa systém zasekne. Autori mali tieto problémy už odskúšané a vedeli, že probandi ich riešia nasledovne. Pohybom ukazováka sledujú kauzalitu točenia od prvého kolesa až po koleso, ktorého pohyb ich zaujíma. Po viacerých úspešne vyriešených problémoch dôjde u mnohých k aha zážitku. Zistia, že smer točenia sa párne mení. Aby sme rozhodli o smere točenia posledného kolesa, stačí zrátať počet kolies v reťazi a zistiť či je tento počet párny alebo nepárny. Táto stratégia je rýchlejšia, keďže probandi nemusia pri každom kolese otrocky sledovať smer otáčania. V prvej štúdii (Stephen et al., 2009a) autori nasadili probandom na prst senzor pomocou, ktorého merali uhlovú rýchlosť rotácie prstu.

Nasledovala analýza prstotočných dát. Autori sa uistili, že dáta obsahujú prvky nelinearity. Spravili tak pomocou lineárneho modelu, ktorý nedokázal plne popísať vzory v dátach. Následne autori použili takzvanú Recurrence Quantification Analysis (RQA). Táto meria, či sa systém nachádza v stabilnej fáze alebo či dochádza k fázovému prechodu. RQA meria vzdialenosť medzi časovo po sebe nasledujúcimi bodmi vo fázovom priestore. Ak sú nadväzujúce merania blízko (súdené na základe určitej prahovej hodnoty) tak tvoria súvislé línie, neprerušované trajektórie, ktorých dĺžka nás zaujíma. Výskyt mnohých dlhých trajektórii indikuje, že systém je v stabilnom stave. Autori použili viaceré indikátory tohoto výskytu. Okrem iného merali entropiu rozdelenia dĺžky trajektórii. Rovnomernejšie rozdelenia s viacerými rozdielnymi dĺžkami majú vyššiu entropiu (“náhodilosť”). Autori následne spravili regresiu počtu problémov, ktoré probandi vyriešili kým objavili jednoduchú stratégiu. Prediktory v regresii tvorili indikátory rozdelenia dĺžky trajektórii z RQA analýzy. Autori zistili, že entropia pred objavením riešenia stúpa.

Problémom spomenutých článkov sú divoké interpretácie, ktoré autori zo svojich analýz vyvádzajú:

We suggest that the new representation emerges as the ability of the current structure to offload entropy is exceeded by the entropy entering the system from the environment. The current structure is capable of dispersing input entropy, as long as input entropy remains within a limited range. When input entropy begins to exceed that range, system entropy starts to increase. Eventually the system becomes so entropic that it exceeds its critical threshold and the system reorganizes into a new representation. (Stephen et al., 2009a, s. 1822)

Autori nerozlišujú medzi entropiou ako štatistickou vlastnosťou určitého rozdelenia získaného pomocou analýzy dát a entropiou systému, resp. termodynamickou entropiou. Autori si zrejme predstavujú ľudskú kogníciu ako bublajúci kotol s kvapalinou, ktorý prechádza fázami s odlišnou entropiou. Cez akumuláciu mikroskopického kmitania (prstu) dochádza k emergencii makroskopických zmien. Makroskopickými zmenami zrejme autori myslia zmeny v reprezentácii problému. Mikroskopickým kmitaním sú zrejme myslené pohyby prstu.  Aj keď akceptujeme túto teóriu, nie je jasné čo má entropia rozdelenia dĺžky trajektórii získaná pomocou RQA z uhlovej rýchlosti kmitania ukazováka spoločné s entropiou systému? Teda okrem mena. Jeden argument, ktorý autori ponúkajú, je že v nelineárnych systémoch je možné rekonštruovať fázové prechody systému, bez toho že by sme museli poznať celý systém a stav všetkých častí systému. Stačí vybrať a merať vhodnú premennú, vhodný indikátor. Tento argument nie je pre ich interpretáciu dostačujúci. Zjavne nie každá meraná vlastnosť systému je relevantná pre spoznanie jeho stavu. Entropia rozdelenia dĺžky vlasov na hlave mi nepovie nič o entropii (nech už tým je myslené čokoľvek) alebo stave systému. Prečo by teda entropia rozdelenia dĺžky trajektórii získaná pomocou RQA z uhlovej rýchlosti kmitania ukazováka mala indikovať entropiu systému.

Začnime po poriadku. Prečo by nás v prvom rade mal pri kognitívnej úlohe zaujímať stav ukazováka? Tu autori znova ponúkajú viacej teórie. Podľa ich senzomotorického pohľadu na svet je kognícia prepletená a neoddeliteľná od motoriky. Kognícia kriticky interaguje pri riešení problému s motorikou. Totiž práve motorika je zdrojom tej vstupnej entropie, ktorú autori spomínajú v citáte vyššie. Povedané z mosta doprosta autori si to predstavujú nasledovne. Kognícia rozkmitá prst riešiteľa. Pohyb prstu je ovplyvnený perturbáciami a jeho kmitanie naspäť ovplyvní kmitanie mozgu a jeho kognitívny stav. Kmitanie rastie, entropia stúpa až nakoniec dôjde k fázovému posunu, keď sa zmení makrostav systému. Tým sa zmení reprezentácia problému a riešiteľ zažije aha. Túto teóriu je možné jednoducho otestovať. Zviažeme probandom počas riešenia ruky za chrbtom. Nulový pohyb prstov znamená nulové kmitanie. Nulové kmitanie nedodáva do systému žiadnu entropiu. Entropia sa teda nemení, tým nemôže dojsť k vhľadu a probandi neobjavia jednoduchšiu stratégiu. Reprezentacionisti predpovedajú, že probandi dokážu vyriešiť problém aj bez pohybu. Samozrejme takýto test nie je prívržencom dynamických systémov po chuti, keďže je jasné aký bude jeho výsledok. Koniec koncov ca. pätina probandov ukazovák nepoužívala a riešila úlohu bez pohybu ruky. Autori teda volia iný test. Namiesto toho aby ubrali “entropiu” sa ju rozhodnú pridať. V druhom experimente prvej štúdie menilo zobrazenie stimulov náhodne pozíciu o 30 resp. 60 pixlov ca. každú 1-2 sekundy. Výsledky ukázali, že pri náhodných pohyboch zobrazenia problému, probandi objavia jednoduchú stratégiu rýchlejšie. Problém s touto evidenciou v prospech senzomotorickej interpretácie, je, že je rovnako kompatibilná s reprezentacionalistickými predstavami. Ak mi niekto myká monitorom a ja nemôžem tak pomaly analyzovať reťaz kolies na monitore, budem sa snažiť nájsť nejakú alternatívnu stratégiu, ktorá mi umožní jednoduchšie a rýchlejšie nájsť riešenie.

V druhej štúdii autori zopakovali experiment pričom tentokrát merali pohyby očí a miesto kam proband hľadí na monitore. Takisto zopakovali analýzy pomocou uhlovej rýchlosti pohľadu, RQA a entropie ako indikátora. Výsledky boli rovnaké ako v prvej štúdii, čo moc neprekvapí ak chápeme pohyby ukazováka ako protézu pre pohľad, ktorá umožňuje stabilizovať a udržať v pamäti následné pozície pohľadu. Kmitanie očí tak môže suplovať prst zviazaný za chrbtom. Rovnako však môžeme manipulovať aj bod pohľadu tak, aby bol konštantný (povieme probandom nech pozerajú do stredu a problém im ukážeme v mierke aby sa zmestil do ich foveálnej oblasti, teda aby ho videli). V tomto prípade ťažko tvrdiť, že pohyb očí je nevyhnutný pri vyriešení problému. Samozrejme môžeme pokračovať ďalej a tvrdiť, že bod kam proband upiera pozornosť rotuje (n.b. pozornosť je nezávislá od pohybu očí). Najneskôr však v tomto prípade sme naspäť v mozgu a zo senzomotorickej interpretácie nič neostalo. Vskutku samotná prítomnosť druhej očnopohybovej štúdie ilustruje, že senzomotorická interakcia nie je vôbec kľúčová pre štúdium fenoménu.

Toľko k senzomotorickému argumentu a jeho plauzibilite. Chcem ešte pridať poznámky k použitým analýzam. Ako som spomenul autori ukázali, že pohybová časová séria dát je nelineárna a teda ju nie je možné plnohodnotne modelovať pomocou lineárnych metód. Následne používajú nelineárnu metódu pomocou ktorej sa snažia predpovedať moment objavenia jednoduchej stratégie. Otázne však nie je či lineárny model pohybových dát dokáže predpovedať sériu pohybových dát ale či lineárny model pohybových dát dokáže predpovedať aha moment lepšie ako nelineárny model. To sa týka aj úplne banálnej súvislosti uhlovej rýchlosti rotácii s momentom objavu. Čo sa podľa mňa totiž deje pred objavom je, že probandi začnú skúšať alternatívne stratégie, rozmýšľajú a tým z času na čas prerušujú svoju stratégiu. To môže viesť k väčšej rôznorodosti správania a nestabilite v RQA analýze. V tomto prípade je technický jazyk nelineárnych systémov redeskripciou psychologického príbehu bez pridanej explanačnej hodnoty.

Druhá štúdia je v tomto ohľade dôkladnejšia a prezentuje aj klasické analýzy miesta pohľadu. Tieto nie sú úspešné pri identifikácii momentu objavu jednoduchej stratégie, čo autori interpretujú:

The conventional expectation is that relatively coarse-grained measures of performance (i.e., reaction times, accuracy, fixational eye movements) obey symbolic constraints and will mark changes in focus or attention that will herald cognitive change. This expectation provides no predictive insight into the discovery of parity, as is evidenced by the repeated null results in the Response Time and Accuracy and the Number and Duration of Fixation sections of the Results section. […] On the other hand, dynamical systems analyses of the fine-grained fluctuations in eye movements have proven effective for predicting the discovery of alternation.

Reprezentacionalisti sú teda odsúdení na štúdium “hrubozrnných” indikátorov výkonu a nemôžu študovať tie jemnozrnné napr. uhlovú rýchlosť pohľadu. Kto im to zakázal a kto ich k tomu prinúti? Samozrejme ide o nezmysel. Napríklad Scanpath analýzy (Zangemeister et al., 1995) prezentujú priamu alternatívu k tradičný analýzam fixácii a nasledujú pri tom reprezentacionalistický prístup. Naopak často sa zdá, že zástancovia dynamických systémov majú predsudky voči lineárnym metódam a to až na toľko, že nedostatočne kontrolujú, či sú nelineárne metódy vôbec potrebné (pozri napr. kritiku v Wagenmakers et al., 2004).

Myslím, že hlavné nebezpečenstvo vyššie citovanej pasáže je identifikácia určitej metódy, analýzy s teoretickou pozíciou. Úspech nelineárnych metód je tak evidenciou pre neexistenciu reprezentácii a pre emergentný seba-organizačný charakter vhľadu. Čo si máme myslieť o bayesiánskych a iných nelineárnych metódach, ktoré postulujú reprezentácie? Tieto prípady vedú zástancov dynamických systémov k bizarným komentárom o pravej a nepravej emergencii. O vhodných a nevhodných nelineárnych metódach. Pričom vhodnosť metódy je definovaná arbitrárne pomocou oboru z kadiaľ pochádza (teda z fyziky nelineárnych systémov) a nie podľa iných dôležitejších kritérií ako je konvergencia alebo konzistentnosť. Nešťastným výsledkom splývania metódy a teoretickej pozície je už viackrát spomenutá situácia, že oblasť formálneho modelovania je rozdrobená na rôzne metodologické tábory – bayesiáni, konekcionisti, dynamicisti. Každý z nich si nesie svoju skrinku s nástrojmi a hľadá problém na ktorý by svoj nástroj aplikoval.

Na záver sa vráťme k Chemerovmu tvrdeniu, že dynamické systémy dokážu vysvetliť aj komplexné kognitívne fenomény ako je vhľad alebo riešenie matematických problémov a, že práce od Stephen et al. poskytujú evidenciu v prospech tohoto tvrdenia. Myslím, že dynamické systémy dokážu poskytnúť nanajvýš vágnu redeskripciu reprezentacionalistických novelistických vysvetlení. Pracujú s abstraktnými a všeobsažnými pojmami a fenoménmi ako entropia, mikroštruktúra, makroštruktúra, emergencia, seba-organizácia, fraktálová štruktúra alebo 1/f vývin spektra. Sú tak do určitej miery pokračovateľmi fyzikalistických historických prístupov ako behaviorizmus alebo gestaltistická psychológia, ktoré sa snažili vysvetliť fungovanie mysle pomocou zopár abstraktných omnipotentných mechanizmov (kondicionovanie, silové pole u Lewina).

Táto abstraktnosť ignoruje ultimátnu perspektívu. Ignoruje ekologickú podmienenosť kognitívnych mechanizmov a ich evolučný pôvod. Paradoxne no neprekvapivo tak dynamické vysvetlenia kognície stoja v kontraste k dynamickým vysvetleniam vnímania a motoriky. V poslednom prípade môžu dynamicisti a ekologickí psychológovia nebojácne argumentovať, že príroda postavila konkrétny mechanizmus bez reprezentácii, lebo takýto mechanizmus je rýchlejší a efektívnejší. V prípade kognície však prezentujú len vágne predstavy o systémoch minimalizujúcich svoju entropiu za konštantných perturbácii z okolia. Aby vysvetlili kogníciu musia zástancovia dynamických systémov ponúknuť rozhodne viac.

Stephen, D. G., Dixon, J. A., & Isenhower, R. W. (2009a). Dynamics of representational change: Entropy, action, and cognition. Journal of Experimental Psychology: Human Perception and Performance, 35, 1811–1822.

Stephen, D. G., Boncoddo, R. A., Magnuson, J. S., & Dixon, J. A. (2009b). The dynamics of insight: Mathematical discovery as a phase transition. Memory & Cognition, 37, 1132–1149.

Stephen DG, Dixon JA. (2009) The self-organization of insight: Entropy and power laws in problem solving. The Journal of Problem Solving;2:72-101.

Wagenmakers, E.-J., Farrell, S., & Ratcliff, R. (2004). Estimation and interpretation of 1/f noise in human cognition. Psychonomic Bulletin & Review, 11, 579-615.

W.H. Zangemeister, K. Sherman, and L.W. Stark (1995) Evidence for Global Scanpath Strategy in Viewing Abstract Compared with Realistic Images,o Neuropsychologia, vol. 33, no. 8, pp. 1,009-1,025.

Bayesiánska regresia zápalkových dát

Dostal som dáta k už spomínanej štúdii Öllinger et al. (2008) a práve sa hrám s bayesiánskymi analýzami, ktorým chcem venovať zopár článkov.

Pripomínam, že v prvom experimente probandi riešili zápalkové problémy. Pritom rozlišujeme štyri typy zložitých problémov a jednoduché problémy. V prvom experimente riešili probandi ca. 30 jednoduchých problémov a pomedzi ne prepletené dostali aj 4 zložíté. Pri každom probléme bola meraná doba riešenia. Doba riešenia bola obmedzená časovým limitom, po ktorého uplynutí probandi prešli na ďalší problém. Pri jednoduchých problémoch bol limit 2 minúty, pri zložitých 6 minút.

Zložité problémy riešila aj kontrolná skupina probandov. Títo však jednoduché problémy neriešili. Autori zistili, že úspešnosť experimentálnej a kontrolnej skupiny bola rovnaká a teda, že jednoduché problémy nesťažujú tie zložité. Jeden experiment vyzeral napríklad takto:

Tie cípy v grafe sú tri nevyriešené (CR3,CR1, CR2) a jeden vyriešený (CD) ťažký problém. Jednoduché problémy vyriešil dotyčný všetky. Vidieť takisto, že viacej faktorov ovplyvňuje dĺžku riešenia. Proband sa postupne zlepšuje v riešení jednoduchých problémov. Autorov zaujímalo, či jednoduché problémy ovplyvňujú riešenie zložitých. Zaujímavé by bolo zistiť aj či zložité problémy ovplyvňujú riešenie jednoduchých. Napríklad vyššie sa zdá, že proband po siedmom-ôsmom probléme zneistel.
Tieto efekty sa môžeme pokúsiť kvantifikovať pomocou bayesiánsky analýz, začnime však jednoduchým modelom. Tu je prvý model.

Daná je doba riešenia x_i v sekundách pre problém číslo i=1,...,30. Typ problému je daný ako  t=(ST,CR1,CR2,CR3,CD). Dobu riešenia modelujeme ako x_i \sim \mathcal{N}(\mu_{t},\sigma) . Štandardná odchýlka dostane svoj neinformatívny prior napr. s rovnomerným rozdelením \sigma \sim \mathcal{U}(0, 100). Takisto aj pre priemerné hodnoty \mu_{t} \sim \mathcal{U}(0, 100). Zaujímajú nás aposteriórne hodnoty týchto parametrov. Drobným problémom je, že skutočný čas v prípadoch, keď doba riešenia prekročila limit nepoznáme. V týchto prípadoch modelujem dobu riešenia ako x_i \propto \int_\theta^\infty \mathcal{N}(x,\mu_{t},\sigma) \, \mathrm{d}x . Teda predpokladám, že skutočné  x sa nachádza s rovnomernou pravdepodobnosťou niekde nad limitom \theta. V pôvodnej publikácií autori dosadili limitný čas a spriemerovali s ostatnými hodnotami, čo nie je zrovna elegantné riešenie. Autori tým predpokladajú, že doba riešenia je v týchto prípadoch presne rovná limitu.

Vyššie uvedený prístup tvorí (až na ten trik s limitnými hodnotami) bayesiánsky analóg k jednoduchému ANOVA modelu, kde hľadáme priemerné hodnoty. Pri frekventistických modeloch sa na optimalizáciu využíva maximum likelihood alebo iteratívne techniky. Pri bayesiánskych modeloch sa väčšinou používajú MCMC algoritmy, ktoré pomocou vzorkovania umožnia na základe dát odhadnúť štatistické rozdelenie parametrov. Vzorkovanie umožňuje optimalizovať aj komplexné modeli s mnohými parametrami. Ďalšou výhodou tohoto postupu je, že nezískame len odhad optimálnej hodnoty ale aj celého aposteriórneho rozdelenia a teda máme aj informáciu o neistote obsiahnutej v odhade. V prípade našej experimentálnej skupiny získame priemerné hodnoty: 50 sekúnd pre jednoduché úlohy a  176, 241, 383, 190 pre zložité úlohy. Všimnite si, že priemerná hodnota pri CR3 je vyššia ako limit 360 sekúnd. Vyššie hodnoty sme síce nikdy nevideli, ale videli sme veľa prípadov, keď proband v priebehu 360 sekúnd úlohu nevyriešil. Priemerný odhad štandardnej odchýlky je 60 sekúnd, čo znamená, že v dátach je ešte veľa variability. Bayesiánske modely sú generatívne. To znamená, že si s pomocou optimalizovaných parametrov môžeme nechať vygenerovať syntetické dáta. Následne sa môžeme pýtať, či sa rozdelenie syntetických dát podobá na empirické rozdelenie. Podobnosť rozdelení indikuje adekvátnosť modelu. Nasleduje histogram reakčných časov v jednoduchých úlohách a pod ním histogram reakčných časov vygenerovaných modelom.

Bayesiánska analýza má viacero výhod oproti ANOVe. Keďže aposteriórne rozdelenie hodnôt nezávisí od intencii experimentátora, môžeme porovnávať priemerné hodnoty bez potreby korektúry p hodnôt. Bayesiánske modely takisto nekladú striktné požiadavky na rozdelenie dáta. Ako vidieť v grafoch vyššie doby riešenia vykazujú exponenciálne rozdelenie. My ich však modelujeme pomocou normálneho rozdelenia (to je dôvod prečo sme získali tie negatívne reakčné časy). Ďalším krokom je teda hodiť normálne rozdelenie do smetí a použiť niečo vhodnejšie. Jednou možnosťou je použiť Weibullove rozdelenie s troma parametrami (Rouder et al., 2003). Hustota pravdepodobnosti je daná:

p(x;\beta,\mu,\sigma) = \sigma \beta \left( \frac{x-\mu}{\sigma} \right)^{\beta-1} exp \left[ -\left( \frac{x-\mu}{\sigma} \right)^{\beta} \right]

Vidieť, že prvé parametre \mu, \sigma môžeme interpretovať ako posun a mierku. \beta určuje tvar rozdelenia. Nasledujúca grafika znázorňuje Weibullovo rozdelenie pre rôzne hodnoty parametrov (pri východiskových hodnotách \mu=20, \sigma=10, \beta=1.5).

Vyššie uvedeným trom parametrom možno prisúdiť určitú psychologickú interpretáciu. Na dĺžku reakčného času pôsobia centrálne a periférne mechanizmi. Periférne mechanizmi v našom prípade tvoria čas potrebný na prečítanie a porozumenie zápalkového problému zobrazeného na monitore a doba od rozhodnutia až po zadanie riešenia pomocou klávesnice. Kognitívne procesy, ktoré nás zaujímajú ovplyvňujú mierku a tvar rozdelenia. Rozdiely v mierke možno interpretovať ako rozdiely v rýchlosti spracovania. Rozdiely v tvare rozdelenia naopak indikujú použitie odlišných riešiteľských stratégii (Rouder et al., 2003).

V našom prípade generuje Weibullov model nasledujúce reakčné časy.

Rozdelenie je trochu užšie ako to empirické v dôsledku čoho je chvost vpravo moc plochý. V zobrazenom modely zdieľajú typy problémov parametre pre posun a tvar a iba parameter pre mierku je individuálny. Výsledné rozdelenie reakčných časov v jednoduchých úlohách tak závisí aj od schopnosti parametrov odseku a tvaru modelovať reakčné časy v zložitých úlohách. Alternatívne by sme mohli parametre individualizovať podľa typu úlohy. Ďalšou zaujímavou možnosťou je individualizovať parametre na úrovni jednotlivých probandov. Títo sa väčšinou líšia, čo sa týka rýchlosti alebo použitia stratégii. Individuálizované parametre umožnia modelu nielen lepšie predpovedať dáta, ale poskytujú aj zaujímavú informáciu o individuálnych kognitívnych rozdieloch v našej vzorke probandov. Nabudúce sa pozrieme na takýto model.

Öllinger, M., Jones, G., & Knoblich, G. (2008). Investigating the effect of mental set on insight problem solving. Experimental Psychology, 55, 269–282.

Rouder, J. N., Sun, D., Speckman, P. L., Lu, J., & Zhou, D. (2003). A hierarchical Bayesian statistical framework for skewed variables with an application to response time distributions. Psychometrika, 68, 587-604.