Busemeyer a Diederich: Cognitive Modeling

Už som spomínal na Mozgostrojoch, že sa začína objavovať literatúra o kognitívnom modelovaní určená študentom. Jednou takou publikáciou je knižka o kognitívnom modelovaní od Jeroma Busemeyera a Adele Diederich.

Pozadie autorov a takisto obsah knihy sa do veľkej miery točí okolo časopisu Journal of Mathematical Psychology, kde je Busemeyer editorom. Tento slúži ako platforma pre psychológov, ktorí majú akademické pozadie v matematike, fyzike alebo informatike. Títo aplikujú svoje poznatky s cieľom vyvinúť nástroje pre analýzu a modelovanie dát. Výsledky takejto práce sú moc technické na to, aby boli publikované v bežných psychologických časopisoch a tak skončia v JoMP. JoMP takisto sprostredkuje tutoriály pre psychológov o najnovších relevantných výpočtových technikách z iných oborov.

Mne ako zástancovi modelovania ako všeobecnej a jedinej možnosti teoretizovania to príde samozrejme zvláštne, že by mali existovať špecializované časopisy kam je modelovanie vyhostené. Takisto, oveľa zaujímavejšie ako čítať dedikované tutoriály pre psychológov mi príde sledovať aktuálneho dianie v štatistike a informatike. Momentálne existuje armáda techník a modelov, ktorých aplikácia a aplikovateľnosť je čiastočne jednorázová poprípade nejasná. Naopak etablované modelovacie nástroje v psychológii môžeme porátať na prstoch jednej ruky. Problémom je, že samotná oblasť modelovania je relatívne mladá a nezrelá. Psychológovia nemajú moc v tom jasno ani v tom čo chcú pomocou modelov dosiahnuť. Diederich a Busemeyer motivujú a obhajujú modelovanie dosť rozpačito. Modelovanie má byť podľa nich vkusným doplnkom k tradičným psychologickým príbehom. Každopádne je ťažké určiť nejaký kánon modelovania. Spomínanú knihu preto treba chápať skôr ako prvý náčrt toho ako by takýto kánon mohol vyzerať.

Kniha sa nezaoberá ani tak tým ako nejaký model vytvoriť. To, aby ste prišli s nejakou neurónovou sieťou, bayesiánskym modelom alebo dynamickým systémom, to musíte zvládnuť sami. Koniec koncov v tomto ohľade už existuje rada špecializovaných publikácii. Kniha sa zaoberá tým ako modely na základe dát vyhodnotiť. Aj na tomto blogu sme už videli, že správne vyhodnotiť model nie je samozrejmé. Informatici a matematici, fyzici a inžinieri si so sebou často prinášajú svoje kritéria modelovania ako napr. konzistentnosť, jednoduchosť alebo symetria, ktoré sú pre psychologické modely do veľkej miery irelevantné. Naopak často nezohľadnia kritéria kumulatívneho vedeckého pokroku ako konzistentnosť s ostatným teoretizovaním a porovnanie s inými psychologickými modelmi. Takto si každý novoprichodilec donesie vlastné kladivko, vlastnú techniku. Tie iné ho nezaujímajú, poprípade im ani nerozumie a len sa snaží nájsť nejaký ten klinec na ktorý by svoj model veľkoryso aplikoval. Myslím teda, že v tomto ohľade je zameranie knihy zvolené správne.

Prvá kapitola sa zaoberá kvalitatívnymi porovnaniami modelov na základe dát. Táto metóda sa núka, ak dva modely poskytujú kvalitatívne odlišné predpovede a to nezávisle od voľných parametrov. Autori používajú ako príklad konekcionistické modely kategorizácie u zdravých ľudí a amnestických pacientov. U zdravých ľudí porovnávajú prototypálne a exemplárne teórie kategorizácie. Ľudia sú schopní vyriešiť XOR kategorizačnú úlohu, no prototypálny model (, ktorý tvorí v podstate perceptron) to na rozdiel od exemplárnych modelov (tiež perceptron, síce s menej vstupmi ale s radiálnymi funkciami, ktoré vstupy nelineárne transformujú) nedokáže. Autori následne ukazujú, že exemplárny model dokáže predpovedať aj rozdiely medzi zdravými a amnestikmi a to nielen, čo sa týka kategorizácie, ale aj pamäte pre minulé riešenia. Tým pádom nie je potrebné postulovať duálne teórie so špecializovanými systémami pre pamäť a kategorizáciu ako sa snažili rozprávkárski teoretici, ktorí neboli schopní do detailov skompilovať exemplaristické modely.

V prípade ak sú kvalitatívne predpovede dvoch modelov rovnaké, treba vyhodnotiť tieto predpovede kvantitatívne. Modelujú predpovede jedného modelu dáta lepšie ako predpovede modelu iného? Predpovede modelu vo väčšine prípadov závisia od hodnôt jeho parametrov. Preto je dôležité určiť množinu optimálnych parametrov pre každý model skôr než ich porovnáme. Autori najprv diskutujú rôzne možnosti modelovania dát a ich výhody/nevýhody. Dáta môžeme napríklad modelovať agregovane na úrovni priemerných hodnôt celej vzorky. Druhou možnosťou je modelovať oddelene dáta u každého probanda. V prvom prípade nemusia byť agregované dáta reprezentatívne pre ľudské správanie (teda “priemerné” správanie nikto nepoužíva). V druhom prípade nemusíme mať dostatok dát aby sme mohli vyhodnotiť model pre každého probanda. Kompromisom je použiť hierarchický model (viď nižšie).

Kniha popisuje viaceré techniky pre odhad optimálnych parametrov. Najprv, však musíme definovať objektívnu funkciu, ktorá slúži ako kritérium optimality parametrov modelu a ktorú chceme maximalizovať/minimalizovať. Autormi je uvedená metóda najmenších štvorcov, vážená metóda najmenších štvorcov a maximum likelihood. Autori ukazujú ako možno optimalizovať tieto funkcie v závislosti od parametrov modelu pomocou techník ako vyčerpávajúce hľadanie, steepest descent, Newton-Raphson, Newton-Gauss a Levenberg-Marquardt.  Autori tematizujú problém lokálnych miním u nelineárnych modelov. Ďalej ukazujú ako kvantitatívne vyhodnotiť optimalizovaný model na základe reziduálnej variability a indikátorov ako G^2, \chi^2, R^2. Na záver autori dodávajú, že optimalizované parametre môžu mať teoretickú interpretáciu a tak byť zaujímavé samy o sebe a nielen ako prostriedok k robustným predpovediam.

Optimalizačné techniky ilustrujú autori na asi najznámejšom psychologickom modeli – Ratcliffovom difúznom modeli reakčných časov. Typická úloha v psychológii pozostáva z detekcie stimulov (napr. pixel s určitým kontrastom). Experiment pozostáva z viacerých kôl a v každom kole môže byť alebo nemusí byť stimulus prítomný. Proband musí určiť, či bol stimulus prítomný alebo nie. Reakcie možno rozdeliť do štyroch kategorí:

  1. stimulus je prítomný a proband ho odhalili
  2. stimulus je prítomný, no proband ho nepostrehol
  3. stimulus nie je prítomný, no proband hlásil jeho prítomnosť
  4. stimulus nie je prítomný a proband ho správne nenašiel

Okrem reakcii meriame aj reakčný čas dosiahnutý v každom kole. Reakčné časy pre 2 a 4 sú väčšinou pomalšie ako pre 1 a 3. Difúzny model umožňuje modelovať reakčné dáta. Model postuluje, že probandi, keď vidia stimulus tak postupne akumulujú evidenciu. Ak táto evidencia prekoná určitý prah tak model vykoná danú reakciu. Tak ako u probanda, model buď hlási stimulus alebo jeho absenciu. Evidencia začína na nule a v každom kroku sa náhodne pohne smerom pozitívnemu alebo náhodnému prahu: v_t=v_{t-1} + \mathcal{N} (\mu,\sigma) . \mu určuje priemerný smer ktorým sa evidencia bude vyvíjať. Ak \mu > 0 tak sa bude evidencia akumulovať smerom k pozitívnemu prahu a naopak pre \mu < 0. \sigma určuje veľkosť odchýlky od priemeru. Pre psychológov je zaujímavý hlavne pomer d = \mu / \sigma, ktorý označuje citlivosť voči stimulom (discriminability). Citlivosť vyjadruje neistotu v procese zbierania evidencie. Ak \sigma >> \mu tak je rozhodovanie ovplyvnené náhodnými odchýlkami. Naopak ak \sigma << \mu tak evidencia rýchlo konverguje smerom daným \mu .

Model má teda štyri parametre, \mu, \sigma, pozitívny prah \theta_{+} pre odhalenie stimulu a negatívny prah \theta_{-} pre opačný prípad. Pritom mierka evidencie je arbitrárna a jeden parameter si môžeme ušetriť. Ratcliffov model používa \sigma=1. Reakcia probanda nepozostáva len z rozhodovania, ale aj z motorickej reakcie, teda času od rozhodnutia v mozgu až do stlačenia tlačítka, indikujúceho odpoveď. Model preto zahŕňa aj aditívnu motorickú konštantu m, ktorú započítame výslednej doba rozhodovania.

Jednoduchá implementácia (v Pythone, čo je skoro ako pseudokód) môže vyzerať nasledovne.

def diffusionModel(thpos,thneg,mu,sigma,m):
    rt=m
    evidence=[0]
    while True:
        if evidence[-1]>=thpos:
            return (True,rt,evidence)
        elif evidence[-1]<=thneg:
            return (False,rt,evidence)
        evidence.append(evidence[-1]+random.gauss(mu,sigma))
        rt+=1

Evidence zbiera evidenciu, kedže na tú to sa chceme následne pozrieť:

random.seed(2)
thpos=20
thneg=-10
mu=0.1
sigma=1
m=200

resp,rt,ev=diffusionModel(thpos,thneg,mu,sigma,m)
plt.close()
t=range(m,m+len(ev))
plt.plot([t[0],t[-1]],[thpos,thpos])
plt.plot([t[0],t[-1]],[thneg,thneg])
plt.plot(t,ev)
plt.ylim([thneg-1,thpos+1])
plt.ylabel('Evidencia')
plt.xlabel(u'Čas [ms]')
plt.legend([u'pozitívny prah',u'negatívny prah'],loc=5)
plt.grid()
plt.show()

Negatívna evidencia prekročila negatívny prah a to napriek tomu, že \mu je pozitívne. Ak si zoberieme, že pozitívne \mu reflektuje prítomnosť stimulu, tak náš model vyprodukoval omyl (2.). Ak experiment opakujeme získame rozdelenie reakčných časov typické pre dáta z psychologických experimentov, pričom 89 % odpovedí v simulácii nižšie hlási stimulus.

random.seed(3)
pos=0
rts=[]
N=5000
for i in range(N):
    resp,rt,ev=diffusionModel(thpos,thneg,mu,sigma,m)
    rts.append(rt)
    if resp: pos+=1
print pos/float(N)
plt.figure()
plt.xlabel(u'Čas [ms]')
plt.hist(rts,100)

Busemeyer a Diederich optimalizujú parametre, aby zistili, čo je príčinou rozdielov v reakčných časoch medzi mladými a starými ľudmi. U staršich probandov (>60) sú reakčné časy celkovo pomalšie aj keď úspešnosť odpovedí sa nemení. Ako vysvetliť tento fenomén? Je možné, že u starších ľudí sú pomalšie motorické reakcie (vyššie m), alebo, že títo sú konzervatívnejší (vyššie \theta{+} a nižšie \theta{-}), alebo, že nedokážu už moc dobre diskriminovať stimulus (nižšia citlivosť d). Autori optimalizovali parametre difúzneho modelu pre mladých a starých probandov. Vekové skupiny sa líšili v rýchlosti motorických reakcii a v senzorickej citlivosti. Nelíšili sa však v konzervatívnosti.Táto aplikácia difúzneho modelu ilustruje užitočnosť komputačného modelovania.

Piata kapitola sa zaoberá kvantitatívnym porovnaním modelov. Hodnoty indikátorov optimality G^2, \chi^2, R^2 sú samy o sebe bezvýznamné a majú výpovednú hodnotu len ak porovnávame viaceré modely. Vyššie uvedené indexy je takisto možné použiť len ak je jeden model zovšeobecnením druhého (napr. tým, že obsahuje dodatočný parameter). V opačnom prípade sa musíme obrátiť na indexy optimality ako sú BIC, AIC, poprípade použiť krížovú validáciu. Autori ilustrujú tieto techniky na predpovediach troch konkurenčných modelov. Tieto modelujú výkon zdravých probandov a probandov s orbitofrontálnym poškodením mozgu v Iowa Gambling Task. Techniky pre kvantitatívne porovnanie umožnili autorom vybrať najlepší z troch modelov, a to napriek tomu, že sa modely líšia v komplexite a v počte parametrov.

V poslednej kapitole sa autori zaoberajú hierarchickými bayesiánskymi metódami. Tieto umožňujú súčasne modelovať efekty na individuálnej ale aj agregovanej úrovni. Autori poskytujú krátky úvod do bayesiánskej štatistiky. Ukazujú ako hierarchický model definovať a ako optimalizovať jeho parametre pomocou Gibbsovho vzorkovacieho algoritmu. Bayesiánskym hierarchickým modelom sa ešte budem venovať v ďalších článkoch.

Moje hodnotenie

Myslím, že autorom sa celkom dobre podarilo identifikovať obsahy a témy. Tieto sú typické pre psychológiu a na rozdiel od špecializovaných kníh o neurónových sietiach a bayesiánsky metódach sú dosť všeobecné na to, aby boli zaujímavé pre všetkých. Nie som si celkom istý pedagogickou hodnotou knihy. Ťažko si viem predstaviť, že by niekto vedel, len na základe knihy spomenuté modely aj implementovať. Kniha obsahuje dva-tri útržky kódu v Matlabe, no aby bola prezentácia efektívna musela by kniha celoplošne obsahovať kód plus programovacie úlohy, na ktorých by si čitateľ vyskúšal prezentované koncepty. Kniha v tomto ohľade zostala na pol ceste. Snaží sa v zdĺhavých apendixoch prezentovať detaily daných techník, avšak ostáva len pri matematickej expozícii. Čitateľ je tak dobre zásobený matematickými formulami, ale na jednej strane chýba mu implementačná stránka veci. Na druhej strane mu chýba konceptuálna stránka. Techniky ako Levenberg-Marquardt alebo Gibbs vzorkovanie sú prejdené šprintom. Nie som si istý, čo si čitateľ z ich diskusie odnesie. Knihu by som teda skrátil o matematické prílohy alebo rozšíril prílohy o implementácie a pridal ku kapitolám úlohy. Kniha by takisto potrebovala omnoho viac obrázkov a grafov. Tieto umožňujú rýchlo a kompaktne prezentovať komplikované koncepty a sú neodbytnou súčasťou modelovania a komplexných analýz.

Cognitive Modeling od Busemeyera a Diederichovej je prvým vítaným príspevkom, avšak než sa dočkáme solídnej učebnice kognitívneho modelovanie nejaký čas ešte uplynie.

Busemeyer, J. & Diederich, A. (2010). Cognitive Modeling. Sage Publications, London: UK.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s