Lineárna klasifikácia

Dva typické problémy pri učení strojov sú regresia a klasifikácia. Pri regresii sa snažíme predpovedať kontinuálnu hodnotu napr. príjem na základe IQ. Cieľom klasifikácie je predpovedať kategóriu napr. pohlavie alebo typ vzdelania. Minule som sa zaoberal regresiou. Klasifikácia prebieha analogicky. V tomto článku demonštrujem klasifikáciu pomocou maximalizácie vierohodnosti.

Aby bola prezentácia konkrétnejšia vygenerujme si demo dáta. Dané sú dva kontinuálne prediktory a dve kategórie. Povedzme, že zisťujeme pohlavie jedincov určitého druhu chobotnice a prvým prediktorom je dĺžka hektakotylového ramena zatiaľčo druhý prediktor popisuje hmotnosť jedinca. Dáta simulujem ako kombináciu dvoch gaussovských rozdelení.

import pylab as plt
import numpy as np
np.random.seed(6)
m=np.random.multivariate_normal([10, 150],[[2,5],[5,30]],100)
f1=np.random.multivariate_normal([6, 140],[[4,-5],[-5,30]],100)
plt.close()

plt.plot(f1[:,0],f1[:,1],'or')
plt.plot(m[:,0],m[:,1],'xb')
plt.xlabel('Prediktor 1')
plt.xlabel('Prediktor 2')
plt.xlim([0, 15])
plt.ylim([100,200])
plt.show()

Kategórie sa z časti prelínajú. To ale nevadí, aspoň bude úloha zaujímavejšia.

Dáta sú dané vo forme Nx1 vektorov y, x_1, x_2, pričom elementy y určujú kategóriu daného jedinca y_n \in 0,1. Našou úlohou je získať lineárny model s vhodnými parametrami.

x=np.concatenate((m,f1))
x=np.concatenate((np.ones((x.shape[0],1)),x),axis=1)
y=np.concatenate((np.zeros(100),np.ones(100)))

Pri regresii sme optimalizovali p(y|x,b_0,b_1,\sigma)=\prod_{n=1}^N p(y_n| x_n,b_0,b_1,\sigma)=\prod_{n=1}^N \mathcal{N}(y_n|b_0 + b_1 x_n,\sigma). Pri klasifikácii môžeme postupovať analogicky, akurát gausovské rozdelenie v poslednom kroku nevyhovuje. Namiesto neho potrebujeme rozdelenie, ktoré by modelovalo dichotomické premenné. Vhodným rozdelením je Bernouliho rozdelenie \mathcal{B}(y|q)= q^y (1-q)^(1-y). Ak y=1 tak \mathcal{B}(y|q)= q a ak y=0 tak \mathcal{B}(y|q)= 1-q. Zvolíme teda
p(y|b,x_1,x_2)=\prod_{n=1}^N p(y_n| x_1,x_2,b)=\prod_{n=1}^N \mathcal{B}(y_n|x_1,x_2,b)= q^y (1-q)^(1-y)
Ideálne by sme zvolili q= b_0 + b_1 x_{n1}+b_2 x_{n2}. Tým sa snažíme docieliť, aby v lineárnej závislosti od parametrov a dát q= 1 ak y= 1 a q= 0 ak y= 0. Problém je stále v tom, že b_0 + b_1 x_{n1}+b_2 x_{n2} poskytuje kontinuálne hodnoty. Preto musíme zvoliť funkciu, ktorá by mapovala kontinuálne hodnoty (-\infty, \infty) do rozmedzia (0,1). Sigmoidálna funkcia nám to umožní: \sigma(x)=\frac{1}{1+e^{-1}}

Sigmoidálna funkcia nie je jedinou možnou voľbou, avšak táto funkcia má viaceré atraktívne vlastnosti. Je monotónna na celom svojom intervale a jej derivácia má jednoduchú formu \frac{\delta \sigma(x)}{\delta x}=\sigma(x) (1-\sigma(x)). Platí teda q_n= \sigma(b_0 + b_1 x_{n1}+b_2 x_{n2}).

Týmto sme s formuláciou vierohodnosti modelu hotoví a môžeme nájsť optimálne parametre. Nájdeme deriváciu vierohodnosti a nájdeme parametre pre prípad, že derivácia je rovná nule. Problémom je, že pri takomto postupe sa nám žiaľ nepodarí parametre “vyslobodiť”. Parametre sú na sebe závislé. Musíme zvoliť iteratívnu optimalizáciu. Použijeme Newtonovu metódu. Animácia z Wikipédie ilustruje jej fungovanie:

Našim cieľom je nájsť x pre ktoré platí f'(x)=0. Na začiatku zvolíme náhodne x_1. Nájdeme deriváciu y=f(x) v bode x_1. Táto tvorí tangentu k f(x) v bode x_1 Následne nájdeme x_2 pre ktoré je tangenta rovná nule, t.j. pretína x-ovú osu. Pritom platí

f'(x)=\frac{dy}{dx}=\frac{f(x_t)-f(x_{t+1})}{x_t-x_{t+1}}= \frac{f(x_t)}{x_t-x_{t+1}}

Vyriešime pre x_{t+1}:

x_{t+1}=x_t - \frac{f(x_t)}{f'(x_t)}

V našom prípade chceme nájsť parametre w, pre ktoré gradient vierohodnosti \nabla E je rovný nule. Ak aplikujeme Newtonovu metódu na náš problém získame w_{t+1}=w_t -\nabla \nabla E^{-1} \nabla E. Z formulácie vierohodnosti určíme potrebné derivácie: \nabla E=\sum_n (q_n - y_n)x_n\nabla \nabla E=\sum_n q_n (1 - q_n)x_n x _n^T, pričom q_n= \sigma(w_t x_n). V našom konkrétnom prípade platí q_n= \sigma(b_0 + b_1 x_{n1}+b_2 x_{n2}), kedže w= (b_0, b_1, b_2).

Takéto iteratívne riešenie nie je tragédia. Vierohodnosť je konvexnou funkciou a Newtonova metóda zaručene nájde jej globálne maximum.

Sigmoidálnej funkcii sa nazýva aj logistická funkcia a preto sa odvodený lineárny klasifikátor nesie meno logistická regresia. Implementácia môže vyzerať nasledovne:

import sys
def sigmoid(x):
    return 1.0 / (1.0 + np.exp(-x))

def newton(f,x0,fprime,tol=1e-8,maxiter=100):
    """ Newton method for optimization of with vectors"""
    print 'Newton Optimization started'
    xold=np.copy(x0)
    for i in range(maxiter):
        fxold=f(xold)
        if np.linalg.norm(np.zeros(xold.size)-fxold)<tol:
            print '\nOptimization terminated successfully after %d iterations'%i
            return xold

        xnew=xold-np.array(np.matrix(fprime(xold)).I).dot(fxold)
        sys.stdout.write('.')
        xold=xnew
    print '\nOptimization failed to converge after %d iterations'%maxiter
    return xnew

class LogisticRegression():
    """
    A simple logistic regression model
    """

    def __init__(self,x,y,alpha=0.0):
        """ N - nr of samples, M - nr of features
            x - Nx(M+1) numpy array, the first column is a vector of ones
            y - Nx1 numpy array
            alpha - L2 regularization strength
        """
        # Set the data.
        self.x = x
        self.alpha=alpha
        self.y= y
        self.n = y.shape[0]
        # Initialize parameters to zero, for lack of a better choice.
        self.w = np.zeros(self.x.shape[1])

    def prediction(self,x=None,w=None):
        if x is None: x=self.x
        if w is None: w=self.w
        q = np.zeros(x.shape[0])
        for i in range(x.shape[0]):
            q[i] = sigmoid(np.dot(w, x[i]))
        return q

    def dE(self, w):
        """ Error gradient of the data under
            the current settings of parameters. """
        q = self.prediction(w=w)
        return self.x.T.dot(q-self.y)+w*self.alpha
    def ddE(self,w):
        """ Computes Hessian of the data under
            the current settings of parameters. """
        q = self.prediction(w=w)
        R=np.diag(q*(1-q))
        return self.x.transpose().dot(R.dot(self.x))+self.alpha

    def train(self):
        """ Find dE=0 with Newton method """
        self.w = newton(self.dE,self.w,fprime=self.ddE)

    def checkCorrectness(self,xTest,yTest,w=None):
        """ Gives performance in percent correct """
        if not w is None: self.w=w
        t = np.squeeze(yTest) > 0
        y = np.squeeze(self.prediction(x=xTest) > 0.5)
        return 100 * np.sum(t==y)/ np.size(yTest)

Nakoniec trénujeme klasifikátor na našich dátach a diagnostikujeme správnosť predpovedí modelu:

lr=LogisticRegression(x,y)
lr.train()
print lr.checkCorrectness(x,y)

p2s=np.arange(0,20,0.1)
p1s=np.arange(120,181,1)
D=np.nan*np.ones((p1s.size,p2s.size))
xx=np.ones((1,3))
for i in range(p1s.size):
    for j in range(p2s.size):
        xx[0,1]=p2s[j]
        xx[0,2]=p1s[i]
        D[i,j]=lr.prediction(x=xx)
plt.imshow(D,extent=(p2s[0],p2s[-1],p1s[-1],p1s[0]))
plt.colorbar()
plt.plot(f1[:,0],f1[:,1],'or')
plt.plot(m[:,0],m[:,1],'ob')
plt.xlabel('Prediktor 1')
plt.ylabel('Prediktor 2')

Predpovede modelu sú znázornené farebne pre všetky možné hodnoty prediktorov 1 a 2 v rozmedzí (0,20) a (120,180) respektívne. Predpovede spadajú vďaka sigmoidálnej funkcii do rozhrania (0,1). V prípade lineárneho klasifikátora tvorí hranicu línia. Hranica nie je skoková, ale ako vidieť na prechodnom farebnom odtieni kontinuálna. Model tým vyjadruje neistotu kategorizovania v oblasti kde sa množiny bodov prelínajú.

Lineárny klasifikátor trpí viacerými nedostatkami.

Klasifikácia je citlivá na extrémne hodnoty. Ak pridám jednu od veci hodnotu (, ktorá mohla vzniknúť napr. ako chyba pri prepise dát), tak táto môže silne pohnúť hranicou (extrémnu hodnotu v grafike nižšie nevidieť).

x=np.concatenate((m,f1,np.array([200,200],ndmin=2)))


Neprekvapujúco, ak je hranica medzi kategóriami nelineárna, klasifikátor pracuje mizerne.
Pridajme napríklad ďalšiu množinu bodov a zopakujme analýzy.

f2=np.random.multivariate_normal([11, 165],[[10,10],[10,20]],100)
x=np.concatenate((m,f1,f2))
y=np.concatenate((np.zeros(100),np.ones(200)))


Lineárny klasifikátor nedokáže rekonštruovať  ten oblúk, v ktorom červené bodky ohraničujú modrú množinu. Namiesto toho zvolí ako hranicu líniu, ktorá ide krížom cez množinu modrých bodov a klasifikátor dosiahne slabých 65% správnych predpovedí. V ďalšom článku sa pozrieme na nelineárne klasifikačné metódy.

Busemeyer a Diederich: Cognitive Modeling

Už som spomínal na Mozgostrojoch, že sa začína objavovať literatúra o kognitívnom modelovaní určená študentom. Jednou takou publikáciou je knižka o kognitívnom modelovaní od Jeroma Busemeyera a Adele Diederich.

Pozadie autorov a takisto obsah knihy sa do veľkej miery točí okolo časopisu Journal of Mathematical Psychology, kde je Busemeyer editorom. Tento slúži ako platforma pre psychológov, ktorí majú akademické pozadie v matematike, fyzike alebo informatike. Títo aplikujú svoje poznatky s cieľom vyvinúť nástroje pre analýzu a modelovanie dát. Výsledky takejto práce sú moc technické na to, aby boli publikované v bežných psychologických časopisoch a tak skončia v JoMP. JoMP takisto sprostredkuje tutoriály pre psychológov o najnovších relevantných výpočtových technikách z iných oborov.

Mne ako zástancovi modelovania ako všeobecnej a jedinej možnosti teoretizovania to príde samozrejme zvláštne, že by mali existovať špecializované časopisy kam je modelovanie vyhostené. Takisto, oveľa zaujímavejšie ako čítať dedikované tutoriály pre psychológov mi príde sledovať aktuálneho dianie v štatistike a informatike. Momentálne existuje armáda techník a modelov, ktorých aplikácia a aplikovateľnosť je čiastočne jednorázová poprípade nejasná. Naopak etablované modelovacie nástroje v psychológii môžeme porátať na prstoch jednej ruky. Problémom je, že samotná oblasť modelovania je relatívne mladá a nezrelá. Psychológovia nemajú moc v tom jasno ani v tom čo chcú pomocou modelov dosiahnuť. Diederich a Busemeyer motivujú a obhajujú modelovanie dosť rozpačito. Modelovanie má byť podľa nich vkusným doplnkom k tradičným psychologickým príbehom. Každopádne je ťažké určiť nejaký kánon modelovania. Spomínanú knihu preto treba chápať skôr ako prvý náčrt toho ako by takýto kánon mohol vyzerať.

Kniha sa nezaoberá ani tak tým ako nejaký model vytvoriť. To, aby ste prišli s nejakou neurónovou sieťou, bayesiánskym modelom alebo dynamickým systémom, to musíte zvládnuť sami. Koniec koncov v tomto ohľade už existuje rada špecializovaných publikácii. Kniha sa zaoberá tým ako modely na základe dát vyhodnotiť. Aj na tomto blogu sme už videli, že správne vyhodnotiť model nie je samozrejmé. Informatici a matematici, fyzici a inžinieri si so sebou často prinášajú svoje kritéria modelovania ako napr. konzistentnosť, jednoduchosť alebo symetria, ktoré sú pre psychologické modely do veľkej miery irelevantné. Naopak často nezohľadnia kritéria kumulatívneho vedeckého pokroku ako konzistentnosť s ostatným teoretizovaním a porovnanie s inými psychologickými modelmi. Takto si každý novoprichodilec donesie vlastné kladivko, vlastnú techniku. Tie iné ho nezaujímajú, poprípade im ani nerozumie a len sa snaží nájsť nejaký ten klinec na ktorý by svoj model veľkoryso aplikoval. Myslím teda, že v tomto ohľade je zameranie knihy zvolené správne.

Prvá kapitola sa zaoberá kvalitatívnymi porovnaniami modelov na základe dát. Táto metóda sa núka, ak dva modely poskytujú kvalitatívne odlišné predpovede a to nezávisle od voľných parametrov. Autori používajú ako príklad konekcionistické modely kategorizácie u zdravých ľudí a amnestických pacientov. U zdravých ľudí porovnávajú prototypálne a exemplárne teórie kategorizácie. Ľudia sú schopní vyriešiť XOR kategorizačnú úlohu, no prototypálny model (, ktorý tvorí v podstate perceptron) to na rozdiel od exemplárnych modelov (tiež perceptron, síce s menej vstupmi ale s radiálnymi funkciami, ktoré vstupy nelineárne transformujú) nedokáže. Autori následne ukazujú, že exemplárny model dokáže predpovedať aj rozdiely medzi zdravými a amnestikmi a to nielen, čo sa týka kategorizácie, ale aj pamäte pre minulé riešenia. Tým pádom nie je potrebné postulovať duálne teórie so špecializovanými systémami pre pamäť a kategorizáciu ako sa snažili rozprávkárski teoretici, ktorí neboli schopní do detailov skompilovať exemplaristické modely.

V prípade ak sú kvalitatívne predpovede dvoch modelov rovnaké, treba vyhodnotiť tieto predpovede kvantitatívne. Modelujú predpovede jedného modelu dáta lepšie ako predpovede modelu iného? Predpovede modelu vo väčšine prípadov závisia od hodnôt jeho parametrov. Preto je dôležité určiť množinu optimálnych parametrov pre každý model skôr než ich porovnáme. Autori najprv diskutujú rôzne možnosti modelovania dát a ich výhody/nevýhody. Dáta môžeme napríklad modelovať agregovane na úrovni priemerných hodnôt celej vzorky. Druhou možnosťou je modelovať oddelene dáta u každého probanda. V prvom prípade nemusia byť agregované dáta reprezentatívne pre ľudské správanie (teda “priemerné” správanie nikto nepoužíva). V druhom prípade nemusíme mať dostatok dát aby sme mohli vyhodnotiť model pre každého probanda. Kompromisom je použiť hierarchický model (viď nižšie).

Kniha popisuje viaceré techniky pre odhad optimálnych parametrov. Najprv, však musíme definovať objektívnu funkciu, ktorá slúži ako kritérium optimality parametrov modelu a ktorú chceme maximalizovať/minimalizovať. Autormi je uvedená metóda najmenších štvorcov, vážená metóda najmenších štvorcov a maximum likelihood. Autori ukazujú ako možno optimalizovať tieto funkcie v závislosti od parametrov modelu pomocou techník ako vyčerpávajúce hľadanie, steepest descent, Newton-Raphson, Newton-Gauss a Levenberg-Marquardt.  Autori tematizujú problém lokálnych miním u nelineárnych modelov. Ďalej ukazujú ako kvantitatívne vyhodnotiť optimalizovaný model na základe reziduálnej variability a indikátorov ako G^2, \chi^2, R^2. Na záver autori dodávajú, že optimalizované parametre môžu mať teoretickú interpretáciu a tak byť zaujímavé samy o sebe a nielen ako prostriedok k robustným predpovediam.

Optimalizačné techniky ilustrujú autori na asi najznámejšom psychologickom modeli – Ratcliffovom difúznom modeli reakčných časov. Typická úloha v psychológii pozostáva z detekcie stimulov (napr. pixel s určitým kontrastom). Experiment pozostáva z viacerých kôl a v každom kole môže byť alebo nemusí byť stimulus prítomný. Proband musí určiť, či bol stimulus prítomný alebo nie. Reakcie možno rozdeliť do štyroch kategorí:

  1. stimulus je prítomný a proband ho odhalili
  2. stimulus je prítomný, no proband ho nepostrehol
  3. stimulus nie je prítomný, no proband hlásil jeho prítomnosť
  4. stimulus nie je prítomný a proband ho správne nenašiel

Okrem reakcii meriame aj reakčný čas dosiahnutý v každom kole. Reakčné časy pre 2 a 4 sú väčšinou pomalšie ako pre 1 a 3. Difúzny model umožňuje modelovať reakčné dáta. Model postuluje, že probandi, keď vidia stimulus tak postupne akumulujú evidenciu. Ak táto evidencia prekoná určitý prah tak model vykoná danú reakciu. Tak ako u probanda, model buď hlási stimulus alebo jeho absenciu. Evidencia začína na nule a v každom kroku sa náhodne pohne smerom pozitívnemu alebo náhodnému prahu: v_t=v_{t-1} + \mathcal{N} (\mu,\sigma) . \mu určuje priemerný smer ktorým sa evidencia bude vyvíjať. Ak \mu > 0 tak sa bude evidencia akumulovať smerom k pozitívnemu prahu a naopak pre \mu < 0. \sigma určuje veľkosť odchýlky od priemeru. Pre psychológov je zaujímavý hlavne pomer d = \mu / \sigma, ktorý označuje citlivosť voči stimulom (discriminability). Citlivosť vyjadruje neistotu v procese zbierania evidencie. Ak \sigma >> \mu tak je rozhodovanie ovplyvnené náhodnými odchýlkami. Naopak ak \sigma << \mu tak evidencia rýchlo konverguje smerom daným \mu .

Model má teda štyri parametre, \mu, \sigma, pozitívny prah \theta_{+} pre odhalenie stimulu a negatívny prah \theta_{-} pre opačný prípad. Pritom mierka evidencie je arbitrárna a jeden parameter si môžeme ušetriť. Ratcliffov model používa \sigma=1. Reakcia probanda nepozostáva len z rozhodovania, ale aj z motorickej reakcie, teda času od rozhodnutia v mozgu až do stlačenia tlačítka, indikujúceho odpoveď. Model preto zahŕňa aj aditívnu motorickú konštantu m, ktorú započítame výslednej doba rozhodovania.

Jednoduchá implementácia (v Pythone, čo je skoro ako pseudokód) môže vyzerať nasledovne.

def diffusionModel(thpos,thneg,mu,sigma,m):
    rt=m
    evidence=[0]
    while True:
        if evidence[-1]>=thpos:
            return (True,rt,evidence)
        elif evidence[-1]<=thneg:
            return (False,rt,evidence)
        evidence.append(evidence[-1]+random.gauss(mu,sigma))
        rt+=1

Evidence zbiera evidenciu, kedže na tú to sa chceme následne pozrieť:

random.seed(2)
thpos=20
thneg=-10
mu=0.1
sigma=1
m=200

resp,rt,ev=diffusionModel(thpos,thneg,mu,sigma,m)
plt.close()
t=range(m,m+len(ev))
plt.plot([t[0],t[-1]],[thpos,thpos])
plt.plot([t[0],t[-1]],[thneg,thneg])
plt.plot(t,ev)
plt.ylim([thneg-1,thpos+1])
plt.ylabel('Evidencia')
plt.xlabel(u'Čas [ms]')
plt.legend([u'pozitívny prah',u'negatívny prah'],loc=5)
plt.grid()
plt.show()

Negatívna evidencia prekročila negatívny prah a to napriek tomu, že \mu je pozitívne. Ak si zoberieme, že pozitívne \mu reflektuje prítomnosť stimulu, tak náš model vyprodukoval omyl (2.). Ak experiment opakujeme získame rozdelenie reakčných časov typické pre dáta z psychologických experimentov, pričom 89 % odpovedí v simulácii nižšie hlási stimulus.

random.seed(3)
pos=0
rts=[]
N=5000
for i in range(N):
    resp,rt,ev=diffusionModel(thpos,thneg,mu,sigma,m)
    rts.append(rt)
    if resp: pos+=1
print pos/float(N)
plt.figure()
plt.xlabel(u'Čas [ms]')
plt.hist(rts,100)

Busemeyer a Diederich optimalizujú parametre, aby zistili, čo je príčinou rozdielov v reakčných časoch medzi mladými a starými ľudmi. U staršich probandov (>60) sú reakčné časy celkovo pomalšie aj keď úspešnosť odpovedí sa nemení. Ako vysvetliť tento fenomén? Je možné, že u starších ľudí sú pomalšie motorické reakcie (vyššie m), alebo, že títo sú konzervatívnejší (vyššie \theta{+} a nižšie \theta{-}), alebo, že nedokážu už moc dobre diskriminovať stimulus (nižšia citlivosť d). Autori optimalizovali parametre difúzneho modelu pre mladých a starých probandov. Vekové skupiny sa líšili v rýchlosti motorických reakcii a v senzorickej citlivosti. Nelíšili sa však v konzervatívnosti.Táto aplikácia difúzneho modelu ilustruje užitočnosť komputačného modelovania.

Piata kapitola sa zaoberá kvantitatívnym porovnaním modelov. Hodnoty indikátorov optimality G^2, \chi^2, R^2 sú samy o sebe bezvýznamné a majú výpovednú hodnotu len ak porovnávame viaceré modely. Vyššie uvedené indexy je takisto možné použiť len ak je jeden model zovšeobecnením druhého (napr. tým, že obsahuje dodatočný parameter). V opačnom prípade sa musíme obrátiť na indexy optimality ako sú BIC, AIC, poprípade použiť krížovú validáciu. Autori ilustrujú tieto techniky na predpovediach troch konkurenčných modelov. Tieto modelujú výkon zdravých probandov a probandov s orbitofrontálnym poškodením mozgu v Iowa Gambling Task. Techniky pre kvantitatívne porovnanie umožnili autorom vybrať najlepší z troch modelov, a to napriek tomu, že sa modely líšia v komplexite a v počte parametrov.

V poslednej kapitole sa autori zaoberajú hierarchickými bayesiánskymi metódami. Tieto umožňujú súčasne modelovať efekty na individuálnej ale aj agregovanej úrovni. Autori poskytujú krátky úvod do bayesiánskej štatistiky. Ukazujú ako hierarchický model definovať a ako optimalizovať jeho parametre pomocou Gibbsovho vzorkovacieho algoritmu. Bayesiánskym hierarchickým modelom sa ešte budem venovať v ďalších článkoch.

Moje hodnotenie

Myslím, že autorom sa celkom dobre podarilo identifikovať obsahy a témy. Tieto sú typické pre psychológiu a na rozdiel od špecializovaných kníh o neurónových sietiach a bayesiánsky metódach sú dosť všeobecné na to, aby boli zaujímavé pre všetkých. Nie som si celkom istý pedagogickou hodnotou knihy. Ťažko si viem predstaviť, že by niekto vedel, len na základe knihy spomenuté modely aj implementovať. Kniha obsahuje dva-tri útržky kódu v Matlabe, no aby bola prezentácia efektívna musela by kniha celoplošne obsahovať kód plus programovacie úlohy, na ktorých by si čitateľ vyskúšal prezentované koncepty. Kniha v tomto ohľade zostala na pol ceste. Snaží sa v zdĺhavých apendixoch prezentovať detaily daných techník, avšak ostáva len pri matematickej expozícii. Čitateľ je tak dobre zásobený matematickými formulami, ale na jednej strane chýba mu implementačná stránka veci. Na druhej strane mu chýba konceptuálna stránka. Techniky ako Levenberg-Marquardt alebo Gibbs vzorkovanie sú prejdené šprintom. Nie som si istý, čo si čitateľ z ich diskusie odnesie. Knihu by som teda skrátil o matematické prílohy alebo rozšíril prílohy o implementácie a pridal ku kapitolám úlohy. Kniha by takisto potrebovala omnoho viac obrázkov a grafov. Tieto umožňujú rýchlo a kompaktne prezentovať komplikované koncepty a sú neodbytnou súčasťou modelovania a komplexných analýz.

Cognitive Modeling od Busemeyera a Diederichovej je prvým vítaným príspevkom, avšak než sa dočkáme solídnej učebnice kognitívneho modelovanie nejaký čas ešte uplynie.

Busemeyer, J. & Diederich, A. (2010). Cognitive Modeling. Sage Publications, London: UK.

Jerry Fodor: Modularita Mysle

Prečo Matúš číta Fodora?

Pri mojich urputných diskusiách o filozofii došla reč aj na to, že ja sa vlastne do filozofie nerozumiem. Znalosti filozofie sa v konečnom dôsledku týkajú prečítanej primárnej literatúry, čím sa dostávame k otázke koľko z tej filozofickej literatúry som naozaj videl. Nasleduje môj krátky výpočet.

Skôr než som ušiel zo slovenska, bol hlavným mojim neinternetovým zdrojom literatúry Bratislavský Goethe Inštitút, ktorého knižnica ponúkala celý jeden regál s knižkami (nemeckej) filozofie. Bolo to už dávno, ale pamätám si, že som prečítal Wittgensteina, skoré Schoppenhauerove spisy a Kantovu KČR som nedočítal. Z Wittgensteina a Kanta si nič nepamätám. Kant mi pripomínal kabalistické texty. Sto percent interpretácia a nulový obsah. Schoppenhauer sa mi páčil. Medzi textami bola jedna nakladačka Hegelovi a takisto diskusia Goetheho vedeckých spisov o optickom vnímaní.  Nietzscheho som dostal od môjho nemeckého kolegu na výmennom pobyte. (Dotyčný mal ako 16 ročný hobby v zbieraní Nietzscheho kníh.) Nietzsche (Also sprach Zarathustra) sa mi páčil tiež. Samozrejme išlo skôr o estetickú stránku veci. Ako Shakespeara a Huma v angličtine aj Goetheho a Nietzscheho je radosť čítať v nemčine.

V Mníchove sa mi dostalo hneď v prvom semestri silnej dávky filozofie. Na jednej strane od Norberta Bischofa, ktorý svojrázne tematizoval hlavné filozofické problémy. Na druhej strane náš dekan Dieter Frey bol veľkým fanúšikom Poppera, takže sme si v rámci úvodnej sérii prednášok museli prejsť filozofiu vedy do posledného Lakatosa. V neskorších semestroch som si trúfol na filozofiu mysle. Avšak nemal som šťastnú ruku. Vybral som si The Self and its Brain od Poppera + Ecclesa (lebo Popper) a Chalmersovu Conscious Mind. Cieľom týchto kníh je otráviť a unudiť začínajúceho a nadšeného študenta, tak aby sa dotyčný prestal zaujímať o empirické riešenie zaujímavých problémov. Inak si ich obsah neviem vysvetliť. Tým filozofia a obzvlášť filozofia mysle u mňa skončila. (Samozrejme čítal som aj kopu vecí od Dennetta a takisto “filozofov” Chemerovho razenia ale týchto z pochopiteľných dôvodov k filozofii neradím.)

Diagnóza môjho výpočtu bola, že som nič z tej zaujímavej filozofie neprečítal. Terapiou mala byť Modularita mysle od Jerryho Fodora. Uff.

Zoznámte sa s Jerrym

Jerry Fodor is my favorite philosopher.
I think that Jerry Fodor is wrong about nearly everything.
Tony Chemero (2009, s. ix)

Most philosophers are like old beds: you jump on them and they sink deep into qualifications, revisions, addenda. But Fodor is like a trampoline: you jump on him and he springs back, presenting claims twice as trenchant and outrageous. If some of us can see further, it’s from jumping on Jerry. Daniel Dennet (Loewer & Rey, 1991, s. xi)

Jerry Fodor je najväčším trolom v akadémii akého poznám. R. A. Fischer mu nesiaha ani po kotníky. Veď posúďte Jerryho hviezdnu kariéru. Najprv Jerry ukázal, že ekologická psychológia nemôže fungovať (Fodor a Pylyshyn, 1981). Potom Jerry vyvrátil konekcionizmus (Fodor a Pylyshyn, 1988). Ako ďalšie to schytali kognitívne vedy (Fodor, 1998) a evolučná psychológia (Fodor, 2000). No a pred dvoma rokmi dostala od Jerryho nakladačku Darwinova evolučná teória (Fodor, 2010). Určite si viete predstaviť, že Jerryho nie všetci berú vážne. Moje diagnostikovanie prebehlo ešte v čase, keď Jerryho posledná kniha nebola vonku a tak som sa odhodlal dať filozofii ďalšiu šancu. Tento článok tvorí recenzia Fodorovej knihy Modularita mysle (Fodor, 1983) a zároveň má byť reflexiou jeho diela, keďže už ďalšie knihy od neho čítať neplánujem.

Myslím, že ak chceme pochopiť Fodorove myšlienky a jeho intelektuálne motivácie, najlepšie bude ak sa vrátime k aspektom redukcionizmu, ktoré som spomenul v predchádzajúcom článku. Reprodukujem na tomto mieste grafiku, s ktorou som článok uzavrel.

Myslím, že Fodor ako zástanca komputacionalizmu – a v tomto je s Chomskym na jednej lodi, nemá problém akceptovať kvantitatívnu redukciu. Akurát výsledkom tejto redukcie nemajú byť ad-hoc heuristiky, skripty alebo komplexné blokové diagramy ale jednoduché a esteticky uspokojívé univerzálne zákony po vzore fyziky. Myslím, že toto je dobre vidieť na niektorých tvrdeniach Chomského a Fodora. Napríklad Dennett popisuje konferenciu o perspektívach umelej inteligencie, ktorá sa konala koncom 70. rokov na Tuffts University. Roger Schank a Terry Winograd obhajovali AI. Chomsky a Fodor boli rázne proti:

It began as a straightforward, “first principles” condemnation of conceptual error—Schank was on one fool’s errand or another—but it ended with a striking concession from Chomsky: it just might turn out, as Schank thought, that the human capacity to comprehend conversation (and more generally, to think) was to be explained in terms of the interaction of hundreds or thousands of jerry-built gizmos—pseudo-representations, one might call them—but that would be a shame, for then psychology would prove in the end not to be “interesting.” There were only two interesting possibilities, in Chomsky’s mind: psychology could turn out to be “like physics”—its regularities explainable as the consequences of a few deep, elegant, inexorable laws—or psychology could turn out to be utterly lacking in laws—in which case the only way to study or expound psychology would be the novelist’s way. (Dennett, 1998; pp.276)

Tento prístup vidieť aj u Fodora v rozhovore so Elliottom Soberom. Sober tu paroduje Jerryho argumenty proti evolúcii na príklade Newtonových zákonov. Tieto sú však podľa Fodora v poriadku. Z rozhovoru je jasné, že Fodor používa estetickú heuristiku, ktorú evolúcia nespĺňa, a naopak funkcionalistickú heuristiku odmieta, keďže táto produkuje len “jerry-built gizmos” a pseudoreprezentácie. Dennett nazýva tieto dve metafory myseľ-ako-kryštáľ a myseľ-ako-prístroj. Tak ako kryštáľ aj psychologické zákony sa musia podľa Chomskeho a Fodora vyznačovať symetriou a jednoduchosťou. Fodor a Chomsky si zrejme sľubovali, že sa podarí v mozgu odhaliť niečo ako programovací jazyk, ktorý zodpovedá semantike nášho jazyka (teda logické programovanie, alebo aspoň inštrukcie pre Turingov stroj, rozhodne nie žiadne paralelné siete neurónov ako je tomu v mozgu). Tým, že sa táto vízia z pochopiteľných dôvodov nenaplnila ostala dotyčným len možnosť hrať mysteriánsku kartu (novelistický prístup) a kritizovať všetko, čo propaguje myseľ-ako-prístroj. Treba dodať, že Fodor bol v tomto ohľade veľmi konzekventný a produktívny.

Modularita Mysle

Fodorova Modularita Mysle zohľadňuje tieto východiská. Tradičné rozdelenie mechanizmov v psychológii by vyzeralo asi nasledovne – vnímanie, pozornosť, pamäť, motivácia, emócie, učenie, myslenie, exekutívne funkcie a motorika. Fodor nazýva tieto horizontálnymi schopnosťami. Predstavujú pre neho niečo ako hardware a nezaujímajú ho. Fodor navrhuje po vzore frenológov vertikálne rozdelenie, kde schopnosti zodpovedajú špecifickým doménam – jazyk, vizuálne vnímanie, auditívne vnímanie, rozoznávanie ľudských tvárí, a neskôr pribral aj teóriu mysle (teda folkovú psychológiu). Spomenuté domény tvoria vstupné “filtre”, ktoré spracovávajú vnemy a posúvajú svoje výsledky na centrálne spracovanie. Centrálne spracovanie je terminus technicus, a to je, kde sídli Fodorov kryštál, takže ruky preč, vy hnusní redukcionisti! Každopádne inžinierovanie vstupných systémov je pre Fodorovu víziu neškodné a kniha sa tak venuje hlavne im.

Vstupné mechanizmy, okrem toho, že sú špecializované na určité domény majú ďalšie zaujímavé vlastnosti, ktoré ich vymedzujú voči reflexom a centrálnym procesom. V prvom rade vstupné procesy sú inferenčné. Vstupné procesy teda signál spracovávajú. Fodor ich kontrastuje s tyčinkami a čapíkmi, ktoré signál iba menia z jednej formy reprezentácie (vlnová dĺžka svetla) na druhú (frekvencia vzruchov neurónu), ale samotný obsah signálu zostáva. V tomto ohľade sa vstupné mechanizmy líšia od reflexov, ktoré žiadnu inferenciu nevykonávajú. Tým sa Fodor vyhradzuje proti Ekologickej psychológii. V iných ohľadoch sa však vstupné systémy na reflexy podobajú. Tak ako reflexy sú aj vstupné systémy podľa Fodora špecializované, rýchle, naštartované vstupnou informáciou a nezávislé od minulých vedomostí. Ich spracovávanie je nemenné, povinné a automatické. Moduly sú vrodené a v mozgu naviazané na určitý neurálny “substrát”. Systémy, ktoré spĺňajú tieto vlastnosti nazýva Fodor modulmi. Vstupné procesy sú teda podľa Fodora modulárne.

Problémom centrálnych procesov je, že tieto musia vybrať relevantné informácie, ktorá bude ďalej spracovaná, aby sa nám podarilo napr. zbadať predátora. Centrálne spracovanie zvažuje každú informáciu, od tej auditívnej, minulých skúseností až po stav žalúdka. Vydestilovanie a nájdenie relevantnej informácie je preto pomalé. Pomalé živočíchy sú často vyhynuté živočíchy. Príroda preto vytvorila moduly, ktoré sa špecializujú na určité dôležité úkony tým, že apriori ignorujú určité informácie, čo im umožňuje rýchle dospieť k výsledkom.

Ako príklad poslúži Müller-Lyer ilúzia. Aj keď viem, že nižšie znázornené horizontálne čiary sú rovnaké, stále ich vnímam ako odlišné.

Je tomu tak, preto, že dĺžku hrán určuje modul len na základe vizuálnej informácie doručenej zdola cez zmysli. Tento modul je izolovaný voči naším vedomostiam a zámerom zhora. Ilúziu nemôžeme potlačiť. Nanajvýš môžeme zavrieť oči, čím zrušíme vnem, tým, že modulu odopriete vstup, ktorý ho aktivuje. Vnímanie dĺžky je vďaka modularite systému rýchle avšak neflexibilné. Vo väčšine prípadov, ale moduly fungujú správne. Ilúzie tvoria výnimky potvrdzujúce pravidlo. Naopak pripustiť vplyv z hora môže byť nebezpečné. Vnímanie má byť veridikálne a teda chceme, aby organizmy nehalucinovali aspekty prostredia na základe svojej predpojatosti a ľubovôle.

V poslednej kapitole sa Fodor venuje centrálnym procesom. Tieto podľa neho musia zohľadniť všetky dostupné informácie, či už výstupy modulov alebo minulé poznatky. Tým sú centrálne procesy nedeliteľné. Keďže rozdelenie je jediný spôsob ako fenomény redukcionisticky preskúmať, Fodor pochybuje, že sa nám centrálne procesy podarí niekedy vysvetliť. Fodor pritom poukazuje, že za pár desaťročí práce kognitívnych vedcov sme zistili veľa o tom ako jazyk alebo vnímanie fungujú avšak v oblasti ľudského riešenia problémov alebo myslenia sme nedosiahli žiadny pokrok. Fodor prirovnáva centrálne procesy k procesu výberu vedeckých hypotéz a vedeckým objavom. Odvoláva sa pritom na filozofiu vedy, podľa ktorej je výber hypotéz metafyzickou záhadou. Tým sú centrálne procesy zachránené a vedec sa môže ísť piplať vo výskume detailov vstupných systémov.

Komentáre a Kritika

Fodor poskytol súhrn knihy pre BBS do diskusie. Fodor krátko zhrnul, čo bolo podľa neho nosnou myšlienkou jeho monografu. Fodor sa sympaticky snaží na konci textu ujasniť, ako by bolo možné empiricky určiť, či sa v prípade daného systému jedná o modul a tým overiť užitočnosť svojho konceptu modularity:

  1. Aby systém nebol modulárny, experiment by musel preukázať, že informácia zvonka modulu, ktorá nie je jeho vstupom ani súčasťou jeho izolovanej databázy má vplyv na jeho fungovanie.
  2. Lokus tohoto vplyvu musí byť na úrovni vstupov a nie pri neskoršom spracovaní signálu, napríklad u centrálnych procesov alebo výstupnom rozhodovaní.
  3. Demonštrácia sa musí týkať ekologických problémov a stimulov (a nie rôznych ochudobnených stimulov alebo problémov, ktoré boli výdatne trénované).

Komentáre k Fodorovmu článku boli prevažne od psychológov, linguistov a neurovedcov. Pridalo sa aj zopár výskumníkov AI. Filozofov v diskusii nenájdete a tak sa, k Fodorovej nevôli rozoberala hlavne empirická stránka veci. Nálady v diskusii dobre zhŕňa nasledujúci popis od Forstera ako vedci vnímajú Fodorovu prácu s evidenciou:

Fodor first considers what the nature of the language processor must be like on the basis of rational considerations, and then he considers whether there is any absolutely compelling evidence to the contrary. Finding none, he then selects evidence that is broadly compatible with his view and uses it essentially for illustrative purposes. I know this description will infuriate many experimental psychologists,who will sense that Fodor is more interested in the issues than in the facts. (Fodor, 1985, s.9)

Netuším čo si mám myslieť o Fodorovej odpovedi:

I plead guilty to the charge that Forster anticipates: I am more interested in the issues than in the facts. Facts, in my experience, are ephemeral and change with the changing fashions. But issues are forever. (Fodor, 1985, s. 34)

Z viacerých komentárov k Fodorovmu súhrnu je jasné, že určiť či je niečo modul alebo nie, je ťažké až nemožné. Tradične meriame v psychológii reakcie probandov na určité stimuli. Izolovať pomocou behaviorálnych experimentov, čo sa deje medzi stimulom a reakciou je takmer nemožné. Týmto je aj takmer nemožné identifikovať vplyv centrálnych informácii na vstupné moduly. Ako evidencia proti modulu môže napríklad slúžiť experiment, v ktorom vám je ukázaná fotka ľudskej tváre a následne musíte identifikovať nasledujúcu kontúru:

Predchádzajúci obrázok ovplyvní vnímanie kontúry, tak že uvidíte dve tváre (namiesto vázy). Znamená to, že vnímanie kontúr nie je modulárne? Alternatívne môžu modularisti tvrdiť, že kontúrový modul má vlastnú pamäť, v ktorej ukladá predchádzajúce kontúry. Táto lokálna pamäť vplýva následne na vnem dvoch tvárí. Môžeme však vylepšiť experiment a proband dostane tip verbálne (teda počuje “tvár”). Keďže fungovanie modulu musí byť doménovo špecifické, kontúrový modul nemôže lokálne reprezentovať verbálny materiál. Efekt takejto predchádzajúcej skúsenosti sa však dá ošetriť, aby bol modulokonzistentný. Modul spracováva kontúry a výsledok posúva centrálnym procesom. Modul v danom prípade registruje obe možnosti – tvár a váza a centrálne procesy na základe minulých vedomostí vyberú, ktorá z týchto dvoch interpretácii je pravdepodobnejšia a dostane sa do vedomia .

Falzifikovať modul však nie je úplne nemožné. Ak poznáme napríklad rýchlostnú charakteristiku modulu a centrálnych procesov, tak môžeme preukázať, že vplyv zhora sa naozaj týka fungovania modulu. Napríklad na premiestnenie pozornosti vplývajú dva procesy. Jeden je automatický a modulárny a presúva pozornosť do oblastí s vysokým kontrastom, s nerovnosťami a zaujímavými optickými vlastnosťami. Tento mechanizmus využíva napríklad blikajúci kontrastuplný internetový adsense s polonahými ženami, ktorý sa snaží získať vašu pozornosť. Druhý proces je vedomý a ovládaný vôľou, ako napríklad keď premiestnim svoj pohľad od textu k záložke vo Firefoxe, aby som sa preklikol. Automatické presuny pozornosti sú rýchlejšie ako tie voluntárne.Týmto spôsobom je možné zistiť, že napríklad študenti americkej histórie automaticky zameriavajú iné oblasti obrázkov ako inžinieri a to ak sa jedná o obrázky z domény, v ktorej sa vyznajú (zbrane z obdobia americkej občianskej vojny, nákresy prístrojov). Tuto sa snaží zasiahnúť tretí Fodorov bod a vylúčiť trénovaných probandov. Avšak popísaný efekt možno demonštrovať aj po krátkej familiarizácii so špeciálnym materiálom a žiadne dlhodobé štúdium nie je potrebné (Humreys a Underwood, 2009). Tieto efekty nie sú ojedinelé a top-down vplyvy sú témou v podstate u všetkých vizuálnych a nielen vizuálnych mechanizmov.

Ďalším zdrojom evidencie sú duálne úlohy. V týchto musí proband paralelne riešiť dve úlohy, ktoré sú nezávislé a prislúchajú dvom odlišným doménam a teda modulom. Teoreticky, by mali byť tieto úlohy spracované modulmi paralelne bez akýchkoľvek dodatočných časových strát. Prakticky takmer pri všetkých úlohách dochádza k interefenciám, pričom niekedy sú dané úlohy spracované serializovane za sebou pričom celková doba riešenie je súčtom dôb riešenia individuálnych úloh. Aj tu má však Fodor výhovorku. A síce moduly potrebujú určité zdroje ako je pracovná pamäť alebo exekutívne funkcie. Keď dva moduly pracujú paralelne môže sa stať, že dôjde k prečerpaniu týchto zdrojov tak, že moduly nemôžu pracovať na plný výkon. Na vine je teda obmedzená pamäťová hardware.

Fodor používa svoj hardwarový argument proti duálnym úlohám aj v ďalšej oblasti, ktorá vyvracia jeho tvrdenia, že moduly sú vrodené – a to vo vývinovej psychológii (Karmillof-Smith, 1992; Elman et al., 1996). Ak sa pozrieme na Fodorove modulárne domény z vývinového hľadiska tak evidenciu pre ich fungovanie nájdeme až od určitého veku, nikdy nie hneď po narodení (výnimku tvorí zrejme schopnosť rozoznať tváre). Aj v tomto prípade Fodor tvrdí, že čo kojencom chýba je správna hardware – exekutívne funkcie, pamäť alebo motorika (Fodor, 1992). Software, a teda Fodorove vrodené moduly sú prítomné už od začiatku akurát nemôžu fungovať kvôli chýbajúcej hardware. Priznám sa, že tento argument mi pripadá asi tak zmysluplný, akože matka príroda išla do obchodu a kúpila najnovší software (Windows 7, Photoshop, Matlab…) no po príchode domov zistila – och aké prekvapenie , že daný software na svojej archaickej 386ke naozaj nerozbehá. Počas nasledujúcich rokov upgradeovala postupne hardware a software postupne spojazdnila. Zmysluplnou alternatívou je, že software a teda moduly a reprezentácie sa vyvíjajú rovnako ako hardware. To je pre Fodora katastrofou. Podľa neho je totiž fungovanie centrálnych procesov ale aj modulov nedeliteľné a nemôže sa vyvíjať. Fodorova pozícia je v tomto zmysle antivývinová, pričom ako je už dnes jasné vývin je z Fodorovho hľadiska problematický rovnako v prípade fylogenézy ako aj ontogenézy. (Ďalšiu možnosť ako vysvetliť neskorší vývin schopností poskytuje mechanizmus maturácie, tento je však empiricky overiteľný a vyžaduje ďalšiu evidenciu, čo samozrejme Fodorovi nevyhovuje.)

Ďalšou problematickým aspektom sú neurálne koreláty modulov v mozgu. Môžeme skúsiť overiť, či sa v danej doméne jedná alebo nejedná o modul. Ak viem, určiť aktiváciu modulu pomocou EEG vĺn alebo cez BOLD efekt v fMRI skeneri, tak sa môžem pýtať, či je táto aktivácia modulovaná vplyvmi zhora. Problémom, je že kde je lokalizovaný modul zisťujeme na základe dát. Evidenciu proti modulu môžeme interpretovať ako že modul neexistuje ale aj ako, že neuronálny korelát nebol vybraný správne.

Keď Fodor písal knihu tak boli k dispozícii dáta z pozorovaní porúch u neuropsychologických pacientov a z experimentov na opiciach. Napríklad afázie (kortikálne podmienené poruchy reči) boli pozorované pri poškodeniach ľavého temporálneho laloku, a teda táto oblasť reprezentuje rečový modul. Medzičasom technika pokročila a štúdie so skenermi viedli k ľahkovážnemu rozmnožovaniu modulov. Väčšina týchto modulárnych teórii nezodpovedá Fodorovej definícii a tak je pre našu diskusiu irelevantná. Ak niečo výsledky z neurovied ukázali, tak že izolácia a vrodenosť modulov v mozgu neexistuje. V mozgu je prakticky spojené všetko so všetkým a mozog vykazuje vysokú plasticitu. Aj vysoko štrukturované a modulárne areály ako V1 sú výsledkom stimulácie a že by nejaká doménovo špecifická kortikálna štruktúra bola geneticky podmienená je vysoko nepravdepodobné (Elman et al., 1996).

Historická hodnota Fodorovho konceptu modularity

Dobre, čiže Fodorove predstavy o fungovaní mysle sú z pohľadu (dnešnej) evidencie na nič. Ale Fodorove predstavy stimulovali výskum a teoretizovanie a boli a sú v tomto ohľade užitočné a dôležite. Nie je tak?

V prvom rade Fodor neprišiel s ničím novým. Fodor zhrnul konvergujúce koncepcie modularity z výskumu jazyka a vizuálnych mechanizmov, pridal zopár svojich ekcentrických predstáv, zovšeobecnil to na celú myseľ a vytesal do kameňa. Vo vizuálnom výskume boli Fodorovi inšpiráciou jeho AI kolegovia David Marr a Shimon Ullman z MIT. Marr a Ullman chápali modularitu z informatického hľadiska. Ak pracujete na veľkom softvérovom projekte, potrebujete rozhodiť úlohy medzi programátorov. Najjednoduchšie je dať rozličný programátorom paralelne programovať rozličné funkcie. Títo dostanú špecifikáciu danej funkcie, ktorá určuje formát vstupných a výstupných dát a čo má daná funkcia robiť. Konkrétna implementácia je prenechaná samotnému programátorovi a tvorí čiernu skrinku. To je praktické lebo ostatným programátorom na to, aby použili jeho funkciu stačí poznať špecifikáciu, ktorá je dopredu daná a tak môžu paralelne písať kód, ktorý špecifikovanú funkciu využíva. V ideálnom prípade, keď sú všetci hotoví a zapoja všetky svoje funkcie dokopy systém bude bezchybne fungovať.

Ak sa teda snažíme rozdeliť úlohy pri inžinierovaní ľudského vnímania, môžeme postupovať podobne a jeden vedec pracuje na vnímaní kontúr, druhý na vnímaní textúr a.t.ď. Samozrejme tento spôsob akým si my uľahčíme inžinierovanie vnímania nemusí zodpovedať spôsobu, ktorý použila príroda pri jeho zostavovaní. Vskutku zrejme nezodpovedá. Napriek tomu sa dá povedať, že modulárny prístup v prípade vizuálneho vnímania bol historicky produktívny, aj keď modularita je v tomto prípade chápaná vôlnejšie ako u Fodora.

Problematický je však ďalší aspekt Marrovej modularity, ktorý Fodor prebral. Ním je delenie na vstupné, centrálne a poprípade výstupné systémy (rozhodovanie, motorika). Len vstupné systémy môžu byť modulárne. Alternatívne si môžeme predstaviť, že modularita zahŕňa izolované prúdy od vstupov cez centrálne procesy až po výstupy. Nemusí sa pritom jednať o reflexy. Tieto procesy môžu vykonávať komplikované spracovávanie informácii. Prípady takýchto vizuomotorických modulov sú typické pre zvieratá. Napríklad, keď žabe preletí zrakovým poľom objekt správnej veľkosti a správnej rýchlosti tak žaba po ňom jazykom chňapne (Lettvin et al., 1959). Toto správanie je modularizované od vstupu po výstup (žaba musí chňapnúť) a pri tom nie je reflexívne, keďže detektor inferuje, či komplexné vlastnosti objektu zodpovedajú letovým vlastnostiam hmyzu.

Vskutku Milner a Goodale (1995) postulovali, že ľudská myseľ pozostáva z dvoch takých paralelných a viac menej izolovaných prúdov. Jeden je vedomý, explicitný a sprostredkuje reprezentácie pre pamäť. Druhý je nevedomý, implicitný a sprostredkuje informácie pre motoriku. Tieto prúdy sa líšia práve na základe výstupov (pamäť/vedomie vs. motorika). Dôvodom odlišného spracovávanie je že pamäť a motorika sledujú odlišné ciele. Pamäť potrebuje reprezentácie, ktoré sú konštantné naprieč časom a kontextom. Motorika potrebuje reprezentácie, ktoré sú konštantné tu a teraz. Paralelné fungovanie týchto dvoch prúdov sa dá ilustrovať na nasledujúcej ilúzii.

Stredné kruhy sú rovnako veľké aj keď stredový kruh vľavo vnímamé menší ako stredový kruh vpravo. Kruhy v okolí poskytujú dôležitú kontextuálnu informáciu o distálnej veľkosti objektu. Kontext nám umožňuje zohľadniť vzdialenosť kruhov a teda ich skutočnú veľkosť. Vtip je v tom, že ak použijete miesto stredového kruhu mincu a poviete probandom aby sa po minci načiahol tak vzdialenosť prstov natiahnutej ruky netrpí ilúziou a je rovnaká pri oboch kontextoch.

Milnerova a Goodalova predstava je stále kontroverzná. Pre nás však stačí skonštatovať, že existuje dôležitá koncepcia modularity, ktorú Marr a Fodor zo svojho teoretizovania vytesnali. Milner a Goodale zhŕňajú ich vplyv v predslove k ich knihe:

 Many workers in the field have found it useful to invoke notions of ‘modularity’ when discussing the organization of the visual system, […] the many different processes involved in transforming the ‘raw’ visual image are typically regarded as part of a single monolithic system dedicated to delivering a unified percept of the visual world. While this approach to vision has not prevented considerable advances at both empirical and theoretical levels, it has concentrated almost entirely on the input side of visual processing and has virtually ignored the ultimate function of vision and the visual system, namely to ensure an effective and adaptive behavioral output. (Milner & Goodale, 1992, s. 5-6)

Snaha apriori vytesnať a odpísať určité výskumné prístupy ako to vidieť (nielen) pri Fodorovej modularite musí v konečnom dôsledku vychádzať z nejakého “hegeliánskeho” argumentu, ako ich popisuje Chemero. Takáto snaha je v lepšom prípade ignorovaná. Tak sa stalo pri Fodorovej predstave, že výskum centrálnych procesov je odsúdený na neúspech. Nesúhlas s touto defétistickou a mysteriánskou predstavou dali rázne najavo už komentátori v BBS. V horšom prípade vedie propagácia takýchto názorov k ignorovaniu zaujímavých teoretických pozícii, ktoré by viedli k prevedeniu dôležitých experimentov. Myslím, že ako poukazujú Milner a Goodale, tak sa stalo v prípade vizuomotorických modulov a aj keď Fodorov podiel viny ťažko presne určiť, pochvalu si Fodor určite nezaslúži.

Evolučná psychológia

Fodor zobral predstavu modularity od linguistov a výskumníkov vizuálneho vnímania a použil ju ako všeobecný princíp architektúry ľudskej mysle. Tento nápad prevzala aj evolučná psychológia a zástancovia jadrovej kognície (core cognition) medzi vývinovými psychológmi. Na tomto mieste sa venujem len evolučnej psychológii.

Ak odmietnete Fodorov pesimizmus ohľadom centrálnych procesov, jednou alternatívou je postulovať, že aj centrálne procesy sú modulárne. Tak spravili evoluční psychológovia a postulovali masívnu modularitu. Okrem Fodorových perceptuálnych a lingustických modulov, získame modul pre odhalenie podvodníkov, pre zbadanie predátora alebo pre výber jedla. Ľudská myseľ je ako švajčiarsky nožík so širokým výberom vysoko špecializovaných nástrojov. Evoluční psychológovia pritom zdedili niekoľko problematických predstáv od Fodora. V zásade akceptovali Fodorov problematický argument, že centrálne procesy sú záhada ak sú holistické a nedeliteľné na moduly. Dokonca túto predstavy využívajú ako argument pre silnú modularitu: P1. Ak sú centrálne procesy holistické a nedeliteľné, tak ich nemohla evolúcia poskladať, lebo táto pracuje len iteratívne. P2. Ľudská myseľ je produktom evolúcie. Záver: Centrálne procesy musia byť deliteľné a modulárne. (Porovnaj s Fodorovou obrátenou argumentáciou: P2. Centrálne procesy sú holistické. Záver: Ľudská myseľ nie je produktom evolúcie).

Ako som spomenul predstava modularity nie je neznáma neurobiológom a etológom. U živočíchov však nájdeme hlavne vizuomotorické moduly. Napriek tomu, že Evoluční psychológovia vyhodili Fodorov kryštál z architektúry mysle zabudli vstupy a výstupy pospájať (viď obrázok vyššie). Toto možno vnímať ako skrytý antropocentrizmus, najskôr však ide o Danajský dar Fodorovej modularity. Rozhodnutie nepospájať vstupy a výstupy má aj praktickú stránku. Ak chcete skúmať vizuomotorické moduly musíte si dobre premyslieť, pomocou ktorých výstupov chcete skúmať ľudské správanie. Evopsychológovia však nemajú nástroje na to aby skúmali tých ekologicky najpravdepodobnejších výstupných kandidátov – t.j. rýchle podvedomé motorické reakcie alebo hormonálnu činnosť. Vďaka ich koncepcii modularity je však možné skúmať hociaký vstupný modul pomocou hociakého výstupu. To je praktické. Takto evolučným psychológom nestojí nič v ceste aby vyskúmali celú modulárnu architektúru ľudskej mysle pomocou dotazníkov a variácii Wasonovho testu.
Aj svojou predstavou modularity sa evolučná psychológia do veľkej miery izolovala od výskumu v etológii a biológii. Len zopakujem, čo som tvrdil už dávnejšie, že hlavným problémom evolučnej psychológie je, že sú intelektuálnymi dedičmi antidarwinistických nativistov ako sú Chomsky a Fodor. Fodorova modularita patrí tiež k tomuto dedičstvu.

Facit

Samozrejme určiť historický vplyv Fodorovej modularity je z časti odsúdené na špekulovanie o tom čo by bolo, keby bolo a ako by vyzeral výskum bez Fodora. Ja som sa snažil poukázať na to, že Fodorov vplyv bol z časti bezvýznamný (, keďže predstavy modularity už existovali, viz. Marr a vizuálne vnímanie), ignorovaný (nemožnosť centrálnych procesov) a negatívny (EvoPsy, vývinová psychológia a popr. presadzovanie vizuomotorických modulov).

Dennett v úvodnom citáte tvrdí, že Fodor, aj keď sa tento mýli, umožní nám konfrontácia s jeho omylmi vidieť ďalej. S týmto musím súhlasiť. Pri lektúre viacerých teoretikov (obzvlášť z východného pólu), je nezúčastnený študent konfrontovaný s úplne od veci predstavami a ad-hoc premisami, ktorých pôvod nie je známy, uvádzaný a zdá sa, že sú vnímané ako samozrejmé. Moja skúsenosť je, že tieto premisy pramenia niekde u Chomskeho alebo Fodora. Chomskeho a Fodorove publikované názory sú v tomto ohľade nápomocné. Nie preto, že by boli vedecky nápomocné alebo relevantné. Ale preto, že teoretizovanie kolegov z východného pólu je bez nich ťažko zrozumiteľné.

Na záver by som rád pridal moju reflexiu prečo bola a je Fodorova (resp. Marrova) predstava modularity taká atraktívna a populárna v kognitívnych vedách. Či už sa na to pozrieme z teoretickej alebo experimentálnej stránky, naša schopnosť teoretizovania a experimentovania je zoči voči komplexnosti ľudskej mysle značne obmedzená. Najjednoduchšie je, ak postulujeme, že myseľ pozostáva z navzájom nezávislých a izolovaných častí. Potom môžeme v danom experimente skúmať jazyk bez toho aby sme museli kontrolovať vplyvy kontextu, predchádzajúcich individuálnych skúseností, poradia stimulov a.t.ď. Z hľadiska experimentovania by sme museli pridať exponenciálne rastúci počet binárnych otázok a skupín probandov, ktoré by tieto šetrili. Z hľadiska teoretizovania tieto kontextuálne efekty ťažko popíšeme pomocou novelistického štýlu. Rozhodne by to nebol pekný príbeh. Tak ako si informatici zvolili modularitu ako inžiniersku stratégiu. Tak podľahli pokušeniu aj kognitívni vedci. Experimenty sú stavané tak, aby objavili modularitu. Kontextuálne efekty sú nezaujímavé. Modulárne výsledky sú novinka. Kontextuálne efekty sú štandard a nuda. Táto stratégia vedie k nárastu modulov, keď pre každé dáta vyhovujúce aspoň nejakému aspektu Fodorovej modularity je hneď postulovaný modul.

Dnes našťastie máme lepšie výpočtové a experimentálne metódy. Tieto nám umožňujú prešetriť a vyhodnotiť aj komplexné interakcie v dátach. Modularita sa tak stáva ako výskumná stratégia obsoletnou. Myslím, že z časti sa už tak deje a v budúcnosti modularita z psychologického teoretizovania vymizne a Fodor s jeho príbehom o kryštáloch, moduloch a ich informačnej promiskuite sa zaradí k ostatným rozprávkárom v dejinách predvedeckej psychológie ako boli Freud alebo James.

Literatúra

Dennett, D.(1998). Brainchildren. MIT Press. Cambridge, MA.

Elman, J. L., Bates, E. A., Johnson, M. H., Karmiloff-Smith, A., Parisi, D. & Plunkett, K. (1996) Rethinking innateness: A connectionist perspective on development. MIT Press.

Fodor, J., Pylyshyn, Z. (1981). How direct is visual perception? Some reflection on Gibson’s ‘ecological approach’, Cognition, 9, 139-196.

Fodor. J. (1983). The Modularity of Mind: An Essay on Faculty Psychology. MIT Press.

Fodor, J., Pylyshyn, Z. (1988). Connectionism and cognitive architecture, Cognition, Vol. 28, Nos. 1-2, pp.3-71.

Fodor, J. A. (1992). A theory of the child’s theory of mind. Cognition, 44, 283–296.

Fodor, J. (1998). Concepts: where Cognitive Science went wrong. The 1996 John Locke Lectures, Oxford University Press.

Fodor, J. (2000). The Mind doesn’t work that Way; the scope and limits of computational psychology. MIT Press.

Fodor J. a Piattelli-Palmarini, M. (2010). What Darwin Got Wrong. Farrar, Straus and Giroux.

Humphrey, K., & Underwood, G. (2009). Domain knowledge moderates the influence of visual saliency in scene recognition. British Journal of Psychology, 100, 377–398.

Karmiloff-Smith, A. (1992). Beyond Modularity. Cambridge, MA: MIT Press.

Lettvin, J., Maturana, H., McCulloch, W. & Pitts, W. (1959). What the frog’s eye tells the frog’s brain, Proceedings of the IRE, Vol. 47, No. 11.

My psychológovia používame prekogníciu celý čas!

Keď som sa už rozpísal o Brianovi Nosekovi, nesmiem nespomenúť jeho démonické alterego, Arinu Bones. Slečna Bonesová sa tiež odhodlala vyjadriť k súčasným kontroverziám okolo vedeckosti psychológie. Bonesová kritizuje publikáciu Bemovej štúdie (môj článok). Jej dôvodu sú však úplne iné ako tie doteraz publikované. Podľa Bonesovej je dobrým štandardom, že časopisy publikujú len nové a prelomové výsledky. Na Bemových výsledkoch nie nič nové ani prelomové. Psychológovia štandardne používajú prekogníciu úspešne pri predpovedaní výsledkov psychologického výskumu. Evidenciu poskytuje Fanelliho štúdia (článok na Mozgostrojoch), ktorá ukazuje, že 90 % hypotéz v psychologických štúdiách je dátami potvrdených. Bonesová navrhuje ušetriť si celý proces testovania hypotéz. Vedci budú namiesto výsledkov a analýz dát publikovať krátke abstrakty, kde len popíšu svoje hypotézy. Tým sa ušetria zdroje na empirický výskum a takisto publikačný priestor. Táto nová metóda výskumu by mala nahradiť prekonaný falzifikačný princíp (Popper). Ako ukazuje Fanelliho štúdia psychológovia sú jej priekopníkmi. Takisto Bonesová poukazuje na to, že tvrdenie, že nová prekognitívna metóda nahradí falzifikacionizmus je jej hypotézou, čo je veľmi silný argument pre jej platnosť. A ak ste tento argument nepochopili, tak si musíte prečítať tento blogpost znova od začiatku.

Článok od Bonesovej ponúka riadnu dávku satiry a zvrátenej argumentácie. Všetko je okorenené invtipmi pre rutinovaných psychológov. Článok sa určite zaradí medzi klasiky štýlu. Po boku ostatných prác od Bonesovej. :mrgreen:

Bones, A. (2012). We Knew the Future All Along : Scientific Hypothesizing is Much More Accurate Than Other Forms of Precognition − A Satire in One Part. Perspectives on Psychological Science, vol. 7 no. 3, 307-309

The Reproducibility Project

Minule som prezentoval pohľad Briana Noseka na peer review. Zaslúžilo by sa spomenúť aj Nosekov projekt Open science framework. Ide o internetovú platformu, ktorá umožňuje vedcom zdielať protokoly, materiály a výsledky experimentov. Má slúžiť pre štandardizáciu a archiváciu výskumných projektov, čo má zvýšiť možnosti replikácie publikovaných prác. Najzaujímavejšou súčasťou je hromadný replikačný projekt (OSC, 2012). Jeho cieľom je replikovať širokú vzorku publikovaných psychologických prác a tým získať odhad ich replikačnej pravdepodobnosti.

Súčasný publikačný systém motivuje výskumníkov prichádzať s novými nápadmi, experimentami a výsledkami. Naopak tento systém odrádza od snahy replikovať existujúce experimenty, keďže replikácie nikto nechce publikovať. Pritom replikácia je pre fungovanie vedy nevyhnutná. Takisto už existujúce pokusy o replikáciu nastavili vedcom ne pohľad do zrkadla. Napríklad v snahe o komerčné využitie medicínskych produktov farmaceutické spoločnosti overujú publikovaný výskum a v plnej miere sa podarí replikovať len 20-25 % štúdii (Prinz et al., 2011).

Replikačný projekt chce nastaviť zrkadlo psychologickému výskumu. Vybraných bolo 90 štúdii z časopisov JEP, JSPS a PsychScience z roku 2008. Replikačný projekt podporuje zhruba 80 výskumníkov, ktorí sa pokúsia dané štúdie replikovať. Projekt sa snaží o maximálnu transparentnosť a štandardizáciu replikačných štúdii a výsledných správ. Protokoly, materiály a správy budú sprístupnené na internete. Cieľom je empiricky zistiť pravdepodobnosť replikácie a v prípade mizerných výsledkov identifikovať príčiny.

Myslím, že ide o veľmi ambiciózny projekt a pokiaľ viem prvý svojho rozsahu naprieč vednými obormi. Na druhej strane mnohí psychológovia už šípia katastrofické výsledky. Tieto sa môžu stať argumentom pre premiestnenie finančných zdrojov do iných vedných oborov. Pritom v týchto oboroch ani nepoznáme pravdepodobnosť replikácie a môže byť rovnako mizerná ako v psychológii. Na druhej strane z pohľadu daňového poplatníka by boli mizerné výsledky určite legitímnym dôvodom pre zváženie financovania (psychologického) výskumu. Ak pravdepodobnosť replikácie výskumu je rovnaká ako u predpovedí astrológa, tak rovnako ako nechceme financovať astrológa, nechceme financovať ani mizerný výskum. Nateraz sú šance otvorené. Ja si netrúfam tipovať. Myslím, že replikačná pravdepodobnosť môže byť hocikde medzi 20-80 % publikovaných signifikantných efektov.

The Open Science Collaboration (2012). An Open, Big Science Effort to Estimate the Reproducibility of Psychological Science. Perspectives on Psychological Science, forthcoming.

Prinz, F., Schlange, T. & Asadullah, K. (2011). Believe it or not: how much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery, 10, 712-713.

Konekcionistický model vhľadu

V minulých článkoch som sa zaoberal výskumom vhľadu. Spomenul som aj niektoré teórie napríklad Ohlssonovu teóriu reprezentačnej zmeny. Étosom tohoto blogu je, že teoretizovanie v psychológii sa musí zmeniť a pokročiť od telenovel o zásobníkoch s reprezentáciami a ich informačnej promiskuite k formálnym matematickým modelom, ktorých komputačné implementácie simulujú dáta. Aj v prípade vhľadu nás v konečnom dôsledku zaujímajú komputačné modely. Zatiaľčo modelári v kognitívnych vedách sa výdatne zaoberajú riešením problémov, fenomén vhľadu ostal bokom. Za to zrejme vďačí svojej zdanlivej iracionalite a rázovitej dynamike. Rolu zrejme hrajú aj v minulých článkoch spomenuté ťažkosti s vytvorením spoľahlivých a ekologicky valídnych experimentov a získavaním dát. V posledných troch rokoch sa však objavili hneď tri nové modely, ktoré si postupne na tomto blogu prejdem.

Prvým je konekcionistický model od Helieho a Suna (2010). Tento vychádza z delenia reprezentácii na explicitné (vedomé) a implicitné (podvedomé). Pri riešení problémov explicitné a implicitné mechanizmy prispievajú k evolúcii reprezentácii tohoto systému až kým nedospejú k riešeniu. Pri problémoch vyžadujúcich vhľad dôjde k vyčerpaniu potenciálnych explicitných stratégii. Implicitné mechanizmy však fungujú naďalej aj počas fázy bezradnosti a po presiahnutí určitej hranice aktivujú explicitné mechanizmy. Riešenie, ktoré objavili implicitné mechanizmy sa stane vedomím a dochádza k vhľadu. Rázové zjavenie riešenia tak prebieha len na explicitnej úrovni, na implicitnej úrovni je hľadanie riešenia kontinuálne. Autori postulujú, že explicitné mechanizmy majú formu logických pravidiel. Implicitné mechanizmy sú naopak založené na podobnosti a asociácii rôznych reprezentácii v pamäti. Obidva mechanizmy pracujú paralelne a z časti aj nezávisle, čo môže viesť ku konfliktom alebo duplicite. Väčšinou však spolu interagujú, takže výsledky spracovávania informácii na jednej úrovni ovplyvňujú výsledky na druhej úrovni. Ak aktivácia týchto výsledkov na explicitnej úrovni prekročí určitú hranicu, premietne sa to do behaviorálneho rozhodnutia – reprezentovaná akcia je aplikovaná. Ak táto hranica prekročená nie je, proces riešenia problému pokračuje ďalej.

Z formálneho hľadiska vyzerá model nasledovne. Explicitný model je neurónová sieť pozostávajúca z rady vstupných a výstupných uzlov. Vstupné uzly väčšinou reprezentujú východiskovú problémovú situáciu. Výstupné uzly reprezentujú odpoveď. Tieto reprezentácie sú lokalistické. Napríklad ak mám obrázok na ktorom je kôň, traktor a tráva, tak nezapnem súčasne tri uzly pre koňa, traktor a trávu ale mám jeden uzol, ktorý reprezentuje celú situáciu a kôň + traktor + tráva, ktorý zapnem. Ostatné uzly reprezentujú všetky ostatné situácie (traktor+tráva, kôň+traktor, kôn sám, nič …). Zapnúť znamená, že daný uzol má hodnotu 1 a ak je vypnutý tak je na nule. V zásade sa hodnoty uzlov pohybujú v rozmedzí [0,1]. Uzly explicitného modelu majú logické spojenia, ktorých sila môže byť tiež 1 (spojenie existuje) alebo 0 (spojenie neexistuje). Dajme tomu, že úlohou probanda je zistiť, či na obrázku je zviera. Výstupné uzly sú zviera a žiadne zviera. Spojenia medzi vstupnými a výstupnými uzlami vyjadrujú vedomosti dotyčnej osoby. Keďže dotyčný vie, že kôň je zviera tak existujú spojenia zo všetkých vstupných uzlov ktoré zahŕňajú koňa k výstupnému uzlu zviera. Ak je teda aktivovaný konský uzol tak tento aktivuje aj ten zvierací. Formálne y_j = \sum_i v_{ij} x_i, kde y_j sú výstupné a x_i vstupné uzly a v_{ij} vyjadruje silu spojenia. Vo vyššie uvedenom príklade sumácia nemá moc veľký zmysel keďže pri lokalistickej reprezentácii, vždy len jeden vstupný uzol je aktivovaný a spojenie je logické (teda má hodnotu 1 alebo 0). Systém však prechádza viacerými iteráciami, počas ktorých sa aktivácia explicitných uzlov môže meniť.

Okrem explicitných uzlov používa systém aj implicitné uzly. Implicitná úroveň zodpovedá štruktúrou tej explicitnej. Obsahuje vstupné a výstupné uzly, ktoré sú navzájom spojené. Uzly na implicitnej úrovni sú aktivované neurónmi na explicitnej úrovni: z_j = \sum_i e_{ij} x_i a z_j = \sum_i f_{ij} y_i, pričom množiny uzlov z_k z_n sa neprelínajú. Explicitné lokalistické reprezentácie sú teda preložené do distribuovaných reprezentácii na implicitnej úrovni. Situácia kôň + traktor + tráva môže na implicitnej úrovni aktivovať viacej uzlov a naopak ten istý uzol môže byť aktivovaný rozličnými situáciami, pritom nie je dôležité ako konkrétne sú explicitné a implicitné uzly cez e_{ij} f_{ij} pospájané. Vskutku, na začiatku simulácie sú zvolené tieto spojenia náhodne. To isté platí pre spojenia medzi implicitnými uzlami, pričom tu sa nerozlišuje medzi vstupnými a výstupnými uzlami ale v zásade môže byť spojené všetko so všetkým: z^{t+1}_j= \sum_i f(w_{ij} z^t_i) . V tejto formulke sa na rozdiel od všetkých ostatných spojení vyskytuje funkcia f, ktorá prekladá kontinuálne reálne hodnoty do rozmedzia [-1,1] a zaručuje nelinearitu implicitného systému. Implicitná úroveň je teda tvorená nelineárnym dynamickým systémom, ktorý je aktivovaný explicitnými reprezentáciami. Následne implicitná sieť prejde sériou iterácii a až kým nekonverguje (= hodnoty uzlov sa prestanú meniť). Potom sú výsledné aktivácie propagované na vyššiu úroveň. Vyššia úroveň prešla len jednou iteráciou a to spomínaným aplikovaním logických pravidiel y_j = \sum_i v_{ij} x_i. Implicitné a explicitné aktivácie sú následne kombinované na explicitnej úrovni, čo dáva možnosť implicitným podvedomým procesom ovplyvniť explicitné vedomé procesy a rozhodovanie. Formálne vyzerá táto kombinácia nasledovne x^{t+1}_j =max( x^t_j,\sum_i e_{ij} z_i) a y^{t+1}_j =max( y^t_j,\sum_i e_{ij} z_i). Ak y^{t+1}_j prekročí pre niektoré j prahovú hodnotu \psi tak zodpovedajúca akcia je aplikovaná. Ak sa tak nestane, celý proces pokračuje odznova. Explicitné uzly aktivujú implicitné, tieto prejdú iteratívnym procesom a výsledné implicitné aktivácie sú zaslané naspäť na explicitnú úroveň, kde sú kombinované s explicitnými výsledkami a porovnané s prahovou hodnotou. Týmto spôsobom je možné simulovať odpovede probandov, ale aj rýchlosť ich odpovedí.

Systém sa takisto učí, takže spojenia môžu podliehať zmenám a môžeme posúdiť či a za ako dlho sa pôvodné explicitné vedomosti zmenili na nové poznatky. Hodnoty spojení sú na začiatku vygenerované náhodne a potom sa menia pomocou hebbiánskeho učenia:E=XZ, F=YZ, V=XY (algoritmus pre transfomáciu spojení medzi implicitnými uzlami je trochu komplikovanejší). Explicitné spojenia V tvoria väčšinou výnimku, a ich počiatočné hodnoty nie sú vygenerované náhodne, ale zodpovedajú predpokladaným vedomostiam. Pri vhľade sú pôvodné vedomosti + reprezentácie problému nevhodné a musia byť transformované. Táto transformácia prebieha na implicitnej úrovni, ktorá v určitom okamihu pozmení explicitné reprezentácie, riešenie sa stane vedomím, čo proband vníma ako vhľad.

Autori aplikovali model pri dátach z dvoch štúdii inkubácie a (pre nás relevantné) pri dátach z dvoch štúdii vhľadu. Podľa autorov obstál model v týchto porovnaniach dobre a umožňuje tak zhrnúť viaceré fenomény pod jeden spoločný model. Tento model je súčasťou Sunovej kognitívnej architektúry CLARION. V tejto štúdii však bola relevantná len určitá časť tejto architektúry. Celý systém je omnoho zložitejší a snaží sa popísať v ucelenom modeli rozličné fenomény naprieč kognitívnymi doménami. Kognitívne architektúry ako CLARION alebo Andersonov ACT-R sa v tomto zmysle snažia ponúknuť alternatívu k výskumu kognície pomocou binárnych otázok a odpovedí zameriavajúcich sa na úzko ohraničené výskumné domény.

Myslím, že toľko by stačilo k popisu modelu. Nasledujú moje postrehy. Priznám sa, že som bol (a stále som) z článku Helieho a Suna dosť zmätený. Zdá sa, že článok sa dlhú dobu poohrial v šuplíku, alebo preliezol viacerými kolami peer-review než ho Perspectives akceptovali. V podstate všetky referované zdroje sú z pred roku 2005. Štúdie, ktorých dáta autori simulujú sú zo začiatku 90. rokov. Článok obsahuje značné množstvo teórie a diskusie rôznych teoretických pozícii (často historických pozícii, ktoré dnes už nikto nezastáva), ktoré sú pre model irelevantné a štúdia by sa zaobišla bez nich. Perspectives je teoretický časopis a autori zrejme museli pridať teoretické časti, aby mohol byť publikovaný. Najhoršiu časť tvoria simulácie a porovnania modelu s dátami. Po viacnásobnom prečítaní a snahách o benevolentnú interpretáciu som dospel k názoru, že simulácie sú odpad a príkladom ako sa modeli nemajú testovať. Myslím, že z tohoto dôvodu môže byť zaujímavé si simulácie rozobrať podrobnejšie na tomto blogu. Mozgostroje nechcú len sprostredkovať pozitívne príklady modelovania v kognitívnych vedách, ale aj prípady nesprávnej aplikácie. Na rozdiel od príbehových teórii, umožňujú formálne modely (aj tie zlé) identifikovať a jednoznačne popísať tieto problémy.

Hlavným problémom simulácii je, že autori nemajú dáta. Namiesto toho pribrali výsledky referované v publikovaných štúdiách, teda poznajú len spriemerované hodnoty. Problémom je, že stredové hodnoty poskytujú len minimum informácie na základe, ktorej modely možno otestovať.

Uvediem príklad. Vo štvrtej simulácii išlo o dáta z nasledujúceho experimentu. Probandi dostali nasledujúci problém. Numizmatik príde do obchodu so starožitnosťami a je mu ponúknutá elegantná bronzová minca  s hlavou rímskeho cisára na jednej strane a so signatúrou 544 b.c. na druhej strane. Numizmatik namiesto toho aby mincu kúpil zavolá políciu. Prečo? Probandi dostali najprv 2 minúty aby riešili problém. Po dvoch minútach jedna skupina riešila nesúvisiaci problém, zatiaľčo druhá skupina musela verbalizovať svoju stratégiu riešenia problému. Táto fáza trvala 90 sekúnd. Nakoniec mali obe skupiny 4 minúty aby problém vyriešili. Výsledkom bol signifikantný rozdiel medzi skupinami pričom 36 % v skupine verbalizujúcich a 46 % v kontrolnej skupine daný problém vyriešilo.

Ako vstupy pre model slúžili štyri aspekty situácie. Materiál mince (dobrý/zlý), dátum mince (dobrý/zlý), odtlačok na hlave mince (dobrý/zlý) a rozhodnutie numizmatika (kúpiť/nekúpiť). Výstupmi bolo osem interpretácii danej situácie: materiál dobrý+dátum dobrý + odtlačok dobrý, materiál dobrý+dátum dobrý + odtlačok zlý a.t.ď. (rozhodnutie numizmatika nebolo zahrnuté na strane výstupov, keďže toto závisí od ostatných troch atribútov, t.j. numizmatik kúpi mincu ak sú všetky tri aspekty v poriadku, inak nie). Na začiatku simulovaného experimentu boli aktivované vstupy MD,DD,OD a RN, ktoré reprezentovali počiatočne vnímaný rozpor v správaní. Úlohou modelu bolo prísť s odpoveďou MD+DZ+OD na strane výstupov. Model bol simulovaný v dvoch podmienkach. Skupina, ktorá verbalizovala bola simulovaná pomocou modelu, ktorý 2+4 minúty hladal riešenie. 90 sekúnd verbalizácie podľa autorov blokovalo explicitné aj implicitné spracovanie a teda k žiadnemu pokroku počas tejto fázy nedošlo. U skupiny, riešiacej nesúvisiacu úlohu, podľa autorov prebiehalo implicitné učenie a tak aj model po 2 Minútach prešiel 1,5 minútovou fázou, kde prebiehalo učenie na implicitnej úrovni. Po tejto fáze nasledovali zvyšné 4 minúty. Autori merali proporcie modelov, ktoré danú úlohu vyriešili. Percentá zodpovedali, výsledkom u ľudí.

Daný model má už na prvý pohľad takú hračkársku príchuť. Množina 8 riešení, ktorú tvoria kombinácie troch aspektov situácie asi ťažko zodpovedá množine riešení, ktorú skúmajú ľudia. Táto množina je u ľudí o mnoho väčšia, potenciálne nekonečná, v čom práve spočíva náročnosť daného problému. Model sa môže dopracovať k riešeniu cez náhodné hádanie odpovedí. V priemere potrebuje 8 pokusov, aby uhádol správnu odpoveď. Zabrániť mu v tom môže fixácia na určité riešenie – teda situácia, keď model stále produkuje identické riešenia.

Ako som spomenul, autori nemajú dáta a preto si musia vystačiť s dvoma hodnotami. Problém je, že ich model má vyše 10 voľných parametrov, ktoré môžu ľubovolne nastaviť tak, aby model vykázal požadované proporcie. Problémom je obzvlášť, keď prispôsobujú parametre medzi skupinami. Napr. parameter ovplyvňujúci fixáciu odpovedí bol u skupiny počas riešenia nesúvisiacej úlohy upravený na inú hodnotu ako počas iných fáz. Takisto samotný dizajn simulácie, v ktorom je umožnené jednej skupine sa učiť a druhej nie, je podozrivý. Prečo by malo byť u verbalizujúcej skupiny implicitné riešenie problému zablokované? Autori zabudovali do simulácii príliš veľa neoverených apriórnych postulátov. Tým vzniká podozrenie, že sa tak stalo post-hoc a postuláty a vybrané hodnoty parametrov slúžia len na to, aby model umožnil simulovať dané hodnoty. Pri desiatke parametrov a len dvoch stupňoch voľnosti variácie v dáta je výpovedná hodnota simulácii nulová. Bizarné pôsobí snaha aplikovať štatistické testy na simulované dáta a porovnať signifikantné výsledky simulácie so signifikantnými výsledkami v experimentoch. Pri simuláciach použili autori 1000 opakovaní (čím získali super signifikantné výsledky). Probandov bolo samozrejme menej, čím sú experimenty neporovnateľné. Samotná variabilita medzi probandami je zrejme odlišná. Model pravdepodobne vykazuje nízke efekty a teda bola potrebný vyšší počet opakovaní.

Ako by vyzerali správne simulácie? Potrebujeme dáta, ktoré poskytujú minimálne toľko stupňov voľnosti ako má náš model parametrov, ideálne však mnohonásobne viac. Model neoverujeme tým, že rátame štatistiky ako u probandov a následne kvalitatívne porovnáme signifikantné efekty. Namiesto toho meriame kvantitatívne fit modelu (na to existujú rôzne štatistiky a metódu, ktoré na tomto mieste nechce rozoberať). Fit zohľadňuje aj schopnosť modelu popísať interindividuálnu variabilitu. Fit by takisto mal zohľadniť počet voľných parametrov modelu a tým umožniť porovnať modely s odlišný počtom parametrov. Porovnávanie modelov je nevyhnutné. Fit (, ktorý sa udáva v ťažko interpretovateľných jednotkách) jedného modelu je sám o sebe bezvýznamný. Zaujímavý je len v porovnaní s iným modelom. Štúdia Helieho a Suna zlyháva vo všetkých týchto bodoch. Pritom uvedený štandard modelovania je dnes už zabehaný. Dôvody tohoto štandardu by mali byť jasné. Snaží sa zabrániť propagácii modelov, ktoré sú jedna ku jednej napasované na dáta a nič nevysvetľujú ani dáta nijak nekomprimujú. Poskytujú akurát ich popis zaodetí do pozlátky matematických hieroglyfov. O tomto práve zlé modelovanie je a treba vedieť tú pozlátku prekuknúť. Žiaľ mnoho výskumníkov získa na základe takýchto modelov dojem, že modelovanie je len o tejto pozlátke a nič viac nevie ponúknuť. To je obrovská škoda. Myslím, že modelári musia byť viacej asertívni a rázne sa vyhradiť voči mizerným modelom, tak ako som to spravil ja v tomto článku.

Hélie, S. & Sun, R. (2010). Incubation, insight, and creative problem solving: A unified theory and a connectionist model. Psychological Review, 117, 994-1024.

Aplikácie Bischofovej Sémantiky

Tento príspevok tvorí pokračovanie predchádzajúceho článku o sémantike Norberta Bischofa. Tam sme videli ako sémantiku definovať a ako prideliť signálom význam. V tomto príspevku  sa pozrieme na praktické aplikácie.

Bischofov prístup nám umožňuje kvantifikovať sémantický obsah signálov pomocou informačnej teórie. Informačnú teóriu založil Claude Shannon, ktorý vo svojom spise “A mathematical theory of information” (Shannon, 1948) definoval jej hlavné problémy a rovno ich aj vyriešil.  Striktne vzaté Shannonova informačná teória sa zaoberá výhradne syntaktickou stránkou signálov. Informačná teória nám umožní vyrátať informačný obsah signálu, entropiu signálu alebo maximálnu kapacitu spojenia. Ako priradiť význam k signálu sa nedozvieme. S poznatkami z predchádzajúceho príspevku však nie je ťažké dopracovať sa ku kvantitatívnym nástrojom aj v oblasti sémantiky.
V prvom rade si treba uvedomiť, že význam napríklad u vstupov vstupov závisí od optimality systému a jeho behaviorálneho výstupu. Oboje možno určiť empiricky. Po druhé, ak zadefinujeme optimálny systém, môžeme porovnať jeho výstupy s výstupmi pozorovaného systému a kvantifikovať sémantický obsah signálov. Ak teda chceme zistiť či čierna farba u hadov signalizuje pre šimpanzy nebezpečenstvo, zadefinujeme systém, ktorý produkuje optimálne reakcie v závislosti od farby. Následne porovnáme organický systém s tým idealizovaným v behaviorálnom experimente. Dajme tomu že testujeme hadov v 8 odtieňoch a sledujeme či šimpanz uteká alebo nie. Máme 1 bit na strane výstupov. Dajme tomu, že optimálny systém produkuje správanie (0,0,0,0,1,1,1,1) pre stimuli siahajúce od svetlého až po úplne tmavý odtieň hada, pričom 1 znamená útek. Dajme tomu že šimpanz používa stratégiu (0,0,0,0,0,1,1,1). Nakoľko zodpovedá tento vzor ideálnemu správaniu? Informačná teória poskytuje principiálne spôsob ako túto kvantitu určiť. Spoločná informácia je definovaná ako I(X,Y)=\sum_{x,y}p(x,y)log \frac{p(x,y)}{p(x)p(y)} a vyjadruje nakoľko nás X informuje o Y. Shannon používal túto definíciu aby zistil nakoľko prijatá správa po prenose zodpovedá odoslanej správe. V ideálnom prípade (= optimálny systém) sa prenosom žiadna informácia nestratila. Takisto v prípade kognitívnych systémov bude v ideálnom prípade zodpovedať správanie ideálneho systému správaniu šimpanza. Pre náše systémy platí p(M=1,P=1)=3/8, p(M=1,P=0)=0/8, p(M=0,P=1)=1/8 a p(M=0,P=0)=4/8 a teda (ak som nespravil chybu) I(M,P)=\frac{4}{8}log \frac{8}{5}+ \frac{1}{8}log \frac{2}{5}+\frac{3}{8}log \frac{8}{2}= 0.38 bit.
Na tomto mieste môžeme zhrnúť, 0.38 bitu pozorovaného správania šimpanza má význam “nebezpečenstvo”. Výpovedná hodnota uvedeného príkladu nie je moc vysoká. Čo znamená 0.38 bit? Zjavne je to menej ako maximum 1 bit a viac ako 0 bit. Je to dosť alebo akurát? Významový obsah je ľahšie interpretovať ak nám umožní porovnať navzájom viaceré signáli. Môj nasledujúci neurobiologický príklad ilustruje takéto porovnanie.

Ako je kódovaný sémantický obsah signálmi v mozgu? Tradičnou odpoveďou v neurovedách je, že pomocou frekvencie vzruchov. Ak stimulujeme perceptuálne pole neurónu, tento reaguje zvýšením frekvencie vzruchov. Richmond a Optican v sérii štúdii (napr. Optican a Richmond, 1987) ukázali, že časová konštelácia vzruchov môže byť dôležitejšia ako samotná frekvencia.

Autori vyrátali spoločnú informáciu medzi optimálnou reakciou a frekvenciou vzruchov a optimálnou reakciou a hlavnými komponentami neurálnych dát. Analýza hlavných komponent umožňuje vydolovať z dát vzory, ktoré popisujú vysokú dávku variability. Táto analýza bola použitá, keďže nebolo jasné ako konkrétne môže byť temporálna informácia v dátach kódovaná.Hlavná komponenta reprezentuje komprimovanú variabilitu v dátach pričom má podobnú dimenzionalitu ako frekvenčný kód a teda podobný informačný potenciál. Pointa je v tom, že spoločná informácia obsiahnutá v hlavnej komponente bola (u niektorých neurónov) dvakrát vyššia ako tá obsiahnutá frekvenciou vzruchov. Hlavná komponenta teda obsahuje dodatočnú informáciu, ktorú frekvencia vzruchov nezohľadňuje. Týmto spôsobom je možné kvantifikovať sémantický obsah signálu a prakticky ho využiť na porovnanie spôsobov kódovania.

Na tomto mieste sa núkajú námietky. Prvá je technická. Vo vyššie uvedenom prípade by sme alternatívne mohli použiť aj rôzne korelatívne štatistiky. Všeobecnejšie, keď sú informačné indikátory také úžasné, prečo ich bežne nepoužívame miesto tradičných štatistických metód? Striktne vzaté môžeme väčšinu štatistických metód odvodiť na základe informačných kritérií a akurát ich výsledné jednotky nie sú v bitoch ale nadobúdajú hodnoty, ktoré umožňujú pohodlnejšiu interpretáciu naprieč experimentami a doménami.

Druhá námietka sa týka stratégie kvantifikácie sémantického obsahu.Základom našej stratégie je, že vedci navrhnú optimálny model, ktorý nesie daný význam. Týmto sa vlastne samotný problém prideľovania významu obíde tým, že vedci obsah operacionalizujú do určitej syntaktickej formy (v tomto prípade korešpondencie medzi vstupmi a výstupmi) a následná analýza prebieha dosť nevzrušujúco na syntaktickej úrovni. Toto vyzerá ako dosť lacný trik. Tento problém však súvisí s jednoduchosťou uvedených príkladov, ktoré ukryli plný potenciál formálneho prístupu. V zásade je možné nielen určiť sémantický obsah správania, ale aj odhadnúť množinu sémantických entít potrebných pre popis správania.

Nguyen (Nguyen et al. 2005) s kolegami sa snažili naučiť stroj predpovedať správanie ľudí v kuchyni. Vstupnými dátami pre ich stroj bola pozícia na ploche kuchyne rozdelenej do 6×4 buniek v závislosti od času. Systém sa naučil zhrnúť postupnosť určitých pozícii do opakujúcich sa trajektórii. Napr. pohyb od chladničky ku stolu, alebo pohyb od dverí ku chladničke. Na vyššej úrovni sa naučil systém zhrnúť trajektórie do vzorcov správania, napr. naobedovať sa alebo dať si snack. Stroj hierarchicky postuloval vyššie entity, ktoré mu pomohli zhrnúť, popísať a predpovedať následnosť pozorovaných fenoménov (pozície osoby). Stroj by sa teoreticky zaobišiel aj bez týchto vyšších teoretických entít. Vskutku každý hierarchický model je možné preložiť do komplexného jednoduchého plochého modelu. Parametre tohoto modelu je však ťažšie naučiť sa ako pri tom hierarchickom. Sémantika nám umožňuje zhrnúť správanie a obsah signálov pomocou komplexnejších entít – ich významov. V zásade by sme mohli popísať svet aj pomocou fermiónov a bozónov. Je však jednoduchšie a rýchlejšie popísať svet ak postulujeme ďalšie entity, ktoré popisujú vlastnosti na rozličných úrovniach. Takto je to sa atómami, molekulami, bunkami, organizmami. Sémantika umožňuje vytvárať podobné koncepty, akurát jej základnou črtou je, že elementárne časti, ktoré zahŕňa a popisuje sa nerozprestierajú na priestorovej osy (ako atómy v rámci jednej molekuly), ale na tej časovej (predchádzajúce správanie, budúce správanie).

Nosnou myšlienkou formálnej definície sémantiky je, že nám umožní na základe daného signálu určiť množinu komplexnejších entít – významy, intencie a kognície systému. Tieto entity možno znovu analyzovať ako signál a významy hierarchicky množiť, tak ako pri stroji od Nguyena a kolegov. U Nguyena et al. bol počet úrovní abstrakcie a takisto počet entít na každej úrovni pevne daný. Dnes už však existujú algoritmy pomocou, ktorých systém optimalizuje tieto počty sám. Inak povedané môžete nasadiť probandovi senzory po celom tele, zozbierať dáta počas zopár týždňov, napumpovať ich do stroja a ten sám rozdelí jeho správanie do blokov varenia, vysávania, písania blogu alebo venčenia psa. Takýto systém dokáže efektívne predpovedať správanie. Nielen, že keď sa dotyčný v nedeľu ráno pohne z obývačku ku dverám bytu, tak systém predpovedá, že  byt opustí, ale aj, že na abstraktnejšej úrovni dotyčný sleduje zámer ísť do kostola. Úlohou vedcov je následne len preložiť si abstraktné významy vygenerované strojom do svojho jazyka – správanie 314, je venčenie psa, správanie 231 je umyť riad.

Takýto formálny model možno vnímať aj ako apológiu folkovej sémantiky. Vskutku, čo sa týka správania agentov, vo väčšine prípadov bude model súhlasiť s našimi intuíciami. Pri iných signáloch ako napr. pri neurónoch a ich vzruchoch, tak však už nemusí byť. Môže sa tak stať, že stroj postuluje entity pre ktoré naša folková sémantika nemá žiadne porozumenie a pre ktoré v jazyku nemáme zodpovedajúce koncepty. Tým sa naskytnú dve možnosti. Buď sa postavím na stranu folkovej sémantiky alebo akceptujeme sémantiku, ktorú navrhol stroj. Prvý prístup je typický pre filozofiu. Na tomto blogu samozrejme budem zastávať ten druhý prístup. V ďalších článkoch uvediem príklady, kde tieto dva prístupy stoja v konflikte.

N. Nguyen, D. Phung, S. Venkatesh, and H. Bui (2005), Learning and detecting activities from movement trajectories using the hierarchical hidden Markov models, CVPR.

Optican, L.M. and Richmond, B.J. (1987). Temporal encoding of two-dimensional patterns by single units in primate inferior temporal cortex. III. Information theoretic analysis. Journal of Neurophysiology, 57(1), 162–178.

Shannon, C.E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27, 379–423, 623–656.