Neurónové siete a zmiešaná sémantika

Neurónové siete majú zaujímavú a neľahkú históriu. Zrejme je to dané zmätkami vznikajúcimi ohľadom interpretácie paralelných dynamických modelov. Výskum neurónových sietí začal Rosenblattovým Perceptronom v 50. rokoch. (Zlé jazyky hovoria, že všetky dôležité výsledky už predtým odvodili ruský štatistici akurát ich nemali ako využiť, keďže neexistovali počítače.)

Perceptron (vyššie) tvorila jednoduchá neurónová sieť pozostávajúca z viacerých vstupných a jedného výstupného uzla. Perceptron je podobný logistickej regresii. Výstupná funkcia nie je sigmoid ale jednoduchá prahová funkcia. Takisto algoritmus, ktorý Rosenblatt použil, aby našiel hodnoty parametrov bol jednoduchší s horšou konvergenciou. Každopádne Rosenblatt ukázal, že ak má klasifikáčný problém lineárne riešenie tak Perceptron toto riešenie nájde. Marvin Minsky a Seyour Pappert z MIT naopak ukázali, že v prípade ak lineárne riešenie neexistuje Perceptron nekonverguje k optimálnemu riešeniu. Títo autori zároveň vyjadrili domnienku, že podobne tomu bude aj v prípade komplexnejších modelov s viacerými vrstvami uzlov. Táto domnienka sa ukázala ako nesprávna, každopádne mýtus hovorí, že Minsky a Pappert spôsobili svojím tvrdením nezáujem o výskum neurónových sieti. Nadišla zima výskumu AI.

V 80. rokoch mali Chomsky a jeho kolegovia z východného pólu našliapnuté aby intelektuálne ovládli kognitívne vedy. Plán im skrížila nová vlna konekcionizmu zo západného pobrežia. Ako prvý doniesol tieto novinky na východ filozof Douglas Hofstadter, ktorý prezentoval na prelome 1983-1984 seminár o najnovších výsledkoch konekcionizmu na MIT. Z výskumníkov sa semináru zúčastnili len Minsky a Dennett. Neskôr bol Dennett pozvaný na plánovanú konferenciu o AI na MIT. Dennett navrhol aby namiesto neho pozvali radšej Hofstadtera.

They refused to consider my suggestion — that’s how insular and dogmatic MIT was at the time: Hofstadter was no cognitive scientist (or philosopher) by their lights. So I relented, but decided to poke some fun at their brittle ideological barriers, exploiting Jerry Fodor’s amusing explanation of why MIT was “the East Pole,” and dubbing the local orthodoxy “High Church Computationalism.” I savor the memory of Ned Block asking me, after my talk, where on earth I’d learned this amazing stuff — it was all news to him. “Mostly in Doug Hofstadter’s seminar, right here in your university,” I replied. Harry and Betty Stanton attended the conference, and asked me about these new developments. Soon they were conferring with Rumelhart and McClelland about putting together the volumes that became the bibles of connectionism. (Dennett, 1998, s.216)

Roku 1986 vydalo MIT zborníky s prácami konekcionistov. Siegelman a Sonntag (1994) neskôr ukázali, že dvojvrstvové neurónové siete s dostatočným počtom uzlov v strednej vrstve sú aspoň turing-ekvivalentné. Neurónové siete teda, kontra Minsky & Pappert, dokážu vypočítať ľubovolnú (turing-vypočítateľnú) funkciu. Neurónové siete sa stali state-of-art algoritmom a vlajkovou loďou učenia strojov a AI všeobecne. (Tento status si udržali až do nástupu Bayesiánov a SVM koncom 90. rokov.)

Úspechy slávili aj ako model ľudskej kognície. Tým sa dostali do konfliktu s východniarskými komputacionalistami. Môj úsudok je že jadrom tohoto sporu tvorí rozdielne chápanie sémantiky. Komputacionalisti zastávajú folkovú sémantiku. Sémantika konekcionistických modelov svojou paralélnym spracovaním a kontinuálnym kvalitatívnym stupňovaním reprezentácii nezodpovedá každodenným intuíciám.

Najväčší úspech slávili neurónové siete pri modelovaní mozgových procesov. Mozog bol naopak vždy tŕňom v oku modulárneho teoretizovania. Oblasti okcipitálneho ľalok, kde prebieha vizuálne spracovanie u opíc a ľudii ešte celkom pekne pasovali k modularistickým predstávam. V okcipitálnom ľaloku nájdeme hierarchicky usporiadané neuróny. Retina zasiela do mozgu signály reprezentujúce farbu a svetelné intenzitu. Mozog na ich základe postupne extrahuje kontrasty, hrany, geometrické tvary, pohyb a rýchlosť. Tým sa však výpočet končí. Reprezentáciu objektov sa nám na neurálnej úrovni ťažko podarí nájsť. Podobne je to s ďalšími komplexnejšími reprezentáciami a funkciami. Linguisti sa ešte mohli pochlapiť hrubozrnnou lokalizáciou modulov pre spracovanie a produkciu reči (Broca a Wernecke). Modulárne teórie sa tak museli uspokojiť s tým, že väčšina neurónov v mozgu produkuje zbytočný šum a nič zmysluplné nereprezentuje. Naopak v mozgu boli objavené neuróny enkódujúce z pohľadu intuitívnej sémantiky nezmyselné veci. Ako napríklad vysvetliť, že signáli vnemových niektorých neurónov boli modulované motorickou reakciou? Takéto mechanizmy miešajú vstupné a výstupné procesy bez toho že by prešli centrálnym spracovaním čo odporuje Fodorovej predstave a základnej architektúre ľudskej mysle (vstupné => centrálne => výstupné spracovanie).

Zipser a Anderson (1988) sa vo svoje štúdii zaoberali transformáciou retinálnej pozície zrakového vnemu na pozíciu v priestore (voči pozícii hlavy/tela). Priestorová reprezentácia pozície je samozrejme dôležitá pre ďalšie výpočty riadiace rozhodovanie a koordináciu motoriky. Z predchádzajúcich štúdii bolo známe, že v posteriórnom parietálnom laloku sa nachádzajú neuróny enkódujú retinálnu pozíciu. Takisto sa tu nachádzajú neuróny reagujúce na vychýlenie oka v očnej dutine a teda kam primát upiera svoj zrak. Nakoniec sa našli aj neuróny, ktoré kombinujú obe informácie. Nedá sa však povedať že by tieto reprezentovali priestorovú pozíciu.

Neurálny profil týchto komplexných neurónov možno skúmať nasledovne. Dáta sú získané snímaním aktivity jednotlivých neurónov v posteriórnom parietálnom laloku. Opice sú pri tom v bdelom stave a na monitore im vedci ukazujú svetelný stimulus. Manipulovaná je pozícia stimulu vzhľadom na retinu a takisto smerovanie zraku (teda vychýlenie oka). Nižšie je znázornený takýto experiment (a). Povedzme že stimulus sa zjaví vždy kúsok na ľavo od smerovania zraku. Meranie je opakované pre všetkých 9 možných pozícii smerovania zraku (doľava, doprava, hore, dole, stred + 4 diagonálne smery) a opakované pre každú pozíciu viackrát. Pri každom meraní získame časovú postupnosť akčných potenciálov (spikes). 9 grafov (b) – každý pre inú orientáciu oka, ukazuje časové histogramy ktoré vyjadrujú frekvenciu vzruchov akumulovanú naprieč meraniami v závislosti od času. Vertikálna čiara znázorňuje čas keď opica videla stimulus. Všetkých deväť grafov zhŕňa pritom merania z rovnakého neurónu. Z grafov sa teda dozvedáme, že neurón sa obzvlášť poteší, keď mu ukážeme stimulus vpravo, keď sa opica pozerá doľava dole. Ak by neurón reagoval na retinálnu pozíciu nezávisle od vychýlenia oka očakávali by sme podobné frekvencie naprieč všetkými deviatimi grafmi. Ak by neurón reagoval len na vychýlenie oka očakávali by sme, že stimulus neovplyvní aktivitu neurónu. Očakávali by sme teda, že aktivita v danom grafe je rovnaká pred a za vertikálnou čiarou.

Znázornený neurón neenkóduje len priestorovú pozíciu stimulu. Treba si všimnúť,že aktivita neurónu v grafoch (b) je rozdielna už pred tým než opica uvidí nejaký stimulus. Aktivita neurónu teda kóduje špecifickú interakciu nasmerovania zraku a retinálnej pozície stimulu.

Posledná grafika (c) sa snaží vyjadriť túto interakciu. Šírka bieleho vonkajšieho prstenca vyjadruje silu reakcie neurónu pred poskytnutím stimulu (suma aktivity vľavo od vertikálnej čiary v grafike (b) a šírka vnútorného čierneho kruhu vyjadruje aktivitu po poskytnutí stimulu mínus aktivita pred tým. Čierny kruh teda vyjadruje aktivitu zapríčinenú poskytnutím stimulu. c) znázorňuje jedno súkružie pre každé smerovanie zraku. V kruhovej grafike vidieť, čo sme pozorovali vyššie – s vychýlením zraku smerom doľava dole stúpa aktivita neurónu pred stimulom a ešte silnejšie po stimule.

Nižšie sú pomocou kruhovej grafiky znázornené namerané profily ďalších neurónov.

K frustrácii vedcov tieto neuróny môžu vykazovať arbitrárne komplexnú štruktúru (obzvlášť g,h,i). Je ťažké predstaviť si ako by mozog mohol profitovať z reprezentácii ktoré poskytujú tieto neuróny. Obsah ich signálov je zmiešanina smerovania zraku, retinálnej a priestorovej pozície. Naše intuície si ťažko vedia predstaviť užitočnosť takýchto semantických koňovtákov.

Zipser a Anderson sa pýtali či a ako sa neurónová sieť môže naučiť transformovať retinálne súradnice na priestorové. Neurónová sieť pozostávala z troch vrstiev neurónov. Vstupné neuróny enkódujú retinálnu pozíciu stimulu (ako aktivitu na poli 8×8 neurónov, pričom stimulus má tvar bivariátnej gausovskej krivky, čo zodpovedá profilu neurónov enkódujúcich retinálnu pozíciu v mozgu)  a takisto vychýlenie oka (8 neurónov pre každy zo štyroch smerov). Vstupné neuróny sú poprepájané k skrytej vrstve, ktorá je poprepájaná k vrstve výstupných neurónov. Výstupné uzly enkódujú priestorovú pozíciu (zasa ako gausovský stimulus lokalizovaný na poli 8×8 neurónov). Autori trénovali sieť pomocou backpropagation algoritmu pre všetky možné kombinácie pozície stimulu na retine a stupňa vychýlenia oka. Tréning bol úspešný a po jeho ukončení sa autori pozreli na profil neurónov v skrytej vrstve. Čo reprezentujú tieto neuróny? Autori zistili, že profil neurónov v skrytej vrstve je veľmi podobný profilu komplexných neurónov pozorovaných v posteriórnom parietálnom laloku u opíc. Nasledujú profily deviatich vybraných skrytých neurónov znázornené pomocou kruhovej grafiky.

Komplexné profily neurónov v posteriórnom parietálnom laloku, teda nie sú žiadnym šumom, ale sú dôležitým medzistupňom pri transformácii retinálnej pozície na pozíciu priestorovú.

Viacerí konekcionisti dospeli na základe takýchto výsledkov k názoru, že prisudzovať význam neurónom je zbytočné a že neuróny v modeloch (a v mozgu žiadnu sémantiku nemajú). Dnes túto pozíciu hlásajú hlavne zástancovia dynamických systémov, ekologickí psychológovia a radikálny zástancovia stelesnenej mysle. Patriarchovia konekcionizmu Jay McClelland alebo Jeff Elman nasledujú líniu typickú pre kognitívne vedy a síce, že neurónové siete tvoria reprezentácie.

Zaujímavé je pozrieť sa na neurónové siete z pohľadu sémantiky Norberta Bischofa, ktorú som predstavil v predchádzajúcom článku. Pripomínam, že Bischof rozdeľuje význam signálov na intencie a kognície. Výstupným/vstupným signálom udeľujeme význam na základe ich optimality. Táto definícia funguje obzvlášť dobre ak prideľujeme význam správaniu a vnemom u organizmov. Medzijednotky spracovania v mozgu však figurujú zároveň ako vstupy a aj ako výstupy k iným jednotkám s rozličnými kritériami optimality a teda rozličnou sémantikou. Produktom je zmiešaná sémantika týchto medzijednotiek. Stupeň miešania bude silnejší čím ďalej sa pozrieme do vnútra mozgu smerom od vstupných a výstupných signálov k centrálnemu spracovávaniu. Táto predpoveď je samozrejme v súlade s evidenciou. Koreláty vnemov a motoriky sú v mozgu jasne štrukturované (hierarchická organizácia V1-V4, senzomotorický homunkulus v parietálnom laloku). Koreláty vyšších kognitívnych funkcii (myslenie, plánovanie, motívácia …) sú difúzne a nie je vôbec jasné či niektoré teoreticky postulované jednotky vôbec v mozgu existujú (vedomie, morálne rozhodovanie). Podľa Bischofa zmiešaná sémantika nie je dôvod na to aby sme odmietli jeho vedeckú definíciu sémantiky v prospech tej folkovej a takisto ani dôvod aby sme sa vzdali sémantiky úplne. Bischof má, čo sa týka sémantiky najbližšie ku konekcionistom, ktorý akceptujú, že neurónové siete (a systémy všeobecne) tvoria reprezentácie akurát ich obsah nezodpovedá našim intuitívnym kategóriám.

Zvážme však nasledujúci návrh. Čo keby sme význam signálov predefinovali a otočili zvnútra von. Neuróny miešajú význam daný vstupmi a výstupmi. Prečo by však mali byť vstupy a výstupy uprednostnené? Nemôžeme definovať význam vstupov a výstupov na základe významu jednotiek so zmiešanou sémantikou? Ako pri probléme zedrých a molených drahokamov. Pojem zedrý môžeme považovať za zmiešaninu zelený a modrý. Zedrý je zložený pojem a modrý je jednoduchý. Naopak pojem modrý môžeme považovať za zmiešaninu morvený a zedrý. Modrý je zložitý pojem a zedrý je jednoduchý.

Intuitívne takéto obrátenie nedáva zmysel, avšak naše sémantické intuície sú nám na to, aby nám pomohli extrahovať význam z fenoménov okolo nás – obzvlášť zo správania iných organizmov a nie z mikroskopických udalostí hlboko v mozgu. Intuitívnosť nie je našim kritériom. Čo hovorí Bischofova sémantika na takéto obrátenie?  Z hľadiska Bischofovej sémantiky, predefinovanie nie je možné z nasledujúcich dôvodov. Sémantika systému je určená kritériom optimality. Optimalita sa vzťahuje na správanie organizmu. Neuróny a ich význam sú podriadené optimalite, avšak len prostredníctvom správania, ktoré produkujú. Z hľadiska celého systému je teda zmiešaná sémantika naozaj zmiešaná. Samozrejme ako systém môžeme zvoliť ľubovoľný výsek mozgu a v rámci tohoto inak zadefinovať optimalitu a cez ňu jednoduché a zložité významy. Tieto definície sa môžu líšiť v porovnaní s definíciami v celom systéme. V tomto prípade je otázkou ktorý systém resp. jeho výsek je ako model zmysluplnejší. Toto je však problém definície systému a nie jednotiek enkódujúcich jednoduchý vs. zložitý význam. K problém definície systému sa vrátim v niektorom z ďalších článkov.

Zipser, D., and Andersen, R.A. (1988). A back-propagation programmed network that simulates response properties of a subset of posterior parietal neurons. Nature 331, 679–684.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s