Aplikácie Bischofovej Sémantiky

Tento príspevok tvorí pokračovanie predchádzajúceho článku o sémantike Norberta Bischofa. Tam sme videli ako sémantiku definovať a ako prideliť signálom význam. V tomto príspevku  sa pozrieme na praktické aplikácie.

Bischofov prístup nám umožňuje kvantifikovať sémantický obsah signálov pomocou informačnej teórie. Informačnú teóriu založil Claude Shannon, ktorý vo svojom spise “A mathematical theory of information” (Shannon, 1948) definoval jej hlavné problémy a rovno ich aj vyriešil.  Striktne vzaté Shannonova informačná teória sa zaoberá výhradne syntaktickou stránkou signálov. Informačná teória nám umožní vyrátať informačný obsah signálu, entropiu signálu alebo maximálnu kapacitu spojenia. Ako priradiť význam k signálu sa nedozvieme. S poznatkami z predchádzajúceho príspevku však nie je ťažké dopracovať sa ku kvantitatívnym nástrojom aj v oblasti sémantiky.
V prvom rade si treba uvedomiť, že význam napríklad u vstupov vstupov závisí od optimality systému a jeho behaviorálneho výstupu. Oboje možno určiť empiricky. Po druhé, ak zadefinujeme optimálny systém, môžeme porovnať jeho výstupy s výstupmi pozorovaného systému a kvantifikovať sémantický obsah signálov. Ak teda chceme zistiť či čierna farba u hadov signalizuje pre šimpanzy nebezpečenstvo, zadefinujeme systém, ktorý produkuje optimálne reakcie v závislosti od farby. Následne porovnáme organický systém s tým idealizovaným v behaviorálnom experimente. Dajme tomu že testujeme hadov v 8 odtieňoch a sledujeme či šimpanz uteká alebo nie. Máme 1 bit na strane výstupov. Dajme tomu, že optimálny systém produkuje správanie (0,0,0,0,1,1,1,1) pre stimuli siahajúce od svetlého až po úplne tmavý odtieň hada, pričom 1 znamená útek. Dajme tomu že šimpanz používa stratégiu (0,0,0,0,0,1,1,1). Nakoľko zodpovedá tento vzor ideálnemu správaniu? Informačná teória poskytuje principiálne spôsob ako túto kvantitu určiť. Spoločná informácia je definovaná ako I(X,Y)=\sum_{x,y}p(x,y)log \frac{p(x,y)}{p(x)p(y)} a vyjadruje nakoľko nás X informuje o Y. Shannon používal túto definíciu aby zistil nakoľko prijatá správa po prenose zodpovedá odoslanej správe. V ideálnom prípade (= optimálny systém) sa prenosom žiadna informácia nestratila. Takisto v prípade kognitívnych systémov bude v ideálnom prípade zodpovedať správanie ideálneho systému správaniu šimpanza. Pre náše systémy platí p(M=1,P=1)=3/8, p(M=1,P=0)=0/8, p(M=0,P=1)=1/8 a p(M=0,P=0)=4/8 a teda (ak som nespravil chybu) I(M,P)=\frac{4}{8}log \frac{8}{5}+ \frac{1}{8}log \frac{2}{5}+\frac{3}{8}log \frac{8}{2}= 0.38 bit.
Na tomto mieste môžeme zhrnúť, 0.38 bitu pozorovaného správania šimpanza má význam “nebezpečenstvo”. Výpovedná hodnota uvedeného príkladu nie je moc vysoká. Čo znamená 0.38 bit? Zjavne je to menej ako maximum 1 bit a viac ako 0 bit. Je to dosť alebo akurát? Významový obsah je ľahšie interpretovať ak nám umožní porovnať navzájom viaceré signáli. Môj nasledujúci neurobiologický príklad ilustruje takéto porovnanie.

Ako je kódovaný sémantický obsah signálmi v mozgu? Tradičnou odpoveďou v neurovedách je, že pomocou frekvencie vzruchov. Ak stimulujeme perceptuálne pole neurónu, tento reaguje zvýšením frekvencie vzruchov. Richmond a Optican v sérii štúdii (napr. Optican a Richmond, 1987) ukázali, že časová konštelácia vzruchov môže byť dôležitejšia ako samotná frekvencia.

Autori vyrátali spoločnú informáciu medzi optimálnou reakciou a frekvenciou vzruchov a optimálnou reakciou a hlavnými komponentami neurálnych dát. Analýza hlavných komponent umožňuje vydolovať z dát vzory, ktoré popisujú vysokú dávku variability. Táto analýza bola použitá, keďže nebolo jasné ako konkrétne môže byť temporálna informácia v dátach kódovaná.Hlavná komponenta reprezentuje komprimovanú variabilitu v dátach pričom má podobnú dimenzionalitu ako frekvenčný kód a teda podobný informačný potenciál. Pointa je v tom, že spoločná informácia obsiahnutá v hlavnej komponente bola (u niektorých neurónov) dvakrát vyššia ako tá obsiahnutá frekvenciou vzruchov. Hlavná komponenta teda obsahuje dodatočnú informáciu, ktorú frekvencia vzruchov nezohľadňuje. Týmto spôsobom je možné kvantifikovať sémantický obsah signálu a prakticky ho využiť na porovnanie spôsobov kódovania.

Na tomto mieste sa núkajú námietky. Prvá je technická. Vo vyššie uvedenom prípade by sme alternatívne mohli použiť aj rôzne korelatívne štatistiky. Všeobecnejšie, keď sú informačné indikátory také úžasné, prečo ich bežne nepoužívame miesto tradičných štatistických metód? Striktne vzaté môžeme väčšinu štatistických metód odvodiť na základe informačných kritérií a akurát ich výsledné jednotky nie sú v bitoch ale nadobúdajú hodnoty, ktoré umožňujú pohodlnejšiu interpretáciu naprieč experimentami a doménami.

Druhá námietka sa týka stratégie kvantifikácie sémantického obsahu.Základom našej stratégie je, že vedci navrhnú optimálny model, ktorý nesie daný význam. Týmto sa vlastne samotný problém prideľovania významu obíde tým, že vedci obsah operacionalizujú do určitej syntaktickej formy (v tomto prípade korešpondencie medzi vstupmi a výstupmi) a následná analýza prebieha dosť nevzrušujúco na syntaktickej úrovni. Toto vyzerá ako dosť lacný trik. Tento problém však súvisí s jednoduchosťou uvedených príkladov, ktoré ukryli plný potenciál formálneho prístupu. V zásade je možné nielen určiť sémantický obsah správania, ale aj odhadnúť množinu sémantických entít potrebných pre popis správania.

Nguyen (Nguyen et al. 2005) s kolegami sa snažili naučiť stroj predpovedať správanie ľudí v kuchyni. Vstupnými dátami pre ich stroj bola pozícia na ploche kuchyne rozdelenej do 6×4 buniek v závislosti od času. Systém sa naučil zhrnúť postupnosť určitých pozícii do opakujúcich sa trajektórii. Napr. pohyb od chladničky ku stolu, alebo pohyb od dverí ku chladničke. Na vyššej úrovni sa naučil systém zhrnúť trajektórie do vzorcov správania, napr. naobedovať sa alebo dať si snack. Stroj hierarchicky postuloval vyššie entity, ktoré mu pomohli zhrnúť, popísať a predpovedať následnosť pozorovaných fenoménov (pozície osoby). Stroj by sa teoreticky zaobišiel aj bez týchto vyšších teoretických entít. Vskutku každý hierarchický model je možné preložiť do komplexného jednoduchého plochého modelu. Parametre tohoto modelu je však ťažšie naučiť sa ako pri tom hierarchickom. Sémantika nám umožňuje zhrnúť správanie a obsah signálov pomocou komplexnejších entít – ich významov. V zásade by sme mohli popísať svet aj pomocou fermiónov a bozónov. Je však jednoduchšie a rýchlejšie popísať svet ak postulujeme ďalšie entity, ktoré popisujú vlastnosti na rozličných úrovniach. Takto je to sa atómami, molekulami, bunkami, organizmami. Sémantika umožňuje vytvárať podobné koncepty, akurát jej základnou črtou je, že elementárne časti, ktoré zahŕňa a popisuje sa nerozprestierajú na priestorovej osy (ako atómy v rámci jednej molekuly), ale na tej časovej (predchádzajúce správanie, budúce správanie).

Nosnou myšlienkou formálnej definície sémantiky je, že nám umožní na základe daného signálu určiť množinu komplexnejších entít – významy, intencie a kognície systému. Tieto entity možno znovu analyzovať ako signál a významy hierarchicky množiť, tak ako pri stroji od Nguyena a kolegov. U Nguyena et al. bol počet úrovní abstrakcie a takisto počet entít na každej úrovni pevne daný. Dnes už však existujú algoritmy pomocou, ktorých systém optimalizuje tieto počty sám. Inak povedané môžete nasadiť probandovi senzory po celom tele, zozbierať dáta počas zopár týždňov, napumpovať ich do stroja a ten sám rozdelí jeho správanie do blokov varenia, vysávania, písania blogu alebo venčenia psa. Takýto systém dokáže efektívne predpovedať správanie. Nielen, že keď sa dotyčný v nedeľu ráno pohne z obývačku ku dverám bytu, tak systém predpovedá, že  byt opustí, ale aj, že na abstraktnejšej úrovni dotyčný sleduje zámer ísť do kostola. Úlohou vedcov je následne len preložiť si abstraktné významy vygenerované strojom do svojho jazyka – správanie 314, je venčenie psa, správanie 231 je umyť riad.

Takýto formálny model možno vnímať aj ako apológiu folkovej sémantiky. Vskutku, čo sa týka správania agentov, vo väčšine prípadov bude model súhlasiť s našimi intuíciami. Pri iných signáloch ako napr. pri neurónoch a ich vzruchoch, tak však už nemusí byť. Môže sa tak stať, že stroj postuluje entity pre ktoré naša folková sémantika nemá žiadne porozumenie a pre ktoré v jazyku nemáme zodpovedajúce koncepty. Tým sa naskytnú dve možnosti. Buď sa postavím na stranu folkovej sémantiky alebo akceptujeme sémantiku, ktorú navrhol stroj. Prvý prístup je typický pre filozofiu. Na tomto blogu samozrejme budem zastávať ten druhý prístup. V ďalších článkoch uvediem príklady, kde tieto dva prístupy stoja v konflikte.

N. Nguyen, D. Phung, S. Venkatesh, and H. Bui (2005), Learning and detecting activities from movement trajectories using the hierarchical hidden Markov models, CVPR.

Optican, L.M. and Richmond, B.J. (1987). Temporal encoding of two-dimensional patterns by single units in primate inferior temporal cortex. III. Information theoretic analysis. Journal of Neurophysiology, 57(1), 162–178.

Shannon, C.E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27, 379–423, 623–656.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s