Harman & Kulkarni: Reliable Reasoning

Princetonský filozof Gilbert Harman a jeho kolega od inžinierov Sanjeev Kulkarni napísali krátku esej, ktorá diskutuje filozofické aspekty induktívnych metód používaných v štatistike a v učení strojov. Text je moc krátky na to aby poskytol adekvátny popis štatistickej metodológie a slúži skôr ako zhrnutie a diskusia pre čitateľov, ktorí sú už s technickou stránkou veci oboznámení.

Prvá kapitola začína všeobecnou diskusiou indukcie. Autori odmietajú delenie spôsobu inferencie na dedukciu a indukciu. Dedukcia je nástroj vyvodzovania a ako taký je pri väčšine reálnych problémov nepoužiteľná. Väčšinou totiž nemáme dané stopercentne platné premisy, z ktorých sa snažíme niečo vyvodiť. Naopak buď máme viacej platných záverov a snažíme sa zistiť, ktorý z nich je najspoľahlivejší, alebo máme množinu nekonzistentných tvrdení a snažíme sa zistiť, ktorého z tvrdení sa chceme vzdať. Problémom indukcie teda nie je ako dospieť k stopercentne platným záverom, ale ako spoľahlivo riešiť reálne problémy.

Prvou možnosťou zistiť ako spoľahlivá indukcia funguje je pozrieť sa ako rozumujú ľudia. Takto sa môžeme odvodiť nejaké základné princípy rozumovania. No ľudské rozumovanie je často nespoľahlivé a vratké. Lepšie nám preto poslúži ak sa poobhliadneme po spôsoboch indukcie, ktoré sa používajú v štatistike a informatike.

Tieto sa snažia povedať ako na základe dát spoľahlivo určiť metódu, ktorá dokáže dáta najlepšie popísať a predpovedať. Stratégie rozhodovania možno rozdeliť na tri vetvy. Prvú vetvu tvorí Vapnik-Chervonenkis (VC) teória, ktorá poskytuje odhad maximálnej chyby bez toho, že by postulovala nejaké rozdelenie pravdepodobnosti pre pozorované dáta. Druhú vetvu tvoria tradičné štatistické metódy, ktoré odhadujú chybu v predpovediach pomocou dát a postulovaného rozdelenia pravdepodobnosti. Tretiu vetvu tvoria rôzne formalizácie jednoduchosti. Tieto metódy sú väčšinou používané v kombinácii očakávanou odchýlkou a teda môžeme, tak ako to robia autori, zhrnúť posledné dve vetvy do kopy. Druhá kapitola je venovaná VC-teórii. Tretia kapitola je venovaná formálnym definíciám jednoduchosti. Štvrtá kapitola diskutuje aplikácie týchto konceptov v učení strojov.

VC-teória

VC-teóriu môžeme ilustrovať na probléme binárnej klasifikácie. Pripomínam, že klasifikácia je daná ako množina n-dimenzionálnych bodov, z ktorých každý patrí do jednej z dvoch kategórii. Nižšie je znázornený dvoj-dimenzionálny prípad.


Našou úlohou je rozdeliť priestor, v ktorom sa body nachádzajú na oblasti kde predpovieme krížiky a na oblasti patriace krúžkom. V predchádzajúcom príspevku som ilustroval ako také rozdelenie možno spraviť pomocou čiary (resp. pomocou hyperroviny pre vyššie dimenzie). Vo všeobecnosti však naše rozdelenie nemusia tvoriť čiary ale ľubovoľné geometrické útvary a ľubovolné pravidlá.  Nižšie je znázornený prípad s tromi bodmi a s možnými kruhovými hranicami. V prípade čiary máme dva parametre, ypsilónový posun a stúpanie čiary. Pomocou týchto parametrov môžeme získať všetky možné čiary. V prípade kruhu máme tri parametre pozíciu kruhu a jeho polomer.

VC-teória definuje VC-dimenziu klasifikátora. Zoberme si množinu všetkých čiar. Pomocou čiary môžeme rozdeliť ľubovolnú nekolineárnu konšteláciu (t.j. ľubovolnú polohu a priradenie kategórii) troch 2D bodov. Nižšie sú znázornené všetky možné kombinácie. Vo všeobecnosti môžeme pomocou čiary rozdeliť ľubovolnú konšteláciu N+1 N-dimenzionálnych bodov.

V prípade štyroch bodov však existujú konštelácie, ktoré sa nám čiarou rozdeliť nepodarí.

VC-dimenzia vyjadruje najvyšší počet bodov, ktorý určitá množina pravidiel (napr. množina čiar) dokáže (pre všetky možné konštelácie) rozdeliť. VC-dimenzia množiny všetkých čiar je teda 3 pre 2D body a N+1 pre N-dimenzionálne body. Rovnakú VC-dimenziu má aj množina všetkých kružníc.

Množina všetkých obdĺžnikov má VC-dimenziu 4.

VC-dimenzia môže byť aj nekonečná. Napríklad pomocou sinusoidu parametrizovaným frekvenciou f a posunom p môžeme klasifikovať ľubovolnú konšteláciu ľubovolného počtu bodov. Klasifikátor je daný pre 1D prípad ako signum(sin(fx + p)).

Množina pravidiel môže byť kombináciou vyššie uvedených čiar, obdĺžnikov… Môžu ju takisto tvoriť len určité čiary alebo podmnožina kružníc. V zásade hocaká množina je možná pokiaľ ju vieme zmysluplne definovať a táto množina nie je nespočítateľná.

VC-teória a indukcia

Pomocou VC-teórie môžeme vylepšiť indukciu. VC-teória umožňuje určiť hornú hranicu ku ktorej očakávaná odchýlka (napr. tradičný súčet štvorcov rozdielu medzi predpovedanou a novou hodnotou) s pribúdajúcimi pozorovaniami konverguje. Takáto horná hranica nie je samozrejmá – nevyplýva zo zákona veľkých čísel. Zvažujeme totiž odchýlku pre množinu pravidiel. S každým novým pozorovaním môže byť konkrétne optimálne pravidlo iné a teda aj jeho odchýlka je iná. Táto hranica existuje len pre množinu pravidiel s konečnou VC-dimenziou. Pre množiny s konečnou dimenziou je odchýlka priamo úmerná veľkosti VC-dimenzie. To znamená, že množiny s väčšou VC-dimenziou je horná hranica odhadu odchýlky vyššia a teda sa nám oplatí uprednostniť množiny s nízkou VC-dimenziou.

Treba dodať, že tento výsledok pre odhad odchýlky platí pre všetky rozdelenia pravdepodobnosti. Napríklad pri lineárnej regresii môžeme použiť gausovské rozdelenie alebo Studentovo t rozdelenie ako model pre odchýlku. V štatistike sú odhady odchýlky založené na tomto rozdelení. Výsledok VC-teórie nezávisí od rozdelenia pravdepodobnosti a je všeobecnejší. Zároveň sú však odhady VC-teórie oveľa konzervatívnejšie až natoľko, že sú pre prax nepraktické.

Jednoduchosť

V tretej kapitole sa autori venujú prípadom kde je rozdelenie pravdepodobnosti známe. Na základe rozdelenia môžeme určiť odchýlku a zvoliť pravidlo, ktoré túto odchýlku minimalizuje. Problémom je, že často získame model ktorý perfektne popisuje dáta ale mizerne zovšeobecňuje na budúce pozorovania. Preto musíme modifikovať náš odhad odchýlky (, ktorý minimalizujeme) tak aby uprednostňoval jednoduché modely. Možností ako to spraviť je v štatistike neúrekom. Autori diskutujú dve metódy patriace pod teóriu štatistického učenia. Metóda minimalizácie štrukturálneho rizika (SRM) používa VC-dimenziu ako indikátor jednoduchosti modelu. Druhou možnosťou je použiť minimálnu dĺžku popisu (MDL) pravidla ako indikátor jednoduchosti. V prípade čiar, kruhov a obĺžnikov môžeme použiť počet parametrov ako minimálnu dĺžku popisu. Následne uprednostníme pravidlá s menším počtom parametrov.

Goodmanov nový problém indukcie

Autori ďalej diskutujú námietky filzofa Nelsona Goodmana voči indukcii. Zvažujú len jeden aspekt Goodmanovho argumentu a preto prezentujú jeho problém v zredukovanej podobe. (Diskusiu plného znenia ponúka kvantová koroptev.) Goodmanovým východiskom je induktívny záver, že smaragdy sú zelené. Zároveň sú však smaragdy zedré, čo znamená, že sú buď zelené alebo modré. Týmto spôsobom môžeme generovať hypotézy, ktoré sú konzistentné s pozorovaním zelených smaragdov a indukcia nám neumožňuje rozsúdiť, ktorú hypotézu uprednostniť. Autori mapujú dve riešenia navrhnuté filozofmi na štatistické indikátori jednoduchosti predstavené v tretej kapitole. Na jednej strane je možné definovať určitú množinu základných “projektívnych” pojmov, ktoré Harman a Kulkarni stotožňujú s množinami s konečnou VC-dimenziou. Len projektívne pojmy sú dovolené v indukcii. Pojmy ako zedrý nie sú projektívne a sú z množiny hypotéz vylúčené. Na druhej strane môžeme definovať stupne “projektívnosti” pojmov a uprednostniť pojmy s užšou projektívnosťou. Pojmy s užšou projektívnosťou zodpovedajú jednoduchším hypotézam a môžeme teda použiť formálne kritéria jednoduchosti.

Diskusia Goodmanovho problému je útržkovitá a povrchná, takže si viem len ťažko predstaviť ako by konkrétne riešila štatistická teória učenia Goodmanove problém. Napríklad jedným problémom MDL je, že komplexita resp. jednoduchosť závisí od spôsobu reprezentácie pravidla. Zedrý môžeme definovať ako zelený alebo modrý, pričom zelený a modrý sú základné pojmy. Na druhej strane môžeme použiť zedrý a zervený ako základné pojmy a definovať zelený ako prienik zedrého a zerveného.

VC-dimenzia a falzifikovateľnosť

Harman a Kulkarni poukazujú na možnú interpretáciu VC-dimenzie ako kvantitatívneho indikátora falzifikovatelnosti. Môžeme sa pýtať, ktorú množinu klasifikátorov chceme uprednostniť. Ak zvolíme sinusoid a aplikujeme ho na dáta, našej analýze bude chýbať moment prekvapenia. (Takisto nie je možné odhadnúť hornú hranicu pre odchýlku predpovedí.) Nech vyzerajú naše dáta akokoľvek sinusoidu sa ich podarí klasifikovať. Ak však zvolíme množinu s konečnou VC-dimenziou, napríklad množinu všetkých čiar, môže sa stať, že tejto sa nepodarí dáta klasifikovať a táto množina bude falzifikovaná. Všeobecne, množinu klasifikátorov môžeme označiť aj ako našu hypotézu. VC-teória hovorí, že by sme mali uprednostniť množinu s najnižšou VC-dimenziou. Okrem iných výhod je to množina, ktorú sa nám najskôr podarí falzifikovať a teda vylúčiť. Ak mám teda tri body tak uprednostním množinu čiar pred množinou obdĺžnikov. Keď následne získam štvrtý bod, tento buď falzifikuje moju množinu (t.j. žiadna čiara nedokáže rozdeliť moje 4 body), alebo pomocou čiar dokážem popísať aj danú konšteláciu štyroch bodov a hypotézu si ponechám.

Falzifikovateľnosť býva často interpretovaná ako všetko-alebo-nič princíp. Popper (1959) sa zamýšlal nad kvantitatívnymi kritériami falzifikovatelnosti. Popper pritom stotožnil jednoduchosť s falzifikovateľnosťou. Konkrétne si podľa Poppera sú hypotézy s menším počtom parametrov falzifikovateľnejšie. Stačí si spomenúť na sinusoid a je  nám jasné, že počet parametrov a VC-dimenzia sú nezávislé koncepty. Corfield et al. (2009) diskutujú dve možné interpretácie Poppera. 1. Popper sa, čo sa týka formalizácie falzifikovateľnosti, proste mýlil. Túto pozíciu prezentujú Harman & Kulkarni. 2. Corfield et al. sa snažia o benevolentnejšiu interpretáciu Poppera. Štatistické učenie vychádza z pasívnej situácie, keď sú nám dáta dané. Popper vychádza z aktívneho učenia. Príklad. Meriame výšku a váhu osôb a pre dáta (180,80), (175,75) a (170,70) postulujeme lineárny súvis. Ďalšie meranie však nie je pasívne dané ale vedci sa aktívne snažia vyhľadať merania, ktoré by ich teóriu falzifikovali. V našom prípade sa napríklad pokúsia pohľadať osobu s výškou 150 centimetrov aby sme zistili či naozaj váži predpovedaných 50  kilogramov. Myslím, že niektoré Popperove výroky možno interpretovať týmto spôsobom, na druhej strane to Popper zrejme nemyslel s aktívnym učením až tak vážne. Aktívne učenie dotiahnuté do dôsledkov znamená, že vyhodnocujeme dáta v priebehu experimentu a poprípade experiment upravíme. To je však z pohľadu frekventistov (a predpokladám, že aj pre Poppera) totálne tabu.

Záver a hodnotenie

V štvrtej kapitole diskutujú autori neurónové siete a klasifikátory používajúce podporné vektore v kontexte štatistického učenia. Autori sa zamýšľajú nakoľko tieto metódy môžu slúžiť ako modely učenia a rozhodovania u ľudí. Diskusia je znovu útržkovitá a keďže v tomto prípade existujú lepšie materiály nechám si ju na iný článok.

Na záver len zopakujem, že kniha je moc krátka na to, aby prezentovala adekvátny popis štatistických metód alebo adekvátnu diskusiu. Text skôr ukazuje vedcom, ktorí sú už s štatistickou alebo filozofickou stránkou veci oboznámení zaujímavé paralely a potenciálne presahy medzi štatistickým učením a epistemológiou a teóriou vedy vo filozofii.

Literatúra

Corfield, D., Schölkopf, B., Vapnik, V. (2009). Falsification and Statistical Learning Theory: Comparing the Popper and Vapnik-Chervonenkis Dimensions. Journal for General Philosophy of Science 40(1), 51–58.

Harman, G., & Kulkarni, S. (2007). Reliable reasoning: Induction and statistical learning theory. Cambridge: MIT Press.

Popper, K. (1959). The logic of scientific discovery, Hutchinson, translation of Logik der Forschung, 1934.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s