Maximum Likelihood, Maximum Posterior, Fully Bayesian

Chcem, aby sa články na Mozgostrojoch zaoberali aj technickejšími témami, ktoré vyžadujú určité pokročilejšie znalosti. Ich náročnosť by nás nemala odradiť. Na druhej strane by mali zostať tieto témy dostupné aj bežnému laickému čitateľovi s gymnaziálnymi znalosťami. Preto na Mozgostrojoch ponúkam aj články, ktoré by som nazval Wiki-vzdelávacími. Tieto sprostredkujú témy a pojmy, ktoré budem potrebovať v neskorším článkoch. Tento článok patrí do kategórie Wiki-vzdelávacích. Zaoberá sa spôsobmi, akými bayesián a frekventista riešia problém hľadania optimálnych parametrov v štatistických modeloch.

Zoberme si problém jednoduchej lineárnej regresie. Máme danú hodnotu (prediktor) x a na základe nej sa snažíme odvodiť hodnotu y. V prípade regresie sú obidve hodnoty kontinuálne. Napríklad x je IQ danej osoby a na základe neho sa snažíme predpovedať y výšku príjmu tejto osoby. Lineárny model, modeluje súvis medzi týmito hodnotami pomocou čiary. Lineárna regresia môže zahŕňať aj viacej prediktorov x_m pre m =1,2,...,M. V prípade jedného prediktora hovoríme o jednoduchej lineárnej regresii. Matematicky vyjadríme náš model nasledovne: y=b_0 + b_1x, pričom b_0 je offset čiary na ypsilónovej osy a b_1 je jej stúpanie. Obrázok nižšie znázorňuje tieto súvislosti.

Modré bodky znázorňujú pozorované páry hodnôt  x_n,y_n pre pokusné osoby n=1,...,N .  Našou úlohou je nájsť b_0, b_1 tak že x_n,y_n ležia na čiare. Farebne sú znázornené čiary pre rôzne hodnoty b_0, b_1. Z obrázku je zrejme, že čiara b_0=200, b_1=4 ideálne popisuje dáta. Reálne dáta sú samozrejme komplexnejšie a nie všetky pozorovania budú ležať na jednej čiare. Kam by ste umiestnili čiaru na obrázku nižšie?

Lineárneho modelu sa nemusíme vzdať, ale musíme ho vylepšiť tak aby zahŕňal neistotu v meraných údajoch: y_n=b_0 + b_1x_n + \mathcal{N}(0,\sigma)= \mathcal{N}(b_0 + b_1x_n,\sigma) . \mathcal{N}(\mu,\sigma) označuje gausovo rozdelenie so strednou hodnotou \mu a rozptylom  \sigma. Gausovo rozdelenie modeluje chybu v meraní. Vierohodnosť (likelihood) modelu vyjadríme ako p(y_n| x_n,b_0,b_1,\sigma)=\mathcal{N}(y_n|b_0 + b_1x_n,\sigma). Treba si uvedomiť, že pri kvantite p(y_n| x_n,b_0,b_1,\sigma) sú premennými b_0,b_1,\sigma a nie y_n. Ak by bolo premennou y_n mohli by sme hovoriť o pravdepodobnosti, lebo \sum_{y \in Y} p(y| x_n,b_0,b_1,\sigma)=1. Platí však, že \sum_{b_0,b_1,\sigma} p(y| x_n,b_0,b_1,\sigma) \neq 1, nejedná sa o pravdepodobnosť a kvantitu voláme vierohodnosť.

Ak chceme získať vierohodnosť modelu p(y|x,b_0,b_1,\sigma) pre všetky dáta volime p(y|x,b_0,b_1,\sigma)=\prod_{n=1}^N p(y_n| x_n,b_0,b_1,\sigma)=\prod_{n=1}^N \mathcal{N}(y_n|b_0 + b_1 x_n,\sigma). Modelujeme teda rôzne merané hodnoty ako nezávislé. Nezávislosť vyjadrujeme ako multiplikáciu pravdepodobností nezávislých udalostí. Týmto sme s formuláciou modelu hotoví a hľadať parametre. Chceme zvoliť parametre tak, aby vierohodnosť bola, čo najväčšia . Tým pádom musia mať jednotlivé členy sumy  \mathcal{N}(y_n|b_0 + b_1x_n,\sigma) čo najvyššiu pravdepodobnosť a teda y_n musí ležať čo najbližšie pri strednej hodnote b_0 + b_1x_n. To zodpovedá našej intuícii, že odchýlka predpovedaných hodnôt od skutočných hodnôt by mala byť minimálna. Maximálnu vierohodnosť modelu nájdeme nasledovne. Po prvé, funkcia \prod_{n=1}^N \mathcal{N}(y_n|b_0 + b_1 x_n,\sigma) je konkávna a má teda jedno maximum. Po druhé, prvá derivácia funkcie na maxime je rovná nule. To znamená, že optimálne parametre môžeme nájsť ak vyriešime rovnicu \nabla p(y|x,b_0,b_1,\sigma) \overset{!}{=} 0 pre b_0,b_1,\sigma. Ušetrím vás algebry a uvediem hlavné výsledky:
b_1=\frac{\sum(y_nx_n-b_0x_n)}{\sum x_n^2}, b_0=\frac{\sum(y_n-b_1x_n)}{N} .

(Ak štandardizujeme dáta na ypsilonovej osy potom b_0=0 a b_1=r_{xy} je rovná korelačnému koeficientu.)

Výsledk pre nás  nie sú až také zaujímavé. Zaujíma nás všeobecný princíp. Tento je možné opakovať v prípade viacerých prediktorov. Takisto v prípade viacerých závislých premenných, takisto v prípade diskrétnych, kategorických (či už závislých alebo nezávislých) premenných. Model sa môže v detailoch líšiť, ale princíp maximálnej vierohodnosti je rovnaký. V najhoršom prípade nezískame analytický výraz pre parametre nášho modelu.

Pozrime sa teraz na bayesiánsky prístup odhadovania parametrov. Na tomto mieste zjednoduším notáciu a regresívne koeficienty zhrniem do jednej premennej \theta. Namiesto p(y|x,b_0,b_1) teda píšem p(y|x,\theta). Bayesiáni by frekventistickú analýzu interpretovali nasledovne. V skutočnosti nás zaujíma rozdelenie p(\theta|y,x), na základe, ktorého môžeme vybrať \theta s najvyššou pravdepodobnosťou. Toto môžeme získať pomocou Bayesovej vety (moje vysvetlenie tu):$latex p(\theta|y,x) \propto p(y|x,\theta )p(\theta |x)$. p(y|x,\theta) je nám známa vierohodnosť a p(\theta|x) je apriori pravdepodobnosť rôznych parametrov. Ak má prior rovnomerné rozdelenie tak získame p(\theta|y,x) = p(y|x,\theta), teda frekventistické riešenie s maximálnou vierohodnosťou. Bayesiáni namietnu, že často máme približnú predstavu akému rozdeleniu \theta podlieha, alebo aspoň v akom pásme hodnôt \theta leží. Prior môže byť subjektívny a reprezontovať subjektívny odhad a istotu vedca. Prior môže byť aj objektívny, napr. založený na rozdelení \theta pozorovanom v predchádzajúcom experimente. Prior, ktorý sa väčšinou používa je gausovo rozdelenie so strednou hodnotou nula: p(\theta|x)=\mathcal{N}(\theta|0,\alpha). Následne optimalizujeme p(\theta|y,x) \propto \mathcal{N}(y|\theta^T x,\sigma)\mathcal{N}(\theta|0,\alpha). Prínos prvého člena (vierohodnosti) sa nemení. Stále sa snažíme minimalizovať vzdialenosť medzi predpovedanými hodnotami \theta^T x a pozorovanými hodnotami y. Aký je prínos druhého člena? Tento minimalizuje \theta^2. Tento člen bude v ideálnom prípade rovný nule. V tomto prípade budú všetky regresné parametre rovné nule a predpovede modelu teda nebudú založené na dátach. Na jednej strane teda chceme aby model podal presné predpovede, na druhej strane mu v tom bránime, tým že obmedzujeme jeho parametre. Na čo je to dobré?

Ak sa snažíme predpovedať nejakú kvantitu, snažíme sa zozbierať, čo najviac relevantných prediktorov. Problém je v tom, že nevieme, ktoré tie relevantné prediktory sú. Koniec koncov toto je práve, čo chceme aby náš model zistil. Bude výkon probandov v našom novo navrhnutom teste logického myslenia závisieť od pohlavia, od náboženského vyznania, od IQ, od výšky platu? Najčastejšou stratégiou je zozbierať pokiaľ možno čo najviac dostupných prediktorov. Avšak s počtom prediktorov stúpa aj pravdepodobnosť, že jeden z nich bude náhodou predpovedať výsledky v našom teste. Takýchto náhod sa chceme vyvarovať. Pri zbieraní dát očakávame, že prediktívna sila väčšiny prediktorov bude nulová, avšak u zopár premenných bude stredne vysoká. Túto intuíciu formalizuje náš prior. Najpravdepodobnejšie sú koeficienty okolo nuly. Očakávame zopár nenulových koeficientov, ktorých pravdepodobnosť klesá so stúpajúcou prediktívnou silou.

Vyššie uvedený prior možno interpretovať ako formalizáciu occamovej britvy. Jednoduchšie modely s menej nenulovými parametrami potrebujú menej prediktorov na to, aby predpovedali y. Takéto modely chceme uprednostniť pred zložitými modelmi dosahujúcimi porovnateľný výkon.

V obore učenia strojov sa tomuto problému hovorí aj over-fitting a jeho riešeniu regularizácia (prior je regularizačný koeficient). Náš model ideálne popisuje dáta, avšak naše dáta sú len aproximatívnym popisom reality. Preto chceme obmedziť náš model aby vzorce v dátach prevzal len do určitej miery.

Kedže p(\theta|y,x) sa nazýva aposteriórna pravdepodobnosť, vyššie uvedený bayesiánsky prístup k optimalizácii sa často nazýva  Maximum Posterior (MAP). Model nám umožňuje určiť maximum aposteriórneho rozdelenia a jemu zodpovedajúce parametre. V zásade však neexistuje argument, prečo by sme bayesiánsky prístup nemohli aplikovať pri optimalizácii aj ďalších parametrov. Napríklad môžeme pridať člen popisujúci rozdelenie \sigma, \alpha. Podobne môžeme nechať model určiť aj stredovú hodnotu rozdelenia koeficientov \theta, nazvime ju \mu. Model by mohol vyzerať napríklad takto: p(\theta|y,x) \propto p(y|x,\theta,\sigma)p(\theta|x,\mu,\alpha)p(\sigma)p(\mu|x)p(\alpha).

Christopher Bishop (2006) nazýva tento všeobecný prístup Fully Bayesian.

Aby som to zhrnul, videli sme, že frekventisti a bayesiáni optimalizujú parametre podobne akurát bayesiáni priberajú apriori rozdelenie parametrov do svojich výpočtov. Maximálnu vierohodnosť, ktorú používajú frekventisti možno interpretovať ako bayesiánsky spôsob s priorom s rovnomerným rozdelením. Treba dodať, že zatiaľčo princíp maximálnej vierohodnosť možno aplikovať rovnako pri odlišných typoch dát, bayesiánska interpretácie takéhoto modelu môže byť iná (teda prior bude iný). Frekventistov totiž nezaujíma samotný prior ale asymptotika, konvergencia a bias ich optimalizačných metód. Prior je prispôsobený týmto cieľom. A samozrejme frekventisti by nesúhlasili s bayesiánskou interpretáciou. Podľa nich princíp maximálnej vierohodnosti žiadny prior neobsahuje a ani ho tam netreba.

Bishop, C. (2006). Pattern Recognition and Machine Learning. Springer, New York.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s