Entropia a Pravdepodobnosť

Posledné dve dekády boli poznamenané vzostupom bayesiánskych probabilistických metód. Tento poznačil v podstate všetky oblasti skúmania od štastiky a učenia strojov až po aplikované oblasti ako bioinformatika, ekonometria alebo práve modelovanie v kognitívnych vedách. Okrem vzrušujúcich aplikácii umožnila probabilistiká formulácia zovšeobecniť a zjednotiť rôzne algoritmy.  V 90. rokoch tak výskumníci so vzrušením zistili, že rozličné modely – lineárnu regresiu, logistickú regresiu, markovské siete alebo analýzu hlavných komponent možno sformulovať ako bayesiánske grafické modely. To sa odrazilo aj na nástupe učebníc, ktoré prevzali bayesiánsky prístup ako zjednucujúci princíp, z ktorého možno všetky aplikácie podľa potreby odvodiť. V učení strojov sem patrí napríklad Bishofova PRML alebo najnovšie Barberova BRML.

Zaujímavé je pritom, že ku všeobecnej probabilistickej formulácii existuje na prvý pohľad paralelná formulácia, ktorá narába s entropiou ako kvantitou vyjadrujúcou stupeň neistoty – teda vlastne tú istú vec čo pravdepodobnosť. Tejto formulácii sa dostalo málo pozornosti. Edwin Jaynes bol historicky najväčším propagátorom entropickej interpretácie. Jaynes si pritom sľuboval od tejto interpretácie, že vyrieši chronický problém bayesiánov s určením objektívnych apriori pravdepodobností pre bayesiánske modely. V tomto článku chcem rozobrať Jaynesov prínos v tejto oblasti, ktorému sa venuje v 11. a 12. kapitole svojej knihy Probability Theory (Jaynes, 2003). V ďalšom príspevku sa posnažím pridať aj novší výskum poukazujúci na paralely medzi pravdepodobnostnou a entropickou interpretáciou.

Koncept entropie pochádza zo štatistickej mechaniky. Fyzici sa v mnohých prípadoch zaoberajú problémami, kde je globálna vlastnosť systému daná, z nej treba odvodiť inú globálnu vlastnosť. Vzťah medzi týmito kvantitami je však sprostredkovaný interakciou jednotlivých elementov, ktorých stav a vlastnosti nepoznáme alebo nás nezaujímajú. Prirodzený spôsob ako tieto interakcie modelovať je použiť teóriu pravdepodobnosti a namiesto stavu jednotlivých častíc modelovať rozdelenie pravdepodobnosti rôznych stavov. Napríklad, v pôvodnej formulácii problému, ktorou sa zaoberal Gibbs na prelome 18. a 19. storočia nás zaujíma priemerná energia systému, vplyv rôznych manipulácii (napr. pridanie teploty) na energiu a naopak vplyv energetických zmien na iné vlastnosti systému (napr. tlak). Namiesto energetického stavu jednotlivých častíc modelujeme pravdepodobnosť p_i, že náhodne vybraná častica má energiu E_i. Tieto sú dané frekvenciami častíc s danou energiou  p_i = n_i / \sum_i n_i. Energetický stav častíc nepoznáme. Tým pádom ani rozdelenie pravdepodobnosti nie je známe. Známe sú globálne vlastnosti ako celková energia systému alebo teplota. Pridaním jedného dôležitého predpokladu v ktorom hrá entropia dôležitú rolu získame Boltzmanovo rozdelenie pravdepodobnosti pre rôzne energetické stavy:

p(E_i) = \frac{\exp (-E_i / T) }{Z(T)}

kde Z je normalizačná konštanta Z(T)= \sum_i \exp (-E_i / T) a T je teplota. Toto rozdelenie pravdepodobnosti môžeme použiť pri ďalších výpočtoch a napríklad odvodiť rovnicu pre tlak ideálneho plynu P= T/V.

Tento postup môžeme použiť ako všeobecný princíp pre definovanie rozdelenia na základe útržkovitej globálnej informácie. Toto je práve to čo bayesiánov zaujíma. Teoreticky musíme špecifikovať pre bayesiánsku analýzu apriori rozdelenie pravdepodobnosti parametrov. Každej možnej hodnote musíme prideliť pravdepodobnosť. V prípade premenných so spojitou množinou hodnôt je táto množina nekonečná. Tomuto problému sa možno vyhnúť cez špecifikáciu funkciu mapujúcej hodnoty parametrov na pravdepodobnosť. Množina potenciálnych funkcii však nie je o moc konečnejšia. Štatistici nemajú takéto presné apriori znalosti, resp. nemajú čas na to svoje informácie precízne kvantifikovať. Z praktických dôvodov preto vedci kvantifikujú svoju apriori znalosť len zhruba. Hrubú informáciu môžeme interpretovať ako globálne vlastnosti s ktorými narába štatistická mechanika a môžeme použiť podobných postup aby sme sa od hrubej informácie dopracovali k precíznemu rozdeleniu pravdepodobnosti – t.j. aby sme našli prior ktorý nám umožní naštartovať bayesiánsku inferenčnú mašinu.

Tento postup odvodenia rozdelenia pravdepodobnosti z hrubej informácie funguje nasledovne. Predstavme si, že máme malé kvantá pravdepodobnosti – celkovo ich máme n a našou úlohou je prideliť tieto kvantá každej hodnote i určitého parametra tak že výsledná suma pridelených kvánt n_i určuje pravdepodobnosť p_i=n_i/n.

Predstavme si, že sme náhodne zvolili určité rozdelenie n_1, n_2, \dots , n_m . (m je počet nádob medzi ktoré kvantá rozdeľujeme – t.j. počet možných hodnôt ktoré naša premenná môže nadobudnúť.) Aká je pravdepodobnosť tohoto rozdelenia pravdepodobnosti? (Pýtať sa na pravdepodobnosť pravdepodobnosti nie je problematické akurát, musíme dať pozor aby sme sa medzi toľkými pravdepodobnosťami jazykovo nezamotali a nestratili.) Táto je daná multinomiálnym rozdelením ako

p(n_1, n_2, \dots , n_m) = m^{-n} \frac{n!}{n_1! n_2! \dots n_m!}

Teraz nasleduje dôležitý trik. Ako zvoliť správne rozdelenie, ak nemáme žiadnu konkrétnu informáciu ako by toto malo vyzerať? Nie všetky rozdelenia sú rovnako pravdepodobné. Chytrou voľbou je preto zvoliť to najpravdepodobnejšie rozdelenie. Toto získame tradične ak nájdeme maximum vyššie uvedenej funkcie.

Skôr než pristúpime k hľadaniu maxima chceme multinomiálne rozdelenie trochu upraviť aby sa nám s ním lepšie pracovalo. Po prvé odstránime nemotorné faktoriály pomocou Sterlingovej aproximácie. Druhým problémom je že v skutočnosti, samozrejme, žiadne diskrétne kvantá pravdepodobnosti neexistujú. Pravdepodobnosť je spojitá kvantita. Tohoto problému sa zbavíme matematicky cez n_i \rightarrow \infty a n \rightarrow \infty. V tomto prípade sa p_i blíži konštantnej hodnote v rozpätí medzi 0 a 1. Ako výsledok týchto dvoch manipulácii získame

\frac{1}{n} log(p(n_1, n_2, \dots , n_m)) \rightarrow - \sum_{i=1}^m p_i log(p_i) = H(p_1,\dots, p_m)

Multiplikácia \frac{1}{n} a logaritmus sú monotónne operácie, nemenia preto pozíciu maxima a maximalizácia p(n_1, n_2, \dots , n_m) je preto ekvivalentná maximalizácii funkcie H(p_1,\dots, p_m) za podmienky, že \sum_{i=1}^m p_i = 1.  K hľadaniu maxima sa dostaneme za okamžik. Najprv si však rozoberme, čo sme získali vyššie uvedenou úpravou multinomiálneho rozdelenia. Tí zbehlejší už vedia, že H nie je hocaká funkcia, ale vyjadruje entropiu rozdelenia. Entropia vyjadruje očakávaný (=priemerný) informačný obsah rozdelenia. Rozdelenia pri ktorých si nemôžeme byť istý aké hodnoty očakávať majú vyšší informačný obsah a teda vyššiu entropiu. Ak entropiu interpretujeme ako neistotu rozdelenia môžeme preformulovať našu stratégiu maximalizácie entropie aj nasledovne. Ak nemáme detailnejšie informácie o rozdelení tak najpoctivejšou voľbou je zvoliť rozdelenie s najvyšším stupňom neistoty.

Vyššie sme použili Sterlingovu aproximáciu. Táto aproximácia je presná ak hľadáme logaritmus faktoriálu, čo je náš prípad. Najpravdepodobnejšie rozdelenie samozrejme nemusí byť to správne. Aká je pravdepodobnosť, že sa mýlime? Pointa je v tom, že s rastúcim n presnosť našej voľby rapídne stúpa. To možno preukázať ak odvodíme očakávanú odchýlku vyššie uvedeného multinomiálneho rozdelenia. Obidva aproximačné kroky teda nie sú prekážkou a bez strachu sa môžeme pustiť do hľadania rozdelenia s maximálnou entropiou.

Toto získame ak maximalizujeme H(p_1,\dots, p_m) za podmienky, že \sum_{i=1}^m p_i = 1. Maximum možno najsť tak že najprv vyjadríme jeden faktor p_k = 1-\sum_{i \neq k} p_i , dosadíme p_k do H a následne maximalizujeme. V praxi je viac zaužívaná elegantnejšia metóda Lagrangeových multiplikátorov. Táto nám hovorí, že náš problém vyriešime maximalizovaním funkcie  H- (\lambda_0 - 1) \sum_{i=1}^m p_i pre p_i \lambda_0 . Ako výsledok získame p_i = exp(-\lambda_0)\lambda_0 = log(m) a teda p_i =1/m. Maximalizáciou entropie sme získali rovnomerné rozdelenie. Najlepší odhad rozdelenia v prípade, že o ňom nemáme žiadne informácie tvorí rovnomerné rozdelenie. Metóda maximalizácie entropie (ME) nám teda umožnila odvodiť z globálnej informácie aké konkrétne apriórne rozdelenie pravdepodobnosti máme použiť.

Táto metóda funguje nielen v prípade keď nemáme žiadne informácie ale aj v prípade ak niečo vieme. Ak napríklad hľadáme rozdelenie pre pozitívnu premennú s priemerom \mu ME nám povie že máme použiť exponenciálne rozdelenie s parametrom \mu. Ak hľadáme spojité rozdelenie a poznáme priemer aj odchýlku rozdelenia ME nám poradí gausovské rozdelenie pravdepodobnosti s daným priemerom a odchýlkou.

Všeobecne ak poznáme pre funkcie f_k(x) ich očakávané hodnoty F_k = \sum_{i=1}^m p_i f_k(x_i) tak hľadáme maximum pre funkciu

H- (\lambda_0 - 1) \sum_{i=1}^m p_i - \sum_{j=1}^n \lambda_j \sum_{i=1}^m p_i f_j(x_i) .

Riešenie tvorí vyššie spomenuté Boltzmanovo rozdelenie:

p_i = \frac{1}{Z(\lambda_1, \dots, \lambda_n)} \exp (-\sum_{j=1}^n \lambda_j f_j(x_i) )

kde \lambda_i možno získa deriváciou funkcie log(Z)+\sum_{k=1}^n \lambda_k F_k vzhľadom na premennú F_k.

V tomto príspevku som ukázal ako ME funguje. V nasledujúcom príspevku rozoberiem problémy ME metódy a prečo pomocou nej nie je možné odvodiť objektívne apriórne pravdepodobnosti ako si Jaynes od tejto metódy sľuboval.