Jaynes: Probability Theory, Kapitola 7

Siedma kapitola diskutuje Gaussovo rozdelenie a obsahuje mnoho mne doposiaľ neznámych detailov. Jaynes diskutuje rôzne možnosti ako toto rozdelenie odvodiť. Táto diskusia je pekne zasadená v historickom kontexte.

John Herschel (1850) sa zaoberal rozdelením odchýliek pri pozorovaniach pozície hviezdy. Ak predpokladáme, že horizontálna a vertikálna pozícia sp nezávislé a že pravdepodobnosť je symetrická okolo stredu rozdelenia, získame dvojdimenzionálne kruhové symetrické gaussovo rozdelenie:

p(x,y)=\frac{\alpha}{\pi} exp(-\alpha(x^2 + y^2))

, kde \alpha je voľný parameter skrývajúci rozptyl. Maxwell (1860) odvodil podobným spôsobom analogické rozdelenie pre tri dimenzie. Zaujímavé na týchto odvodeniach je že v podstate nepoužívajú teóriu pravdepodobnosti, ale vychádzajú z určitých geometrických podmienok, ktoré gaussovo rozdelenie spĺňa.

Gauss (1809) odvodil svoje rozdelenie iným spôsobom. V predchádzajúcom článku sme videli, že aritmetický priemer tvorí ML odhad pre vzorku nezávislých pozorovaní s gausovým rozdelením. Gauss postupoval presne opačne. Vychádzal z toho, že aritmeticky priemer je nejako zaujímavý a pomocou neho spätne odvodil, že pozorovania vo vzorke musia podliehať gausovmu rozdeleniu. Gauss zároveň ukázal, že gaussovo rozdelenie je nutnou podmienkou, aby sme dostali aritmetický priemer.

Vernon Landon (1941) študoval vlastnosti frekvenčného rozdelenia elektrického napätia rôznych zdrojov šumu. Rozličné zdroje vykazovali podobné vlastnosti a Landon sa snažil nájsť teoretické zdôvodnenie pre túto uniformitu. Landon vychádzal z toho, že rozdelenie napätia v závisí len od E(v^2)= \sigma teda p(v| \sigma). Napätie sa iteratívne mení v_2=v_1+\eta, kde \eta je drobné v porovnaní s \sigma a podlieha rozdeleniu q(\eta). Nové rozdelenie pravdepodobnosti získame sumou cez všetky možné \eta

f(v_2)= \int \! p(v_1| \sigma) q(\eta) \, \mathrm{d} \eta = \int \! p(v_2-\eta| \sigma) q(\eta) \, \mathrm{d} \eta

Aproximáciou získame

f(v_2|\sigma)=p(v_2| \sigma) - E(\eta) \frac{\partial p(v_2| \sigma)}{\partial v_2} + \frac{1}{2}E(\eta^2)\frac{\partial^2 p(v_2| \sigma)}{\partial^2 v_2} + ...

Landon ďalej postuloval, že E(\eta)= 0, teda odchýlky sú s rovnakou pravdepodobnosťou kladné aj záporné. Zároveň platí, že E(v_2^2)= E(v_1^2)+E(\eta^2) = \sigma^2 + E(\eta^2) a teda f(v_2|\sigma)=p(v_2| \sigma)+ E(\eta^2) \frac{\partial p(v_2| \sigma)}{\partial \sigma^2} . Z dvoch vyššie získaných definícii pre f(v_2|\sigma) získame diferenciálnu rovnicu, ktorej riešením je gaussovo rozdelenie
p(v|\sigma)= \frac{1}{\sqrt{2\pi \sigma^2}} exp(- \frac{v^2}{2 \sigma^2})

Zaujímavé na tejto derivácii je, že výsledné rozdelenie je nezávislé od rozdelenia odchýliek q(\eta) (pre E(\eta)= 0). To z časti vysvetľuje všadeprítomnosť a dôležitosť gaussovho rozdelenia.

Tým sa končí historický prehľad a Jaynes diskutuje interpretáciu gaussovho rozdelenia. Pre frekventistov tvorí voľba gaussovho rozdelenia ako modelu vierohodnosti predpoklad, že ak by sme pozorovali frekventovanosť meraných hodnôt tieto budú konvergovať do gaussovho rozdelenia. Podľa Jaynesa takáto interpretácia nie je vôbec potrebná. Gaussovo rozdelenie vyjadruje našu apriori vedomosť, že iba prvé dve stredné momenty rozdelenia sú relevantné. V prípade predpovedí znie bayesiánska interpretácia nasledovne. Očakávame, že len prvé dve momenty zostanú medzi pozorovanou a novou vzorkou konštantné. Pritom nie je vôbec dôležité, aké je rozdelenie pozorovaných hodnôt. Ak sú len prvé dve momenty relevantné, tak gaussovo rozdelenie minimalizuje chybu v predpovediach, a to nezávisle od aktuálneho rozdelenia hodnôt.

Jaynesovu interpretáciu vnímam kriticky. Kladie prílišný dôraz na predpovede. Presné predpovede sú dôležité pre inžinierov a fyzikov. V psychológii je však dôležitejšia explikačná hodnota modelov. Preto je aj samotná forma rozdelenia je zaujímavá a dôležitá. Samozrejme, Jaynesov argument možno akceptovať vo forme “Ak máme len informáciu, že len prvé dve momenty sú relevantné, tak postulujeme gausovské rozdelenie pre naše parametre”.

Jaynes rozpracuváva svoju interpretáciu gaussovho rozdelenia. Ak definujeme len prvé dve momenty a hľadáme rozdelenie s maximálnou entropiou – t.j. s maximálnou neistotou, získame práve gaussovské rozdelenie. Ďalším dôležitým faktorom je, že ak akceptujeme gaussovské rozdelenie, tak pri ňom aj ostaneme. Nové dáta ovplyvnia len odhad dvoch parametrov. Deje sa tak vďaka viacerým matematickým vlastnostiam gausových funkcii. Napríklad produkt dvoch gausových funkcii je znova gaussova krivka. Fourierova transformácia gausovej krivky má znova formu gausovej krivky, v dôsledku čoho aj konvolúcia dvoch gausových kriviek tvorí gausovu krivku. Jaynes demonštruje toto fungovanie gausovej krivky na príklade Galtonových modelov výšky ľudskej populácie. Rozdelenie výšky tvorí gausovu krivku. Zároveň rozdelenie výšky detí rodičov vykazuje variabilitu gausovho rozdelenia. Výška ľudí v novej generácii tak bude znova vykazovať gausovo rozdelenie. Galton zároveň odvodil aký musí byť pomer rozptylu dvoch konvoluovaných gausových rozdelení aby bol rozptyl výšky následných generácii stabilný. Jaynes diskutuje paralely medzi podobnými stabilnými gausovými rozdeleniami v biológii, fyzike a ekonómii.

Ku konci kapitoly Jaynes zmieňuje potenciál použitia gaussovských funkcii ako stavebných kameňov pre komplexnejšie funkcie a komplikovanejšie rozdelenia pravdepodobnosti. V priebehu 19. storočia napr. viacerý vedci predpokladali, že gausovské rozdelenia tvoria základné kamene inferencie, ktoré sú výsledkom procesu ťahania vzoriek. Každé ne-gausove rozdelenie ukrýva viaceré gausove rozdelenia a úlohou vedca má byť zistiť aké faktory tvoria a ovplyvňujú tieto subpopulácie. Takýto predpoklad je problematický, keďže aj gaussove rozdelenie možno rekurzívne rozdeliť na ďalšie gaussove rozdelenia. Ďalej takmer vždy existuje viacero možných kombinácii ako negausovskú krivku rozložiť. Matematicky nie je tento inverzný problém jasne definovaný. Jaynes však ukazuje, že ak vezmeme tento problém ako problém inferencie, tak voľba apriori pravdepodobnosti parametrov gausovských stavebných kamienkov môže ponúknuť dostatok informácie, aby bol problém matematicky jednoznačne definovaný. Snaha o dekompozíciu teda nie je celkom stratená. Jaynes sa vo svojich víziách rozhodne nemýlil. Dnes tvoria metódy tzv. gausovských procesov aktívnu oblasť výskumu v obore strojového učenia.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s