Harman & Kulkarni: Reliable Reasoning

Princetonský filozof Gilbert Harman a jeho kolega od inžinierov Sanjeev Kulkarni napísali krátku esej, ktorá diskutuje filozofické aspekty induktívnych metód používaných v štatistike a v učení strojov. Text je moc krátky na to aby poskytol adekvátny popis štatistickej metodológie a slúži skôr ako zhrnutie a diskusia pre čitateľov, ktorí sú už s technickou stránkou veci oboznámení.

Prvá kapitola začína všeobecnou diskusiou indukcie. Autori odmietajú delenie spôsobu inferencie na dedukciu a indukciu. Dedukcia je nástroj vyvodzovania a ako taký je pri väčšine reálnych problémov nepoužiteľná. Väčšinou totiž nemáme dané stopercentne platné premisy, z ktorých sa snažíme niečo vyvodiť. Naopak buď máme viacej platných záverov a snažíme sa zistiť, ktorý z nich je najspoľahlivejší, alebo máme množinu nekonzistentných tvrdení a snažíme sa zistiť, ktorého z tvrdení sa chceme vzdať. Problémom indukcie teda nie je ako dospieť k stopercentne platným záverom, ale ako spoľahlivo riešiť reálne problémy.

Prvou možnosťou zistiť ako spoľahlivá indukcia funguje je pozrieť sa ako rozumujú ľudia. Takto sa môžeme odvodiť nejaké základné princípy rozumovania. No ľudské rozumovanie je často nespoľahlivé a vratké. Lepšie nám preto poslúži ak sa poobhliadneme po spôsoboch indukcie, ktoré sa používajú v štatistike a informatike.

Tieto sa snažia povedať ako na základe dát spoľahlivo určiť metódu, ktorá dokáže dáta najlepšie popísať a predpovedať. Stratégie rozhodovania možno rozdeliť na tri vetvy. Prvú vetvu tvorí Vapnik-Chervonenkis (VC) teória, ktorá poskytuje odhad maximálnej chyby bez toho, že by postulovala nejaké rozdelenie pravdepodobnosti pre pozorované dáta. Druhú vetvu tvoria tradičné štatistické metódy, ktoré odhadujú chybu v predpovediach pomocou dát a postulovaného rozdelenia pravdepodobnosti. Tretiu vetvu tvoria rôzne formalizácie jednoduchosti. Tieto metódy sú väčšinou používané v kombinácii očakávanou odchýlkou a teda môžeme, tak ako to robia autori, zhrnúť posledné dve vetvy do kopy. Druhá kapitola je venovaná VC-teórii. Tretia kapitola je venovaná formálnym definíciám jednoduchosti. Štvrtá kapitola diskutuje aplikácie týchto konceptov v učení strojov.

VC-teória

VC-teóriu môžeme ilustrovať na probléme binárnej klasifikácie. Pripomínam, že klasifikácia je daná ako množina n-dimenzionálnych bodov, z ktorých každý patrí do jednej z dvoch kategórii. Nižšie je znázornený dvoj-dimenzionálny prípad.


Našou úlohou je rozdeliť priestor, v ktorom sa body nachádzajú na oblasti kde predpovieme krížiky a na oblasti patriace krúžkom. V predchádzajúcom príspevku som ilustroval ako také rozdelenie možno spraviť pomocou čiary (resp. pomocou hyperroviny pre vyššie dimenzie). Vo všeobecnosti však naše rozdelenie nemusia tvoriť čiary ale ľubovoľné geometrické útvary a ľubovolné pravidlá.  Nižšie je znázornený prípad s tromi bodmi a s možnými kruhovými hranicami. V prípade čiary máme dva parametre, ypsilónový posun a stúpanie čiary. Pomocou týchto parametrov môžeme získať všetky možné čiary. V prípade kruhu máme tri parametre pozíciu kruhu a jeho polomer.

VC-teória definuje VC-dimenziu klasifikátora. Zoberme si množinu všetkých čiar. Pomocou čiary môžeme rozdeliť ľubovolnú nekolineárnu konšteláciu (t.j. ľubovolnú polohu a priradenie kategórii) troch 2D bodov. Nižšie sú znázornené všetky možné kombinácie. Vo všeobecnosti môžeme pomocou čiary rozdeliť ľubovolnú konšteláciu N+1 N-dimenzionálnych bodov.

V prípade štyroch bodov však existujú konštelácie, ktoré sa nám čiarou rozdeliť nepodarí.

VC-dimenzia vyjadruje najvyšší počet bodov, ktorý určitá množina pravidiel (napr. množina čiar) dokáže (pre všetky možné konštelácie) rozdeliť. VC-dimenzia množiny všetkých čiar je teda 3 pre 2D body a N+1 pre N-dimenzionálne body. Rovnakú VC-dimenziu má aj množina všetkých kružníc.

Množina všetkých obdĺžnikov má VC-dimenziu 4.

VC-dimenzia môže byť aj nekonečná. Napríklad pomocou sinusoidu parametrizovaným frekvenciou f a posunom p môžeme klasifikovať ľubovolnú konšteláciu ľubovolného počtu bodov. Klasifikátor je daný pre 1D prípad ako signum(sin(fx + p)).

Množina pravidiel môže byť kombináciou vyššie uvedených čiar, obdĺžnikov… Môžu ju takisto tvoriť len určité čiary alebo podmnožina kružníc. V zásade hocaká množina je možná pokiaľ ju vieme zmysluplne definovať a táto množina nie je nespočítateľná.

VC-teória a indukcia

Pomocou VC-teórie môžeme vylepšiť indukciu. VC-teória umožňuje určiť hornú hranicu ku ktorej očakávaná odchýlka (napr. tradičný súčet štvorcov rozdielu medzi predpovedanou a novou hodnotou) s pribúdajúcimi pozorovaniami konverguje. Takáto horná hranica nie je samozrejmá – nevyplýva zo zákona veľkých čísel. Zvažujeme totiž odchýlku pre množinu pravidiel. S každým novým pozorovaním môže byť konkrétne optimálne pravidlo iné a teda aj jeho odchýlka je iná. Táto hranica existuje len pre množinu pravidiel s konečnou VC-dimenziou. Pre množiny s konečnou dimenziou je odchýlka priamo úmerná veľkosti VC-dimenzie. To znamená, že množiny s väčšou VC-dimenziou je horná hranica odhadu odchýlky vyššia a teda sa nám oplatí uprednostniť množiny s nízkou VC-dimenziou.

Treba dodať, že tento výsledok pre odhad odchýlky platí pre všetky rozdelenia pravdepodobnosti. Napríklad pri lineárnej regresii môžeme použiť gausovské rozdelenie alebo Studentovo t rozdelenie ako model pre odchýlku. V štatistike sú odhady odchýlky založené na tomto rozdelení. Výsledok VC-teórie nezávisí od rozdelenia pravdepodobnosti a je všeobecnejší. Zároveň sú však odhady VC-teórie oveľa konzervatívnejšie až natoľko, že sú pre prax nepraktické.

Jednoduchosť

V tretej kapitole sa autori venujú prípadom kde je rozdelenie pravdepodobnosti známe. Na základe rozdelenia môžeme určiť odchýlku a zvoliť pravidlo, ktoré túto odchýlku minimalizuje. Problémom je, že často získame model ktorý perfektne popisuje dáta ale mizerne zovšeobecňuje na budúce pozorovania. Preto musíme modifikovať náš odhad odchýlky (, ktorý minimalizujeme) tak aby uprednostňoval jednoduché modely. Možností ako to spraviť je v štatistike neúrekom. Autori diskutujú dve metódy patriace pod teóriu štatistického učenia. Metóda minimalizácie štrukturálneho rizika (SRM) používa VC-dimenziu ako indikátor jednoduchosti modelu. Druhou možnosťou je použiť minimálnu dĺžku popisu (MDL) pravidla ako indikátor jednoduchosti. V prípade čiar, kruhov a obĺžnikov môžeme použiť počet parametrov ako minimálnu dĺžku popisu. Následne uprednostníme pravidlá s menším počtom parametrov.

Goodmanov nový problém indukcie

Autori ďalej diskutujú námietky filzofa Nelsona Goodmana voči indukcii. Zvažujú len jeden aspekt Goodmanovho argumentu a preto prezentujú jeho problém v zredukovanej podobe. (Diskusiu plného znenia ponúka kvantová koroptev.) Goodmanovým východiskom je induktívny záver, že smaragdy sú zelené. Zároveň sú však smaragdy zedré, čo znamená, že sú buď zelené alebo modré. Týmto spôsobom môžeme generovať hypotézy, ktoré sú konzistentné s pozorovaním zelených smaragdov a indukcia nám neumožňuje rozsúdiť, ktorú hypotézu uprednostniť. Autori mapujú dve riešenia navrhnuté filozofmi na štatistické indikátori jednoduchosti predstavené v tretej kapitole. Na jednej strane je možné definovať určitú množinu základných “projektívnych” pojmov, ktoré Harman a Kulkarni stotožňujú s množinami s konečnou VC-dimenziou. Len projektívne pojmy sú dovolené v indukcii. Pojmy ako zedrý nie sú projektívne a sú z množiny hypotéz vylúčené. Na druhej strane môžeme definovať stupne “projektívnosti” pojmov a uprednostniť pojmy s užšou projektívnosťou. Pojmy s užšou projektívnosťou zodpovedajú jednoduchším hypotézam a môžeme teda použiť formálne kritéria jednoduchosti.

Diskusia Goodmanovho problému je útržkovitá a povrchná, takže si viem len ťažko predstaviť ako by konkrétne riešila štatistická teória učenia Goodmanove problém. Napríklad jedným problémom MDL je, že komplexita resp. jednoduchosť závisí od spôsobu reprezentácie pravidla. Zedrý môžeme definovať ako zelený alebo modrý, pričom zelený a modrý sú základné pojmy. Na druhej strane môžeme použiť zedrý a zervený ako základné pojmy a definovať zelený ako prienik zedrého a zerveného.

VC-dimenzia a falzifikovateľnosť

Harman a Kulkarni poukazujú na možnú interpretáciu VC-dimenzie ako kvantitatívneho indikátora falzifikovatelnosti. Môžeme sa pýtať, ktorú množinu klasifikátorov chceme uprednostniť. Ak zvolíme sinusoid a aplikujeme ho na dáta, našej analýze bude chýbať moment prekvapenia. (Takisto nie je možné odhadnúť hornú hranicu pre odchýlku predpovedí.) Nech vyzerajú naše dáta akokoľvek sinusoidu sa ich podarí klasifikovať. Ak však zvolíme množinu s konečnou VC-dimenziou, napríklad množinu všetkých čiar, môže sa stať, že tejto sa nepodarí dáta klasifikovať a táto množina bude falzifikovaná. Všeobecne, množinu klasifikátorov môžeme označiť aj ako našu hypotézu. VC-teória hovorí, že by sme mali uprednostniť množinu s najnižšou VC-dimenziou. Okrem iných výhod je to množina, ktorú sa nám najskôr podarí falzifikovať a teda vylúčiť. Ak mám teda tri body tak uprednostním množinu čiar pred množinou obdĺžnikov. Keď následne získam štvrtý bod, tento buď falzifikuje moju množinu (t.j. žiadna čiara nedokáže rozdeliť moje 4 body), alebo pomocou čiar dokážem popísať aj danú konšteláciu štyroch bodov a hypotézu si ponechám.

Falzifikovateľnosť býva často interpretovaná ako všetko-alebo-nič princíp. Popper (1959) sa zamýšlal nad kvantitatívnymi kritériami falzifikovatelnosti. Popper pritom stotožnil jednoduchosť s falzifikovateľnosťou. Konkrétne si podľa Poppera sú hypotézy s menším počtom parametrov falzifikovateľnejšie. Stačí si spomenúť na sinusoid a je  nám jasné, že počet parametrov a VC-dimenzia sú nezávislé koncepty. Corfield et al. (2009) diskutujú dve možné interpretácie Poppera. 1. Popper sa, čo sa týka formalizácie falzifikovateľnosti, proste mýlil. Túto pozíciu prezentujú Harman & Kulkarni. 2. Corfield et al. sa snažia o benevolentnejšiu interpretáciu Poppera. Štatistické učenie vychádza z pasívnej situácie, keď sú nám dáta dané. Popper vychádza z aktívneho učenia. Príklad. Meriame výšku a váhu osôb a pre dáta (180,80), (175,75) a (170,70) postulujeme lineárny súvis. Ďalšie meranie však nie je pasívne dané ale vedci sa aktívne snažia vyhľadať merania, ktoré by ich teóriu falzifikovali. V našom prípade sa napríklad pokúsia pohľadať osobu s výškou 150 centimetrov aby sme zistili či naozaj váži predpovedaných 50  kilogramov. Myslím, že niektoré Popperove výroky možno interpretovať týmto spôsobom, na druhej strane to Popper zrejme nemyslel s aktívnym učením až tak vážne. Aktívne učenie dotiahnuté do dôsledkov znamená, že vyhodnocujeme dáta v priebehu experimentu a poprípade experiment upravíme. To je však z pohľadu frekventistov (a predpokladám, že aj pre Poppera) totálne tabu.

Záver a hodnotenie

V štvrtej kapitole diskutujú autori neurónové siete a klasifikátory používajúce podporné vektore v kontexte štatistického učenia. Autori sa zamýšľajú nakoľko tieto metódy môžu slúžiť ako modely učenia a rozhodovania u ľudí. Diskusia je znovu útržkovitá a keďže v tomto prípade existujú lepšie materiály nechám si ju na iný článok.

Na záver len zopakujem, že kniha je moc krátka na to, aby prezentovala adekvátny popis štatistických metód alebo adekvátnu diskusiu. Text skôr ukazuje vedcom, ktorí sú už s štatistickou alebo filozofickou stránkou veci oboznámení zaujímavé paralely a potenciálne presahy medzi štatistickým učením a epistemológiou a teóriou vedy vo filozofii.

Literatúra

Corfield, D., Schölkopf, B., Vapnik, V. (2009). Falsification and Statistical Learning Theory: Comparing the Popper and Vapnik-Chervonenkis Dimensions. Journal for General Philosophy of Science 40(1), 51–58.

Harman, G., & Kulkarni, S. (2007). Reliable reasoning: Induction and statistical learning theory. Cambridge: MIT Press.

Popper, K. (1959). The logic of scientific discovery, Hutchinson, translation of Logik der Forschung, 1934.

Prekliaty výpočet v0.96.23beta

Po zopár záchvatoch zúfalstva a niekoľkých hodinách rešeršovania som s mojim problémom pohol. Priznám sa, že stále netuším ako odvodiť spomínaný výpočet pomocou definície podmienenej pravdepodobnosti, čo odporúčajú Zeger & Brookmeyer (1986). Každopádne Ferreiro (1987) ukazuje ako tento výpočet odvodiť metódou najmenších štvorcov. Je daný AR(1) proces x_t = \theta x_{t-1} + e_t, kde e_t je gausovský biely šum. Snažíme sa zistiť chýbajúcu hodnotu x_s  Rekurzívny odhad je daný ako \hat{x}_t = \theta x_{t-1} + e_t a minimalizujeme

SSE = \sum_{t=0}^T (x_t - \hat{x}_t)^2 = \sum_{t=0}^T (x_t - \theta x_{t-1} + e_t)^2

Deriváciu voči x_s prežijú dva členy sumy.

2(x_s - \theta x_{s-1}) - 2 \theta (x_{s+1} - \theta x_s) = 0

Pomocou sumy štvorcov získame odhad x_s = \frac{\theta}{1+\theta^2}(y_{s+1}+y_{s-1}), čo zodpovedá výpočtu uvedenom v Zeger & Brookmeyer (1986).

Viaceré za sebou nasledujúce chýbajúce hodnoty môžeme určiť tým, že vyriešime sériu lineárnych rovníc

x_s = \frac{\theta}{1+\theta^2}(y_{s+1}+y_{s-1})
x_{s+1} = \frac{\theta}{1+\theta^2}(y_{s+2}+y_{s})
x_{s+2} = \frac{\theta}{1+\theta^2}(y_{s+3}+y_{s+1})

Výsledný vektor je daný ako x = K^{-1} b. K je uniformná tridiagonálna matica s elementami K_{ij}=1, i=j a K_{ij}=\theta / (1+\theta^2), |i-j|=1. Prvý element vo vektore b je prvá známa hodnota pred začiatkom reťaze chýbajúcich hodnôt (A) a posledný element b je prvá známa hodnota nasledujúca za reťazou chýbajúcich hodnôt. (Plus obe hodnoty násobime \frac{\theta}{1+\theta^2} )

K je možné invertovať pomocou analytickej formulky, čím získame vzorec uvedený v Zeger & Brookmeyer (1986). Ak aj K nie je uniformná, je možné ju invertovať numericky. Dôležitejšie je, že týmto spôsobom môžem odhadnúť aj autokovariačnú funkciu pre chýbajúce hodnoty. Rekurzívny odhad pre rozptyl je daný \hat{v}_t = \theta^2 v_{t-1} + e_t, čím získame pomocou najmenších štvorcov

\gamma_{0,s}= \frac{\theta^2}{1+\theta^4} ( (1-\theta^2) \sigma_e + \theta^2 (\gamma_{0,s-1}+ \gamma_{0,s+1})

Priznám sa, že odhadovať rozptyl a kovariáciu cez metódu najmenších štvorcov mi moc nevonia a ani netuším, či aj v tom prípade je výsledok identický s tým čo zamýšlali Zeger & Brookmeyer (1986).

Momentálne to ale vyzerá tak, že výpočet vôbec nebudem potrebovať, keďže odhad chýbajúcich hodnôt je možné včleniť do bayesiánskeho modelu a vypočítať pomocou MCMC vzorky (na úkor horšej konvergencie odhadu).

Ale aby celé tieto útrapy nevyzneli zbytočne tu je malé poučenie na záver. Hindsight bias v bežnom živote je príjemným radcom, keďže nám lichotí, že sme chytrí proroci a výsledné dianie vo svete okolo seba sme tušili už od začiatku. Vo výskume má však neblahé účinky, keďže nám tvrdí, že väčšine tých slepých uličiek, nedotiahnutých projektov a neaplikovaných výpočtov sme sa mohli vyhnúť, keďže správny spôsob sme “tušili” už od začiatku. Väčšina tej kompulzívno-obsesívnej výskumnej praxe je cez optiku hindsight biasu zbytočná.

Ferreiro, O. (1987) Methodologies for the estimation of missing observations in time series. Statistics and Probability Letters 5, 65–69.

E.T. Jaynes: Probability Theory, Kapitola 3 a 4

V minulom príspevku sme videli, že Jaynes chápe teóriu pravdepodobnosti ako rozšírenú logiku. V prvej kapitole Jaynes predstavil 5 základných axiómov. V druhej kapitole pomocou nich odvodil definíciu pravdepodobnosti a 2 základné pravidlá: pravidlo násobenia a pravidlo sumy.

V tretej kapitole Jaynes ukazuje, že pomocou týchto základných pravidiel možno odvodiť zaujímavé výsledky. Napríklad, ak máme viaceré navzájom vylučujúce sa (a vyčerpávajúce) tvrdenia A, B, C, tak vieme, že p(C)=1-p(A)-p(B).

Ak pridáme dodatočné informácie o procese, ktorý pravdepodobnosti ovplyvňuje získame komplikovanejšie rozdelenia pravdepodobnosti. Jaynes preberá rôzne rozdelenia vyplývajúce z pravidiel kombinatoriky. Tieto možno intuitívne formulovať ako ťahanie lôpt z urny. V urne je určitý počet červených a bielych lôpt. Lopty postupne z urny náhodne ťaháme (bez vrátenia do urny) a zaujíma nás pravdepodobnosť rôznych udalostí vyplývajúcich z ťahov. Aká je pravdepodobnosť, že prvá lopta je biela? Aká je pravdepodobnosť, že druhá lopta je biela? Aká je pravdepodobnosť, že prvá a druhá lopta sú biele? Aká je pravdepodobnosť, že v prvých troch ťahoch vytiahneme presne dve biele lopty? Pomocou pravidiel pravdepodobnosti (a s trochou matematiky) nie je ťažké tieto výsledky odvodiť. V poslednom prípade dáva odpoveď tzv. hypergeometrické rozdelenie, ktoré určuje pravdepodobnosť, že vytiahneme b bielych lôpt pri n ťahoch (nezávisle od ich poradia).

Hypergeometrické rozdelenie je prvé rozdelenie pravdepodobnosti, s ktorým sa v knihe stretávame. Jaynes diskutuje niekoľko konceptov dôležitých v súvislosti s rozdeleniami: vytvárajúca funkcia, kumulatívne rozdelenie, quantily, medián a stredovú hodnotu. Pri tejto diskusii sa Jaynes dostáva k prvému prípadu, ktorý spôsobuje zmätky. Lopty vyberáme z urny bez vrátenia. Ich počet v urne sa znižuje a tým pádom sa menia aj ich pravdepodobnosti. Ak sme začali s piatimi bielymi a piatimi červenými a v prvom ťahu sme vytiahli bielu loptu tak pravdepodnobnosť, že v druhom ťahu vytiahneme bielu nie je 0.5 ale 4/9. Predchádzajúce udalosti majú kauzálny vplyv na súčasný výpočet pravdepodobnosti. Čo však v prípade ak sme v druhom ťahu vytiahli bielu loptu? Aká je pravdepodobnosť, že v prvom ťahu vytiahneme bielu. Intuitívne druhý ťah by nemal mať vplyv na predchádzajúcu udalosť. Na začiatku je v urne rovnaký počet bielych a červených lôpt a pravdepodobnosť je 0.5. Niektorí vedci dokonca zašli tak ďaleko, že vyhlásili takto chápaný princíp kauzality za axióm teórie pravdepodobnosti. Podobne nerozvážne sa vyjadroval aj Popper. Dotyční však dostanú od Jaynesa po zadku. Mýlia si totiž fyzikálny stav sveta s informačným stavom nášho robota. Informácie môžu pôsobiť spätne, ak je minulosť neznáma. Na tom je koniec koncov založená aj archeológia, paleontológia a ďalšie vedné obory. Intuíciu fyzikálnej kauzality je možné vyvrátiť pomocou jednoduchého príkladu. Ak máte v urne jednu bielu a jednu červenú loptu a v druhom ťahu ste vytiahli červenú loptu, aká je pravdepodobnosť, že v prvom ťahu vytiahnete červenú loptu? Pravdepodobnosť evidentne nie je 50:50, ale je nulová. Zmätky ohľadom fyzikálnej a informačnej kauzality zrejme znemožňujú mnohým aj správne vyriešiť Monty Hallov problém.

Jaynes uvádza ďalšie rozdelenia pravdepodobnosti: Binomiálne a multinomiálne. Tieto získame z hypergeometrického rozdelenia. V prípade keď je počet lôpt v urne veľký, majú predchádzajúce ťahy minimálny vplyv na pravdepodobnosť a táto teda ostáva konštantná. Napríklad pri 500000 bielych a 500000 červených je pravdepodobnosť po prvom ťahu 499999/1000000, čo je zanedbateľná odchýlka od 0.5.

V ďalšom odseku sa zaoberá Jaynes ťažším prípadom, keď lopty po vytiahnutí z urny vraciame naspäť. Problém vzniká tým, že máme informáciu o tom, že sme vložili loptu naspäť do urny. Väčšinou bude niekde na vrchu a teda pravdepodobnosť, že ju znova vytiahneme je vyššia. Ako máme však modelovať túto dodatočnú informáciu?  Jaynes popisuje postup s jemu typickým sarkazmom:

In probability theory there is a very clever trick for handling a problem that becomes too difficult. We just solve it anyway by:
(1) Making it still harder;
(2) Redefining what we mean by “solving” it, so that it becomes something we can do;
(3) Inventing a dignified and technical sounding word to describe this procedure, which has the psychological efect of concealing the real nature of what we have done, and making it appear respectable (Jaynes, s. 319)

Jaynes navrhuje, že sa dodatočnej informácie vzdáme tým, že urnu po vrátení premiešame tak že nasledujúci ťah je znovu náhodný. Tým sa problém stane na oko ťažším, keďže sme sa vzdali užitočnej informácie (1). Zároveň sme problém trochu obmenili, keďže sme zaviedli miešanie (2). V štatistike sa tomuto postupu hovorí randomizácia (3).

K téme náhodilosti a randomizácie nasleduje ďalšia kázeň od Jaynesa. Vedci si totiž znova mýlia fyzikálny stav sveta s informačným stavom. Náhodilosť ako fyzikálny stav neexistuje a reprezentuje len našu neznalosť:

Shaking does not make the result “random”, because that term is basically meaningless as an attribute of the real world; it has no clear definition applicable in the real world. The belief that “randomness” is some kind of real property existing in Nature is a form of the Mind Projection Fallacy which says, in effect, “I don’t know the detailed causes therefore Nature does not know them.” What shaking accomplishes is very different. It does not affect Nature’s workings in any way; it only ensures that no human is able to exert any wilful influence on the result. Therefore nobody can be charged with “fixing” the outcome. (s. 320)

Randomizácia je teda len metódou ako pridať do problému neznalosť. Jaynes diskutuje aj možnosť, že urnu nepremiešame a informáciu o vytiahnutej lopte zahrnieme do výpočtov. Jaynes modeluje situácie pomocou jednoduchej Markovskej reťaze prvého stupňa. Výsledky týchto výpočtov sú však nepresné a nepraktické. Výpočet je komplikovaný a zároveň model je moc jednoduchý na to aby popísal reálnu komplexitu a teda, aby poskytol efektívne predpovede.

Jaynes uzatvára kapitolu o rozdeleniach pravdepodobnosti varovaním, že v praktických prípadoch je dôležité zamyslieť sa nad tým, či spomenuté situácie s urnami a loptami zodpovedajú nášmu reálnemu problému. Ak tomu tak nie je, musíme sa vrátiť späť k základným pravidlám a odvodiť potrebné rozdelenie pomocou nich.

Tretia kapitola vychádzala z toho, že máme určité hypotézy o procese generujúcom dáta (urna, farebné lopty, náhodnosť) a pomocou týchto hypotéz určíme pravdepodobnosť dát p(D|H). V reálnom výskume nás ale zaujíma iný prípad. Dáta sú dané a nás zaujíma pravdepodobnosť hypotéz p(H|D). V štvrtej kapitole sa Jaynes zaoberá metódami testovania hypotéz.

Pravdepodobnosť p(H|D) získame z p(D|H) jednoducho pomocou Bayesovej vety p(H|D)= p(D|H)p(H) / p(D). Diskusia rozdelení v tretej kapitole teda nebola zbytočná, keďže tieto využijeme p(D|H) aj pri testovaní hypotéz. Zatiaľčo p(H|D) označuje aposteriórnu pravdepodobnosť, p(H) označuje apriori pravdepodobnosť alebo skrátene prior. Prior neimplikuje časové poradie dát. Výsledok je v zásade rovnaký nezávisle, na tom ktorá časti dát tvorí prior a ktorá posterior.

V ďalšom odstavci Jaynes demonštruje ako testovať binárne hypotézy pomocou fiktívnych dát z prístroja, ktorý produkuje chybné produkty. Binárnou hypotézou môže byť napríklad, že stroj produkuje chybné produkty s pravdepodobnosťou 1/11 (H1) alebo s komplementárnou pravdepodobnosťou 10/11 (H2). Evidencia v prospech H1 je daná ako e(H1|D) = 10 log[ p(H1|D)/ p(H2|D)]. Jaynes uprednostňuje logaritmus s bázou 10, ale v zásade by sme mohli použiť aj inú hodnotu. Výsledok je tak daný v decibeloch. Pozitívny vysoký výsledok hovorí v prospech H1. Negatívny výsledok v prospech H2 a výsledok okolo nuly indikuje, že o respetívnej platnosti hypotéz nemožno na základe dát spoľahlivo rozhodnúť.

V prípade viacerých hypotéz potrebujeme pre každú hypotézu H nájsť pravdepodobnosť komplementárnej negácie H a dosadiť ju za p(H2|D). Vo väčšine prípadov sú naše hypotézy navzájom vylučujúce a vyčerpávajúce takže túto pravdepodobnosť môžeme získať pomocou našich dvoch základných pravidiel.

V druhej časti kapitoly sa Jaynes zaoberá spojitými rozdeleniami. V prvom rade Jaynes poznamenáva, že striktne vzaté sú všetky v počítačoch uložené dáta diskrétne – sú kvantizované a digitalizované. Spojité rozdelenia však môžu prakticky uľahčiť naše výpočty a preto sú zaujímavé. Spojité rozdelenia možno odvodiť z tých diskrétnych. Jaynes zdôrazňuje, že mapovanie od diskrétneho k spojitému rozdeleniu si vždy treba uvedomiť a rozmyslieť, inak sa môžeme pri neskorších výpočtoch s integrálmi dopracovať k paradoxom.

Praktickým dôsledkom spojitých rozdelení je, že pravdepodobnosť rozdelenia hypotéz môžeme modelovať pomocou spojitého rozdelenia a tým pádom môžeme testovať nekonečný počet hypotéz. Napríklad v prípade chybných produktov môžeme testovať celú škálu poruchovosti od 0 až po 100 percent chybných produktov. Nakoniec si Jaynes kladie otázku ako zvoliť kontinuálne p(H) v prípade keď nemáme žiadne apriórne vedomosti o relatívnej pravdepodobnosti hypotéz. V tomto prípade nemôžeme uprednostniť žiadnu hypotézu a použijeme rovnomerné rozdelenie.

Zatiaľčo vo frekventistickej literatúre je testovanie viacerých hypotéz kontroverzné, Jaynes ukazuje, že z pohľadu teórie pravdepodobnosti ako rozšírenej logiky to nie je žiadny problém. Takýto bayesiánsky prístup má samozrejme praktické výhody, keďže sa nemusíme snažiť skomprimovať výskum komplexného fenoménu do série binárnych otázok a odpovedí.