Formálny model inferencie: Prípad časticovej fyziky

Mnohí vedci robia svoju prácu s nadšením, ktoré by bolo často možné aj klinicky diagnostikovať. Keď sa ich spýtate na predmet ich výskumu môže sa vám dostať výlevu aký by ste očakávali od básnika, ktorý sa po fľaši vína rozhovorí o svojich múzach. Napríklad z rozhovoru Weinberga pre nemecký Spiegel (môj preklad):

SPIEGEL: Keď vy alebo iný fyzici začnete hovoriť o teórii všetkého tak skôr, či neskôr padne slovo “krása”. Ako môže byť teória krásna?

Weinberg: V určitom zmysle sa to dá porovnať s pojmom krásy v hudbe: Ak počúvate Prelude od Chopina, tak cítite, že každý tón je správne zvolený. Žiadny iný by ho lepšie nenahradil.

SPIEGEL: Objektívna veda sa spolieha na subjektívne pocity?

Weinberg: Vskutku dokážeme vycítiť ak naše teórie obsahujú nejaký falošný tón. Samozrejme nie vždy sa v tom zhodneme. Následne sa sporíme tak ako sa ľudia sporia o tom či hudobnú skladbu možno vylepšiť. Ale v konečnom dôsledku je to jeho/jej nenahraditeľnosť, čo konkrétny tón alebo rovnicu robí krásnou. Keď počujete melódiu, ako opakuje frázu, tak cítite: Toto nemožno vylepšiť.

SPIEGEL: Hudba nepozná žiadne objektívne merítko, pomocou ktorého by sme mohli rozhodnúť, či je Mozartova hudba krajšia ako Chopinova alebo Schönbergova. Vo vašej vede však niečo také snáď existuje, či nie?

Weinberg: Testujeme teórie aby sme zistili či sú konzistentné s experimentami. Tým testujeme náš cit pre krásu – testujeme či sú naše teórie pravdivé. Pravda je niečo, k čomu v umení neexistuje žiadna paralela. V umení je otázka pravdivosti bezvýznamná.

SPIEGEL: Je pravda krásna?

Weinberg: Áno.

Podobné ódy na vedu možno nájsť u ďalších jej popularizátorov. Paradoxným vedľajším produktom je, že vedecký proces – proces vymýšľania teórii a experimentov alebo analýzy dát je vnímaní vedcami so spirituálnou bázňou. Čiže naturalizácia estetiky alebo naturalizácia náboženstva a spirituality sú v poriadku. No skúste vedcom navrhnúť, aby konečné postavili silikónového vedca a  proces naturalizácie narazí na odpor. Vedci, ich neobmedzená kreativita a intuícia pre krásu, sú predsa nenahraditeľní. Zrazu ani posledný dualistický kruhový argument nie je dosť zlý na to, aby vedci pomocou neho uchránili svoj flek a zdôvodnili svoju nepostrádateľnosť.

Ako som už spomínal pre štatistikov je tento konflikt záujmov obzvlášť relevantný keďže ich kolegovia z oblasti učenia stroje tak celkom nedomysleli svoje ciele do dôsledkov. Nedá mi nespomenúť Rainer Alexandrowitza, ktorý pár rokov dozadu zaskakoval na katedre psychologickéj metodiky na LMU v Mníchove. Alexandrovitz sa nám na jednej prednáške k modelovaniu štrukturálnych rovníc posťažoval ako jeho americký kolegovia prišli s návrhom tento proces modelovania automatizovať (SEM sú podmnožinou grafických modelov, takže nie je až také ťažké si to predstaviť). Ešte dnes sa musím smiať keď si spomeniem ako Alexandrovitz na prednáške rozhodil rukami a zvolal, že toto naozaj nechceme, lebo tak skončíme všetci nezamestnaní. Alexandrowitz mal aj špeciálny novotvar “substanzwissenschaftlich” (príslovka vyjadrujúca niečo ako “vedecky opodstatnene”). Substanzwissenschaftlich bolo treba argumentovať a pracovať tam kde formálne metódy definitívne končia. O tom, že niekde (a často aj konkrétne kde) končia nemal Alexadrowitz pochýb. V jeho ponímaní bolo dôležitou súčasťou vyúčby naučiť študentov umeniu štatistiky – ako riešiť problémy ktoré nemožno automatizovať.

Na rozdiel od kolegov vedcov a štatistikov, však my psychológovia máme eminentný záujem na tom a aby sa pri skúmaní, pri hľadaní teórii, návrhu experimentov a vyhodnocovaní dát v ľudskom mozgu žiadne zázraky nediali. Práca vedcov spočíva na psychologických mechanizmoch, na schopnostiach riešenia problémov a získania vhľadu. Ako takú chceme túto činnosť pochopiť a v konečnom dôsledku (v tom zmysle, že počítačové modely sú najlepším spôsobom teoretizovania) formalizovať. Prvé zaujímavé návrhy už existujú a v tomto článku chcem ukázať ako možno formalizovať proces hľadania optimálneho modelu v časticovej fyzike.

V časticovej fyzike tvoria dáta pozorovania reakcii – rozpadu a zrážok elementárnych častíc. Elementrárne častice sú nazývané častice, ktoré nie sú atómy ani jadrá atómov. (Výnimku tvorí protón – ktorý je jadrom atómu vodíka a zároveň elementárnou časticou.) Tabuľka vyššie uvádza značky hlavných 22 častíc. Ak vám tieto značky nič nehovoria, je najvyšší čas odskočiť si na wikipédiu a naučiť sa ich mená naspamäť. IHNEĎ!!!

Dáta teda tvoria pozorované reakcie – rozpad a zrážky častíc. Napríklad po zrážke dvoch protónov zostanú dva protóny a jeden pión. Mión sa rozpadá na elektrón, elektrónové neutríno a miónové antineutríno. Úlohou modelu časticovej fyziky je popísať pozorované a predpovedať nepozorované interakcie. Formálne môžeme definovať model ako klasifikátor, ktorý nám pri každej reakcii povie či je možná alebo nemožná. Zaujíma nás či existuje stratégia pre voľbu modelu ktorá by nám na základe pribúdajúcich pozorovaní umožnila nájsť optimálny model.

Pre optimálnu stratégiu existuje séria pozorovaní určitej dĺžky na základe ktorej nám naša stratégia vypľuje správny model – model ktorý klasifikuje všetky budúce pozorovania správne, inak povedané model, ktorý nebude falzifikovaný. Nie je ťažké ukázať, že takáto stratégia neexistuje. Množina možných serií pozorovaní je omnoho väčšia ako množina modelov a pre každý model možno skonštruovať príklad, ktorý model falzifikuje. Napríklad ak sme opakovane pozorovali interakciu p+p \rightarrow p+p+\pi^0 (I1) stratégia musí v určitom momente dospieť k modelu, ktorý predpovedá interakciu p+p \rightarrow p+p+\pi^0+\pi^0 (I2) ako nemožnú (inak sa stratégia nemôže naučiť správny model pre prípad že I1 platí a I2 nie). V tom momente však môže byť náš model falzifikovaný pozorovaním I2. Po určitom množstve pozorovaní I1 a I2 môžeme dospieť k modelu ktorý hovorí že I1 aj I2 sú správne. Tento model však zároveň musí klasifikovať I3: p+p \rightarrow p+p+\pi^0+\pi^0+\pi^0 . Pomocou takéhoto množenia piónov možno pre každý model zostrojiť prípad, ktorý model potenciálne falzifikuje. Tým pádom neexistuje stratégia ktorá by nám umožnila nájsť na základe pozorovaní model, ktorý bude definitívne správny. Problémom vyššie uvedeného príkladu je že nikdy nezískame negatívnu evidenciu o tom, že určitá reakcia je nepozorovateľná. Avšak aj v prípade, že presne určíme sadu možných a nemožných reakcii existuje nekonečné množstvo modelov, ktoré tieto pozorovania vysvetľujú a medzi ktorými sa musíme rozhodnúť.

Samozrejme fyzici našli a používajú konkrétny model – tzv. štandardný model časticovej fyziky. Ako sa k nemu dopracovali? Viackrát na tomto blogu sme videli, že neriešiteľné induktívne problémy sa stanú zrazu riešiteľnými ak pridáme apriori znalosti resp. zahrnieme do inferencie určité predpoklady. Podobne je tomu aj v časticovej fyzike. Fyzici vychádzajú z existencie konzervačných zákonov. Tieto postulujú, že určité kvantity sa pri reakciách zachovávajú. Tieto konzervačné zákony časticovej fyziky sú motivované úspechom dávnejšie známych konzervačných zákonov ako je zákon zachovania energie alebo zákon zachovania hybnosti. V prípade časticovej fyziky však často ich teoretická pozícia nie je až taká silná a ich jedinou úlohou je spraviť problém hľadania modelu časticovej fyziky riešiteľným. Feynman (1965, p. 67) si napríklad sťažuje na teoretickú neuspokojivosť baryonového čísla: ‘‘If charge is the source of a field, and baryon number does the same things in other respects it ought to be the source of a field too. Too bad that so far it does not seem to be, it is possible, but we do not know enough to be sure’’.  Tabuľka vyššie uvádza päť nezávislých kvantít ktoré sa pri reakciách zachovávajú: baryonové, leptónové, miónové a tau číslo + elektrický náboj. Model zároveň musí určiť konkrétne hodnoty týchto kvantít pre každú časticu. Tabuľka vyššie uvádza hodnoty pre štandardný model.

Konzervačné princípy značne zjednodušujú inferenciu možných reakcii. Napríklad sa môžeme vrátiť k prípadu I1 vyššie. Pión musí niesť nulovú hodnotu každej kvantity. Tým pádom môžeme na základe konzervačného princípu tvrdiť, že aj I2, I3 a vskutku všetky Ik pre ľubovoľné sú možné. (To ešte neznamená, že sú pozorovateľné, že boli pozorované, alebo že boli/budú pozorované s rovnakou frekvenciou pre všetky k.) Všeobecne môžeme zredukovať problém hľadania možných reakcii na hľadanie lineárnej bázy pre pozorované reakcie. Množinu všetkých možných reakcii tak získame ako lineárny uzáver (linear closure). Príklad: R1 a+a \rightarrow a+a+b+b a R2 a \rightarrow b boli pozorované. Tieto reakcie možno vyjadriť ako vektory (0,2) a (-1,1), kde prvá pozícia vyjadruje vznik/úbytok častíc a a druhá pozícia to isté pre časticu b . Množina všetkých možných reakcii je definovaná ako c(0,2) + d(-1,1) kde c a d sú celé čísla.

Konzervačné princípy umožňujú rozlíšiť nepozorované a nemožné reakcie a teda riešia problém s negatívnou evidenciou. Reakcie, ktoré nezachovávajú konzervované kvantity sú nemožné a naopak všetky ostatné sú možné:

There is an unwritten precept in modern physics, often facetiously referred to as Gell-Mann’s totalitarian principle, which states that ‘‘anything which is not prohibited is compulsory’’. Guided by this sort of argument we have made a number of remarkable discoveries from neutrinos to radio galaxies. (Bilaniuk & Sudarshan, 1969)

Samozrejme občas sa stane, že nemožné reakcie sú pozorované. Napríklad R1 a R2 implikujú, že q(a)=0, q(b)=0. Povedzme, že sme pozorovali reakciu R3 a \rightarrow c a náš model hovorí že q(c)=1. Táto reakcia nesmie existovať. To by znamenalo, že konzervované kvantity sme postulovali nesprávne. Takéto anomálie je však možné vysvetliť aj inak ako úpravou konzervačných zákonov. Môžeme postulovať výskyt nepozorovaných – t.j. skrytých častíc. R1 môžeme napríklad upraviť na R1b a+a \rightarrow a+a+b+b+d, kde d je nová skrytá častica. R1b, R2 a R3 existujú pre q(a)=1, q(b)=1, q(d)=-2 a pre vyžadované q(c)=1. Vo všeobecnosti, postulovanie skrytých častíc umožňuje vysvetliť existenciu určitých reakcii. Postulovanie skrytých častíc pre určité reakcie môže mať testovateľné implikácie pre ďalšie reakcie. Takisto s rozvojom experimentálnej technológie sa môžu stať skryté častice priamo alebo nepriamo pozorovateľnými. Ako slávne príklady môžu poslúžiť neutrína (postulované Paulim roku 1930) alebo Higgsov bozón (postulovaný Petrom Higgsom roku 1963). Graf nižšie ilustruje úspešnosť štandardného modelu pri predpovedaní existencie častíc a s nimi spojených konceptov.

Samozrejme mohlo to byť aj inak. Ak by sa nepodarilo nájsť Higgsov bozón bolo by potrebné prispôsobiť množinu postulovaných častíc a v extrémnom prípade aj prekopať konzervačné zákony. Toto spektrum siaha od jednoduchej modifikácie štandardného modelu až po jeho falzifikáciu a nahradenie iným modelom.

Nechajme však postulovanie nových častíc bokom. Predpokladajme že všetky pozorované reakcie častíc majú konzistentnú interpretáciu. Ako nájsť správne konzervačné zákony, ktoré takúto interpretáciu umožňujú? Tento problém je znova ľahko riešiteľný pomocou lineárnej algebry. Zachovávané kvantity tvoria lineáne uzavretý priestor vektorov. Napríklad môžeme definovať Šimkovicove číslo ako baryonové  + miónové číslo (B a M kvantity v tabuľke). Je jasné, že ak sú miónové číslo a baryonové číslo zachovávané, tak reakcie zachovávajú aj Šimkovicove číslo. Našou úlohou je tak nájsť bázu tohoto lineárne priestoru. Konkrétne tento priestor tvorí ortogonálny komplement priestoru možných reakcii.

V tomto článku nás zaujímajú dve otázky. Po prvé nakoľko zodpovedá vyššie popísaná stratégia spôsobu, ktorým fyzici dospeli k svojmu súčasnému modelu t.j. štandardnému modelu. Umožňuje ďalšie lepšie modely, resp. ďalšie v predpovediach ekvivalentné rmodely? Po druhé na koľko je táto stratégia optimálna? Existujú apriórne princípy ktoré hovoria v prospech vyššie popísaného formalizmu lineárnej algebry.

Schulte (2008) implementoval vyššie popísanú stratégiu hľadania modelov. Ako dáta vyextrahoval 205 nezávislých reakcii z literatúry pre 182 známych častíc. Veľkú časť týchto dát tvoria informácie o rozpade individuálnych častíc, ktoré zhŕňa a publikuje Annual Review of Particle Physics. (Dáta a programy nájdete tu.) Schulteho program produkuje riešenia ktoré sú empiricky ekvivalentné štandardnému modelu – t.j. predpovedajú presne tie isté množiny správnych a nesprávnych reakcii. Tieto riešenia sa však môžu rozchádzať čo sa týka definície konkrétnych kvantít. Technicky vzaté môžeme nájsť viaceré bázy, ktoré definujú ortogonálny komplement k priestoru reakcii. Napríklad model zachovavájúci miónové, tau, elektrónové a Šimkovicovo číslo tvorí tiež bázu. (Náboj častice – C, je z veľkej časti daný cez zákon zachovania elektrického náboja a v rovniciach ho môžeme reprezentovať ako danú nezávislú kvantitu, preto túto kvantitu v ďalšej diskusii opomeniem.). Tento model je ekvivalentný k štandardnému modelu v tom zmysle, že predpovedá rovnaké reakcie. Prečo by sme teda mali preferovať štandardný model pred tým Šimkovicovským? Konzervované kvantity štandardného modelu definujú vlastnosti častíc a takisto rodiny častíc (baryónová, miónová, tau a elektrónová rodina). Ak je definícia kvantít ľubovoľná (v zmysle že existujú iné ekvivalentné definície), tak je aj ontológia častíc postulovaná štandardným modelom ľubovoľná, či nie?

V prvom rade treba dodať, že všetky riešenia, ktoré Schulteho program produkuje rešpektujú rozdelenie častíc na častice a antičastice. V tabuľke vyššie si môžete všimnúť, že pri každej kvantite možno nájsť pár s pozitívnym a negatívnym znamienkom. Tento fenomén nájdeme v prípade každej bázy, v prípade každého empiricky optimálneho modelu. Ďalej treba dodať, že môžeme použiť ďalšie neempirické princípy na to, aby sme vybrali z ekvivalentných modelov. Weinberg hovoril o kráse. My môžeme hovoriť o jednoduchosti. Napríklad ak si predstavíte v tabuľke stĺpec pre Šimkovicove číslo (B+M) tak tento bude obsahovať 10 nenulových hodnôt. Stĺpec pre baryonové číslo je jednoduchší a krajší v tom zmysle že obsahuje menej nenulových hodnôt. Vskutku Schulte zistil, že ak minimalizujeme počet nenulových hodnôt ako sekundárne kritérium tak získame štandardný model ako unikátne riešenie! Ďalším atraktívnym faktom je že nenulové hodnoty pre stĺpce B,M,E,T tvoria exkluzívne skupiny Žiadny riadok (častica) neobsahuje dve nenulové hodnoty. Tým je možné rozdeliť častice do rodín, pre ktoré možno následne hľadať nezávisle fundamentálnejšie princípy (napríklad ako kvarky tvoria baryóny).

Schulteho algoritmus modeluje hľadanie štandardného modelu ako sa tomu dialo vo fyzike v 60., 70. rokoch, keď hlavnými indíciami boli reakcie. Aj vtedy však už existovali nezávislé princípy ktoré umožňovali uprednostniť určitý model. Napríklad, ak si zoradíme častice podľa ich hmotnosti tak uvidíme obrovskú priepasť medzi hmotnosťou baryónov (ťažké) a leptónov. Toto pozorovanie tvorí nezávislú evidenciu pre vytvorenie baryónovej rodiny častíc. Takisto Schulteho dáta nezahŕňajú určité anomálie, ako napríklad oscilácie neutrín – reakcie popierajúce konzervačné princípy štandardného modelu. Pointa je v tom, že všetky tieto dodatočné zdroje informácii a pochybností by sme mohli zahrnúť. Zaujímavé je, že aj bez nich algoritmus unikátne identifikuje štandardný model.

Vyššie uvedené výpočty štandardného modelu pomocou lineárnej algebry sme viac-menej vytiahli z rukáva. Je možné toto riešenie podložiť nejakým konceptom optimality?  Vskutku Schulte (2000,2008) ukázal, že metóda výpočtu tvorí v určitom zmysle optimálnu a jedinú optimálnu stratégiu. Tento koncept optimality funguje na snahe minimalizovať počet falzifikácii modelu než konvergujeme k správnemu modelu. Snažíme sa dopracovať k riešeniu bez toho aby sme často menili náš názor na to ktorý model je v danom čase, pri danej evidencii správny. Najlepšou takouto stratégiou je v každom kroku vytvoriť minimálnu teóriu zahŕňajúcu a vysvetľujúcu súčasné pozorovania. Toto je presne to čo robí vyššie citovaný Gell-Mannov totalitaristický princíp. Súčasné pozorovania implikujú určitú množinu možných pozorovaní. Všetky ostatné pozorovania sú nemožné. Schulte ukázal, že táto stratégia garantuje  existenciu konečného worst-case počtu zmien názoru pre každú sériu pozorovaní. Inak povedané metóda garantuje konvergenciu (ak správne riešenie existuje).

Podobným spôsobom sa možno pozrieť aj na historický proces objavovania modelov v chémii, kde sú často reakcie reprezentované vo forme rovníc. Všeobecnejšie možno Schulteho princíp minimalizácie zmien názoru v priebehu jeho hľadania správneho modelu identifikovať so “silnou inferenciou” Johna Platta. Platt (1964) sa pozastavil nad systematickosťou a nekompromisnosťou experimentovania a teoretizovania v časticovej fyzike a v molekulárnej biológii, ktoré viedli k obrovskému pokroku v týchto oblastiach v 60. a 70. rokoch. Tento sa vyznačoval práve tým, že sa snažil minimalizovať počet krokov, ktoré vedci museli podstúpiť na ceste k správnemu modelu. Platt srdečne odporučil tento spôsob silnej inferencie vedcom v sociálnych vedách. Jeho nápad nemôže fungovať. Štatistická neistota výsledkom pritom nie je hlavným problémom. Teoreticky môžeme zvýšiť počet pozorovaní/probantov a opakovane replikovať experiment tak, že pravdepodobnosť daného výsledku sa bude blížiť k istote. Viaceré súčasné replikačné iniciatívy v psychológii sa uberajú týmto smerom. Silná inferencia v psychológii nemôže fungovať, lebo predmet výskumu nie je možné rozkúskovať na atomárne binárne (platné/neplatné) hypotézy.  V tomto ducha sa niesla Newellova kritika experimentálnej psychológie, ktorej argumenty zhŕňa môj starší článok.

Norbert Bischof zvykol poznamenať, že psychológovia nie sú hlúpejší ako fyzici. Fyzici mali šťastie, že im výsledky v podstate padli do náruče bez väčšieho snaženia. Videli sme ako pomocou matematických formalizmov možno dodatočne zdôvodniť postup akým sa generácie fyzikou dopracovali k štandardnému modelu časticovej fyziky. Inferencia v psychológii je naproti tomu omnoho ťažšia. Vskutku nie je vôbec jasné akým smerom by sa mala inferencia v psychológii uberať. Myslím, že toto je dobrá príležitosť postaviť kozu pred voz a formálne vypracovať optimálnu inferenčnú stratégiu predtým než začneme pumpovať zdroje do zberu dát.

Bilaniuk, O.-M., & Sudarshan, E. C. G. (1969). Particles beyond the light barrier. Physics Today, 22, 43–52.

Feynman, R. (1965). The character of physical law (1990 ed., Vol. 19). Cambridge, MA: MIT Press.

Platt, J. R. (1964). Strong inference. Science, 146(3642), 347-353.

Schulte, O. (2000). Inferring conservation laws in particle physics: A case study in the problem of induction. The British Journal for the Philosophy of Science, 51, 771–806.

Schulte, O. (2008). The co-discovery of conservation laws and particle families. Studies In History and Philosophy of Science Part B: Studies In History and Philosophy of Modern Physics, 39(2), 288-314.