Prekliaty výpočet v0.96.23beta

Po zopár záchvatoch zúfalstva a niekoľkých hodinách rešeršovania som s mojim problémom pohol. Priznám sa, že stále netuším ako odvodiť spomínaný výpočet pomocou definície podmienenej pravdepodobnosti, čo odporúčajú Zeger & Brookmeyer (1986). Každopádne Ferreiro (1987) ukazuje ako tento výpočet odvodiť metódou najmenších štvorcov. Je daný AR(1) proces x_t = \theta x_{t-1} + e_t, kde e_t je gausovský biely šum. Snažíme sa zistiť chýbajúcu hodnotu x_s  Rekurzívny odhad je daný ako \hat{x}_t = \theta x_{t-1} + e_t a minimalizujeme

SSE = \sum_{t=0}^T (x_t - \hat{x}_t)^2 = \sum_{t=0}^T (x_t - \theta x_{t-1} + e_t)^2

Deriváciu voči x_s prežijú dva členy sumy.

2(x_s - \theta x_{s-1}) - 2 \theta (x_{s+1} - \theta x_s) = 0

Pomocou sumy štvorcov získame odhad x_s = \frac{\theta}{1+\theta^2}(y_{s+1}+y_{s-1}), čo zodpovedá výpočtu uvedenom v Zeger & Brookmeyer (1986).

Viaceré za sebou nasledujúce chýbajúce hodnoty môžeme určiť tým, že vyriešime sériu lineárnych rovníc

x_s = \frac{\theta}{1+\theta^2}(y_{s+1}+y_{s-1})
x_{s+1} = \frac{\theta}{1+\theta^2}(y_{s+2}+y_{s})
x_{s+2} = \frac{\theta}{1+\theta^2}(y_{s+3}+y_{s+1})

Výsledný vektor je daný ako x = K^{-1} b. K je uniformná tridiagonálna matica s elementami K_{ij}=1, i=j a K_{ij}=\theta / (1+\theta^2), |i-j|=1. Prvý element vo vektore b je prvá známa hodnota pred začiatkom reťaze chýbajúcich hodnôt (A) a posledný element b je prvá známa hodnota nasledujúca za reťazou chýbajúcich hodnôt. (Plus obe hodnoty násobime \frac{\theta}{1+\theta^2} )

K je možné invertovať pomocou analytickej formulky, čím získame vzorec uvedený v Zeger & Brookmeyer (1986). Ak aj K nie je uniformná, je možné ju invertovať numericky. Dôležitejšie je, že týmto spôsobom môžem odhadnúť aj autokovariačnú funkciu pre chýbajúce hodnoty. Rekurzívny odhad pre rozptyl je daný \hat{v}_t = \theta^2 v_{t-1} + e_t, čím získame pomocou najmenších štvorcov

\gamma_{0,s}= \frac{\theta^2}{1+\theta^4} ( (1-\theta^2) \sigma_e + \theta^2 (\gamma_{0,s-1}+ \gamma_{0,s+1})

Priznám sa, že odhadovať rozptyl a kovariáciu cez metódu najmenších štvorcov mi moc nevonia a ani netuším, či aj v tom prípade je výsledok identický s tým čo zamýšlali Zeger & Brookmeyer (1986).

Momentálne to ale vyzerá tak, že výpočet vôbec nebudem potrebovať, keďže odhad chýbajúcich hodnôt je možné včleniť do bayesiánskeho modelu a vypočítať pomocou MCMC vzorky (na úkor horšej konvergencie odhadu).

Ale aby celé tieto útrapy nevyzneli zbytočne tu je malé poučenie na záver. Hindsight bias v bežnom živote je príjemným radcom, keďže nám lichotí, že sme chytrí proroci a výsledné dianie vo svete okolo seba sme tušili už od začiatku. Vo výskume má však neblahé účinky, keďže nám tvrdí, že väčšine tých slepých uličiek, nedotiahnutých projektov a neaplikovaných výpočtov sme sa mohli vyhnúť, keďže správny spôsob sme “tušili” už od začiatku. Väčšina tej kompulzívno-obsesívnej výskumnej praxe je cez optiku hindsight biasu zbytočná.

Ferreiro, O. (1987) Methodologies for the estimation of missing observations in time series. Statistics and Probability Letters 5, 65–69.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s