Potrebujem pomôcť s výpočtom

EDIT 10.10.2012: čiastočný výpočet je tu.

Naposledy som predstavil jednoduchý regresný model s cenzurovanými dátami. Tento bral reakčné časy ako nezávislé, čo nie je zmysluplné, keďže počas experimentu dochádza k učenie a probandi riešia za sebou nasledujúce problémy postupne rýchlejšie. Preto chcem použiť autoregresívny model prvého stupňa (AR(1)): y_{t+1}=\theta y_{t} + \eta_t, kde \eta_t je WGN so štandardnou odchýlkou  \sigma. Vierohodnosť modelu je daná ako

L=p(t_0) \prod_{t=1}^T p(y_{t}|y_{t-1}) =p(t_0) \prod_{t=1}^T \phi (\frac{y_t - \theta y_{t-1}}{\sigma})

kde \phi(.) je hustota pravdepodobnosti normovaného gausovského rozdelenia. Problém mi robí vypočítať vierohodnosť pre cenzurované dáta. V skratke, cenzurované dáta tvoria reťaze cenzurovaných hodnôt nasledované vždy pozorovanou hodnotou. Napr. P P C C C P P P C C C P P C P obsahuje dva reťazce dĺžky 4 a jeden dĺžky dva. Problémom je určiť vierohodnosť cenzurovaných hodnôt a pozorovanej hodnoty, ktorá nasleduje po cenzurovanej (keďže táto je podmienená cenzurovanou hodnotou). Zeger a Brookmeyer (1986) popisujú ako tieto vierohodnosti získať. Ich postup však vyžaduje znalosť podmienenej strednej hodnoty a podmieneného rozptylu, ktorých výpočet mi robí problémy. Označme hodnotu posledného pozorovania pred cenzurovanou reťazou ako A a hodnotu prvej pozorovanej hodnoty nasledujúcej po cenzurovaných hodnotách ako Z (teda reťaz hodnôt vyzerá A C … C Z). Cenzurované hodnoty označme ako Y_i, i=1,...,N. Potrebujem určiť stredové hodnoty E(Z|A), E(Y_i|A,Z) a príslušný rozptyl cov(Z|A), cov(Y|A,Z), pričom cov(Y|A,Z) je NxN matica. Ostatné hodnoty sú skaláry. Zeger a Brookmeyer uvádzajú stredové hodnoty pre AR(1). Prvý výraz je E(Z|A)= \theta^{N+1} A. Analogicky viem rekurzívne odvodiť

cov(Z|A)= \sigma^{2}\sum_{i=0}^{N}\theta^{2i}= \sigma^{2} (1- \theta^{2(N+1)})/ (1- \theta^2)

Výraz pre druhú stredovú hodnotu je uvedený ako

E(Y_i|A,Z)= (1-\theta^{2N})^{-1} (\theta^i (1-\theta^{2(N-i)}) A + \theta^{N-i} (1-\theta^{2i}) Z))

Nemám potuchy ako autori tento výraz získali. Zjavne výraz interpoluje Y_i ako vážený pomer A a Z na základe vzdialenosti v čase. Výpočet pre najjednoduchší prípad A C Z je :  E(Y_1|A,Z)= \theta (A + Z) / (1+ \theta^2). Dosadením A=\theta^{-1}Y_1, Z=\theta Y_1 možno overiť správnosť výrazu, ako ho však autori odvodili stále neviem. Problémom je, že tým pádom neviem odvodiť  cov(Y|A,Z), ktorého výpočet autori neuvádzajú a teda neviem vypočítať vierohodnosť.

Ak máte predstavu alebo aspoň nejaký hint ako posledné dve kvantity odvodiť, napíšte mi do komentárov alebo pošlite mi správu. Budem veľmi vďačný.

Zeger, S., L. & Brookmeyer, R. (1986). Regression Analysis with Censored Autocorrelated Data. Journal of the American Statistical Association. Vol. 81, No. 395. 722-730.

Pridaj komentár

Zadajte svoje údaje, alebo kliknite na ikonu pre prihlásenie:

WordPress.com Logo

Na komentovanie používate váš WordPress.com účet. Log Out / Zmeniť )

Twitter picture

Na komentovanie používate váš Twitter účet. Log Out / Zmeniť )

Facebook photo

Na komentovanie používate váš Facebook účet. Log Out / Zmeniť )

Google+ photo

Na komentovanie používate váš Google+ účet. Log Out / Zmeniť )

Connecting to %s