Professional Documents
Culture Documents
Exam Ahz Ksiazka
Exam Ahz Ksiazka
Czas cigy
Dystrybuanta prawdopodobieostwo, e wydarzenie wystpi przed lub w czasie t
F(t)=P(T=<t)=
Funkcja gstoci przyrost prawdopodobieostwa na dugod przedziau, gdy dugod przedziau delta
x dy do 0
Mae f(t)=lim v delta t0 v ^ (P(t=<T<t+delta(t)))/ delta(t)
Funkcja doycia - prawdopodobieostwo, e wydarzenie nie wystpi przed czasem, czyli jednostka
pozostanie w stanie doycia(survival) a do czasu t; oznacza to, e wydarzenie kooczce epizod nie
wystpio i proces jest kontynuowany
S(t)=P(T>t)
Funkcja hazardu (intensywnoci lub ryzyka)
=
lim
0;
( =< < + | )
>0
L=
=1 ( )
( )
( )
Gdzie:
+ wskanik ocenzurowania, ktry przyjmuje nastpujce wartoci:
1,0 zdarzenie wystpio w czasie(chwili) t
0,0 w sytuacji, kiedy informacja zostaa obcita
Czas dyskretny
Funkcja rozkadu prawdopodobieostwa
= ( = ) dla i=1,2,3,,k
Jest interpretowana jako prawdopodobieostwo dowiadczenia zdarzenia o czasie Ti
Dystrybuanta
= < =
( )
<
Funkcja hazardu
Lambda indeks dolny j = P(T=ti|Tti)
Funkcj hazardu dla Ti mona interpretowad jako warunkowe prawdopodobieostwo wystpienia
zdarzenia o czasie Ti, zakadajc, e zdarzenie nie wystpio do czasu Ti.
Skumulowana funkcja hazardu
=
2.
= exp
(
0
S(ti)=lambdai * p(ti)
S(ti)=1-F(ti)
Lambdai=p(ti)/S(ti) < = > lambda(t)=p(ti)/(1-F(ti))
1
=1(1
------------
Epizod B historia epizodu jest ocenzurowana z prawej strony, wewntrz okresu obserwacji. Jeli
ocenzurowanie zostao spowodowane przez mechanizm losowy, metody analizy historii zdarzeo
zezwalaj na wczenie do analizy tego epizodu. Typ ocenzurowania moe wystpid w przypadku
badao panelowych w przypadku wyjcia jednostki z pola obserwacji bd braku danych z innego
powodu. Jeli brak danych o niedokooczonej historii epizodu nie ma charakteru losowego, tego typu
sytuacje mog tworzyd rodzaj obcienia danych i nie podlegaj korekcie w sposb prosty.
|
----------- - - - - - - |
------------| - - - -
Epizod D jest cakowicie ocenzurowany prawostronnie. Zarwno pocztek epizodu, jak i jego koniec
s poza okresem obserwacji. Takie sytuacje mog wystpid w badaniach retrospektywnych, kiedy
przedmiotem dociekao s historie badanych procesw jednostek pochodzcych z rnych kohort
urodzeniowych; wwczas gdy obserwacj odstajc jest obejmowany pewien wycinek czasu. Dla
zapobiegnicia obciciu ze wzgldu na dobr jednostek do badanej prby do modeli AHZ dla kohort
mona wprowadzid zmienn 0-1, ktra peni rol zmiennej kontrolujcej
----
Epizod E jest cakowicie ocenzurowany lewostronnie. Historia epizodu jest poza okresem
obserwacji. Cakowite obcicie lewostronne jest niemoliwe do modelowania, trudno bowiem
oceniad co, o czym nie ma adnej informacji.
---- |
Epizod F jest ocenzurowany czciowo z lewej strony. Oznacza to, e czas jego startu i jaki
fragment z pocztkowej fazy realizacji jest nieznany. Sytuacja jest troch podobna do sytuacji w
epizodzie C, ale bardziej kopotliwa do modelowania. Ten przypadek nie jest nie jest atwiejszy do
modelowania w AHZ ni w przypadku epizodu C. Wykorzystanie tego rodzaju informacji jest moliwe
pod warunkiem przyjcia okrelonych zaoeo z dobrym uzasadnieniem teoretycznym. Jednym z
takich warunkw jest zastosowanie do modelowania epizodu rozkadu wykadniczego. W rozkadzie
tym wskanik hazardu (ryzyko wystpienia zdarzenia) jest stay i niezaleny od czasu.
- - - -|--------
Epizod G jest ocenzurowany obustronnie. Taki sytuacje mog wystpid zarwno w badaniach
retrospektywnych jak i panelowych. Przykadem tego moe byd badanie w ktrym za pomoc
odpowiedniego pytania odtworzono karier zawodow osb, ktre byy bezrobotne w sierpniu 1993
roku (z okresu od stycznia 1990 roku do sierpnia 1993 roku). Ocenzurowane informacje to historia
sprzed 1990 roku i po sierpniu 1993. Ten rodzaj obserwacji jest okrelany jako informacje/dane na
temat aktualnego stanu pobytu jednostki (current status data).
- - - - - |------------------|- - - - - Przykady:
Badanie mierzy wpyw leku na miertelnod. W takim badaniu moe si okazad e wiek mierci
badanego to przynajmniej 75 lat (ale moe byd wicej). Obserwacja podlega cenzorowaniu w
przypadku gdy:
Drugim przykadem ocenzurowania moe byd przypadek jeli obserwacja wykroczy poza zakres
pomiaru, np. jeli waga jest w stanie uwzgldniad mas przedmiotw do 100kg, to przedmiot wacy
150kg poddany badaniu wag dostarczy tylko informacji, e way wicej ni 100kg, ale nie wiadomo
dokadnie ile. Tak obserwacj rwnie mona uznad za ocenzurowan.
Truncation dotyczy obserwacji ucitych z gry lub z doy prby. Pojcie jest podobne do
ocenzurowania, jednak rnica polega na tym, e obserwacje ucite w ramach truncation mog byd
potraktowane jako prba poza przedziaami badania ktre nas interesuj (tzw. underlying sample).
Cstym przykadem obcicia s dane z brany ubezpieczeniowej, ktre to s lewo- , dwu- lub
prawostronnie obcite w tramach truncation. Firmy ubezpieczeniowe na rynku amerykaoskim s
poddane pewnym ograniczeniom do ktrych zaliczony moe zostad wskanik u mwicy o stratach.
Jeli straty przewyszaj wskanik u (ang. upperlimit), firmy ubezpieczeniowe notuj straty na
5
poziomie u, niezalenie od poziomu wyjcia poza wskanik (nie wiedz dokadnie ile, nie ley to w ich
interesie, eby mierzyd strat dla regulatora). By to przykad na prawostronny censoring.
Lewostronne truncation: Jeli strata jest mniejsza ni ustalony wskanik d (ang. deductible), nie s
one wcale zgaszane do regulatora.
Podsumowujc: rnica polega na tym, e straty powyej u s zgaszane do regulatora(nieznana jest
wielkod strat, ale wiadomo, e s). To jest przykad dla censoringu. Lewostronne truncation polega
na tym, e e regulator nie wie, czy jakiekolwiek wartoci istniej poniej d, poniewa nie s one
wcale zgaszane do regulatora.
Truncation models- trancated regression models - proba wojskowych, wzrost; do wojska biora
wiekszych od MHR minima height requirements, biased, obcione wyniki, data imputation, scoring
Example[edit]
One example of truncated samples come from historical military height records. Many
armies imposed a minimum height requirement (MHR) on soldiers. This implies that men
shorter than the MHR are not included in the sample. This implies that samples drawn
from such records are perforce deficient i.e., incomplete, inasmuch as a substantial
portion of the underlying population's height distribution is unavailable for analysis.
Consequently, without proper statistical correction, any results obtained from such
deficient samples, such as means, correlations, or regression coefficients are wrong
(biased). In such a case truncated regression has the considerable advantage of
immediately providing consistent and unbiased estimates of the coefficients of the
independent variables, as well as their standard errors, thereby allowing for further
statistical inference, such as the calculation of the t-values of the estimates.
Censoring models tobit model, ahz models, nie wiemy dokadnie y, maja x
Censored regression models commonly arise ineconometrics in cases where the variable
of interest is only observable under certain conditions. A common example is labor supply.
Data are frequently available on the hours worked by employees, and a labor supply model
estimates the relationship between hours worked and characteristics of employees such as
age, education and family status. However, such estimates undertaken using linear
regression will be biased by the fact that for people who are unemployed it is not possible to
observe the number of hours they would have worked had they had employment. Still we
know age, education and family status for those observations.
A model commonly used to deal with censored data is the Tobit model, including variations
such as the Tobit Type II, Type III, and Type IV models.
These and other censored regression models are often confused with truncated
regression models. Truncated regression models are used for data where whole
observations are missing so that the values for the dependent and the independent
variables are unknown. Censored regression models are used for data where only the
value for the dependent variable (hours of work in the example above) is unknown while
the values of the independent variables (age, education, family status) are still available.
Censored regression models are usually estimated using maximum likelihood estimation.
The general validity of this approach has been shown by Schnedler in 2005, who also
provides a method to find the likelihood for a broad class of applications. [1]
Jeli kategorie zmiennej zalenej w modelu Coxa s w miare rwnolege to pozwala to twierdzid e
zaoenie PH jest spenione, w szczeglnoci jeli wartoci zmiennych wraz czasem nie rozjedaj si
- reszty dfbaeta (opcja influence)
Identyfikuje obserwacje wpywowe
Episode splitting
Episode splitting w systemie SAS mona oszacowad za pomoc pionowej struktury danych
wczytywanych do programu. W takim przypadku wiele rekordw przypada na obserwowan
jednostk, ale tylko jeden rekord przypada na dany interwa czasu, w ktrym to zmienne s stae.
Metoda episode splitting czy si ze zmiennymi zalenymi od czasu , ktre brane s pod uwag przy
estymacji modelu. Wartoci takich zmiennych mog si zmieniad w odwolnych punktach punktach w
czasie. Zastosowanie do modelu Coxa zawierajcego zmienne zalene od czasu metody czciowej
wiarygodnoci jest czasochonne ze wzgldu na procedur estymacji. Istot metody episode splitting
jest dokonanie podziau oryginalnych epizodw, czyli odcinkw czasu zoonych przy formuowaniu
modelu Coxa na subepizody. Inaczej mwic s to podokresy w kadym dowolnym punkcie czasu
wewntrz epizodu, kiedy miaa miejsce zmiana wartoci zmiennej zalenej od czasu. W wyniku
takiego podziau kady z oryginalnych epizodw jest zastpiony zestawem nowych subepizodw.
Ostatni z podokresw (Split) ma taki sam stan wyjciowy jak epizod oryginalny. Wszytstkie pozostae
subepizody s traktowane jako epizody obcite prawostronnie. Stosowanie do tego podziau zestaw
ryzyka dla jednostek objtych badaniem dla kadego punktu czasu zawiera tylko pojedyncze
subepizody powizane z odpowiednimi wartociami zmiennych. Algorytm metody czciowej
wiarygodnoci jest w tym przypadku mniej czasochonny.
Przykadem moe byd na danych dotyczcych trasplantacji serca: chcemy rozdzielid poszczeglne
epizody ze wzgldu na okres przed i po transplantacji. W poleceniu pozostawiono dowolnod co do
kodu, wic np. kod w pakiecie STATA wygldaby nastpujco (w modelu Coxa):
+ straona 204
. use link_do_danych< = >http://www.stata-press.com/data/r8/stanford, clear
. stset stime, failure(died) id(id) /*okrelienie czasu I zmiennej cenzurowanej*/
. stsplit, at(failures) /*funkcjawykonujca episode splitting*/
. generate posttran = wait<_t & wait!=0 /*stworzenie nwej zmiennej do splitu*/
. stjoin /*czyepizody*/
. stcox age posttran surgery year /*regresja PH Coxa*/
8. Reszty
Reszty dewiancji
Reszty martyngaowe
- Zalenosc liniowa pomiedzy hazardem a log hazardu i x beta
-
Zalenod: reszty martyngaowe powstaj poprzez transformacj reszt Coxa Snella, natomiast
reszty dewiancji poprzez transformacj reszt martyngaowych
Reszty typu Score
Identyfikacja obserwacji wpywowych
- liczone dla danej jednostki w odniesieniu dla danej zmiennej
- interpretowane jako waona rnica pomidzy wartoci zmiennej dla danej jednostki i redni
wartoci zmiennej tej zmiennej w populacji naraonej na ryzyko
- skalowane reszty typu score reszty dfbeta
- pomnoenie wektora reszt przez macierz kowariancji estymowanych parametrw
-interpretowane jako przybliona zmiana w estymacji parametrw dla danej zmiennej po
wykluczeniu danej jednostki ze zbioru ryzyka
Przydatne w identyfikacji jednostek odstajcych i wpywowych
Reszty Schoenfelda
- liczone dla jednej jednostki w odniesieniu do danej zmiennej
10
DODATKOWO:
Nieobserwowana heterogenicznod zmiennod ktrej nie uwzgldnilimy powoduje ; zrnicowanie
jednostek nie jest uwzgldnione w danych
11