Analiza Prezivljavanja

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 73

UNIVERZITET U NOVOM SADU

PRIRODNO-MATEMATIČKI FAKULTET

SEMINARSKI RAD

PREDMET: STATISTIČKO MODELIRANJE

TEMA: ANALIZA PREŽIVLJAVANJA I KOKSOV PH MODEL

profesor: studenti:
dr Zagorka Lozanov Crvenković Buda Bajic 119/07
Milena Kresoja 91m/10

Novi Sad, April 2011.


Analiza preživljavanja i Koksov PH model

SADRŽAJ:

1. UVOD U ANALIZU PREŽIVLJAVANJA

Analiza preživljavanja generalno predstavlja skup procedura za koje je promenljiva od interesa vreme dok se
događaj ne pojavi. Pod vremenom podrazumevamo godine, mesece, nedelje ili dane koji prođu od početka
posmatranja nekog subjekta, pa do momenta pojavljivanja događaja.

Ova analiza se prvo razvila u medicini i biologiji, a kasnije u ekonomiji, društvu i inžinjerstvu. Kada govorimo o
živim bićima, koji su predmet posmatranja u medicini i biologiji, tada događaj predstavlja najčešće smrt,
oboljenje ili povratak neke bolesti. U slučaju kada su mašine posmatrani subjekti, tada je događaj uglavnom
njihov kvar. U analizi društva ima veoma interesantnih primera, kao što su vreme “preživljavanja” brakova ili
vreme do napuštanja škole. Još jedan primer modela gde je promenljiva od interesa vreme dok se događaj ne
pojavi, može biti vreme do izvršavanja zločina. U ekonomiji se može posmatrati “preživljavanje” neke
delatnosti ili vreme “preživljavanja” nekog proizvoda.

Veoma bitan pojam za analizu preživljavanja je i cenzurisanje. Ono se javlja kada imamo neku informaciju o
vremenu pojavljivanja događaja, ali ne znamo tačno vreme njegovog pojavljivanja.

Tokom jedne analize pretpostavljamo da je samo jedan događaj, nad posmatranim subjektima, nama od
interesa, ali može se posmatrati i više od jednog. To može biti, na primer, smrt usled nekoliko različitih uzroka
ili pojavljivanje bolesti usled različitog načina života itd. Kada se posmatra više događaja tada se statistički
problem karakteriše kao problem višestrukog rizika, koji je izvan domena ove prezentacije.

Mnogi koncepti u analizi preživljavanja se objašnjavaju novorazvijenom teorijom prebrojavanja. Ona ovde
takođe neće biti prezentovana, ali je od značaja pa je treba spomenuti. Fleksibilnost procesa prebrajanja je to
što dozvoljava modeliranje višestrukog pojavljivanja događaja. Ovaj tip modeliranja se veoma dobro uklapa u
mnoge situacije, kao na primer, ljudi koji idu u zatvor iznova, alkoholičari koji prestaju i počinju da piju uvek
ispočetka ili ljudi koji se venčavaju pa razvode više puta.

Analiza preživljavanja sa osnovnim pojmovima, se definiše pre svega, kako bi se upoznali sa tematikom. Onda
se uvodi notacija, koja je se koristi u radu, ali koja je uglavnom i standardna za date pojmove. Prikazuju se
takođe i osnovni podaci koji su potrebni za kompjutersko izračunavanje.

Zatim sledi grafički prikaz krivih preživljavanja pomoću Kaplan – Meier-ovog metoda.

Statističko modeliranje Strana 2


Analiza preživljavanja i Koksov PH model

Glavni deo predstavlja opis kako da se uporede dve ili više krivih preživljavanja. Nama je od posebnog značaja
upoređivanje krivih da bismo utrvdili njihovu ekvivalentnost ili različitost. Upoređivanje vršimo koristeći Log-
rank test za testiranje nulte hipoteze o jednakosti krivih. Kada se radi o dve grupe podataka nije nam problem
da sami izračunamo potrebnu Log-rank vrednost, ali kada je slučaj sa više grupa, račun postaje izuzetno
komplikovan pa se koristi samo računar. Test statistika je približno χ 2−¿raspodela sa G−1 stepenom slobode.

Alternativni test je Peto test koji se koristi kada želimo da damo veći značaj informacijama na početku krive
preživljavanja. Ovaj test je takođe veliki uzorak χ 2−¿ testa sa G−1 stepenom slobode.

Na osnovu P−¿ vrednosti procenjujemo da li se nulta hipoteza odbacuje ili ne, i tako dolazimo do željenog
zaključka o ekvivalenciji ili različitosti krivih preživljavanja za date grupe podataka. Upotreba Log-rank i Peto
testa zavisi od toga koji deo krive preživljavanja nam je značajniji.

2. ANALIZA PREŽIVLJAVANJA

2.1 Osnovni pojmovi

Uopšteno, analiza preživljavanja je skup statističkih procedura za analizu podataka za koje je rezultujuća
promenljiva od interesa vreme dok se događaj ne desi. Pod događajem podrazumevamo smrt, bolest,
povratak bolesti, ili bilo koje određeno iskustvo koje je od interesa za posmatranje, a koje se može desiti nekoj
osobi.

START VREME DOGAĐAJ

Kod analize preživljavanja vremenska promenljiva se obično odnosi na vreme preživljavanja (vreme
pojavljivanja događaja). Pojavljivanje događaja naravno smatramo neuspehom.

Ključni analitički problem je takozvano cenzurisanje. U suštini, cenzurisanje se pojavljuje kada imamo
delimičnu informaciju o pojavi događaja ali ne znamo tačno vreme pojavljivanja. Ako npr. ispitujemo vreme
prezivljavanja brakova, na kraju vremena posmatranja neki parovi ce ostati u braku, njima se nije desio
događaj. Takvi parovi predstavljaju cenzurisana posmatranja. Uopšteno, postoje tri razloga zbog kojih se
pojavljuje cenzurisanje:

1. kod osobe se nije pojavio događaj pre završetka posmatranja;

2. osoba je izgubljena tokom procesa posmatranja;

3. osoba se povlači zbog smrtnog ishoda ili nekog drugog razloga.

Statističko modeliranje Strana 3


Analiza preživljavanja i Koksov PH model

2.2 Notacija

Slovo T koristimo za proizvoljnu promenljivu koja označava vreme preživljavanja osobe (vreme dok se ne desi
događaj). Dalje, malim slovom t označavamo bilo koju specifičnu vrednost koja je od interesa za promenljivu T.

T = vreme dok se doga đ aj ne desi


t = specifič na vrednost za t
Na primer, ako nas zanima da li je vreme prezivljavanja veće od 5 godina, onda je t=5.

Grčkim slovom δ ∈(0 , 1) označavamo statusnu promenljivu koja predstavlja ili cenzurisanje ili neuspeh. Kada
je δ =1 onda se događaj pojavio tokom perioda posmatranja, odnosno imamo neuspeh, a kada je δ =0 onda je
vreme pojave događaja cenzurisano ili tokom ili na kraju posmatranog perioda.

δ= {0 ,1ako, akoje cenzurisanje


jeneuspeh

Funkcija preživljavanja je označena sa S(t ) i predstavlja verovatnoću da proizvoljna promenljiva T prekorači


specifično vreme t .

S ( t ) =funkcija pre ž ivljavanja=P(T >t)

Teoretski gledano, kako se t kreće od do , funkcija preživljavanja se grafički predstavlja kao opadajuća
glatka kriva koja polazi iz S ( t ) =1 za t=0 i opada ka nuli kada t teži ka (za t=∞ S(t) je verovatnoća da je
vreme preživljavanja veće od ∞ a ta verovatnoća je jednaka nuli), što i pokazuje Grafik 1.

Grafik 1

U praksi, koristeći podatke, obično se dobijaju grafici funkcije preživljavanja kao stepenaste funkcije (kao što je
prikazano na Grafiku 2) , pre nego glatke krive.

Statističko modeliranje Strana 4


Analiza preživljavanja i Koksov PH model

Grafik 2

Funkcija rizika je označena sa h(t) i predstavlja trenutni potencijal po jedinici vremena da se događaj pojavi,
ako se zna da se nije pojavio do momenta t (tj. osoba je preživela do momenta t ).

Funkcija rizika data je formulom:

P(t  T  t  t | T  t )
h(t )  lim
t 0 t

Suprotno od funkcije preživljavanja, koja se fokusira na pozitivan događaj, tj. da se događaj ne pojavi, funkcija
rizika se fokusira na neuspeh, tj. da se događaj pojavi. Drugim rečima, kada S(t ) raste onda h(t) opada, i
obrnuto. Rizik je stopa, a ne verovatnoća i funkcija rizika se ponekad naziva i uslovna stopa preživljavanja
(uslovna zbog toga što je brojilac razlomka u formuli kojom je zadata funkcija rizika uslovna verovatnoća da
vreme preživljavanja bude izmedju t i t+ ∆t ako je vreme preživljavanja veće ili jednako od t; stopa jer se deli sa
∆t). Vrednost funkcije rizika se nalazi između i .

Bez obzira na to koja funkcija se preferira, S(t ) ili h(t), postoji jasna veza između njih. Ako se zna forma od
S(t ) tada se može izvesti odgovarajuće h(t), i obrnuto. Veza izmedju ovih funkcija je data formulama:

t
  h(u )du
S (t )  e 0

 dS (t ) / dt 
h(t )    
 S (t ) 

2.3 Prikaz podataka

Osnovni cilj analize preživljavanja da uporedi vremena preživljavanja dve ili više grupa i otkrije da li se
statistički značajno ta vremena preživljavanja razlikuju. U tabeli ispod prikazani su opšti podaci za analizu
preživljavanja. U prvoj kolini tabele su predstavljene osobe koje se posmatraju (subjekti iz svih grupa). Druga
Statističko modeliranje Strana 5
Analiza preživljavanja i Koksov PH model

kolona daje informaciju o posmatranom vremenu pojavljivanja događaja. Treća kolona je promenljiva δ koja
označava status cenzurisanja. Ostatak tabele predstavljaju vrednosti za promenljive od interesa koje ih
objašnjavaju ( npr. starosno doba, pol, rasa, ... ). Promenljiva od interesa je ono po čemu se grupe međusobno
razlikuju. Ako na primer želimo da ispitamo da li se vremena preživljavanja pacijenata lečenih od leukemije
lekovima dve različite farmaceutske kompanije razlikuju, onda imamo samo jednu promenljivu od interesa i to
je farmaceutska kompanija čije su lekove pili pacijenti, ili npr. ako nas interesuje razlika u vremenima
prezivljavanja muškaraca i žena onda bi promenljiva od interesa bio pol.

Tabela opštih podataka:

Posmatran
e osobe t δ X1 X2 ... Xp
1 t1 δ1 X 11 X 12 ... X1 p
2 t2 δ2 X 21 X 22 ... X2 p
. . . . . .
. . . . . .
. . . . . .
n tn δn X n1 X n2 ... X np
Ispod je prikazan drugi način za predstavljanje redosleda podataka. Ovaj redosled je baza nad kojom se
izvode Kaplan – Meier-ove krive preživljavanja. Prva kolona u tabeli daje vremena pojavljivanja događaja po
redu, od najkraćeg do najdužeg, označena sa t ( j ) (dakle u ovu tabelu unosimo samo vremena onih događaja
koji su se desili, ne i cenzurisana vremena). U drugoj koloni su date frekvencije pojavljivanja događaja za
svako različito vreme pojavljivanja događaja, označene sa m j . U trećoj koloni su frekvencije pojavljivanja
cenzurisanih osoba u intervalu (t j , t j+1 ), njih označavamo sa q j ( treba napomenuti da prilikom računanja broja
cenzurisanih osoba u intervalu (t j , t j+1 ) se ubrajaju osobe čije je vreme cenzurisanja bilo tj a ne ubrajaju one
čije je vreme cenzurisanja bilo tj+1). Poslednja kolona predstavlja skup rizika, R ( t j ), čiji su elementi osobe kod
kojih se najmanje do momenta t ( j ) nije pojavio događaj. Svaka osoba u R ( t j ) je imala vreme do pojavljivanja
događaja koje je veće ili jednako od t j . Napomenimo da R ( t j ) nije broj, R ( t j ) je skup.

Alternativna (uređena) tabela podataka:

Frekvencija
Vreme za koje se pojavljivanja Broj cenzurisanih u Skup
desio događaj događaja intervalu(t j , t j+1 ) rizika
tj qj R (t j )
mj
t 0=0 m 0=0 q0 R (t 0)
t1 m1 q1 R ( t 1)
. . . .
. . . .
. . . .
tk mk qk R (t k )

Da bi se izračunala verovatnoća preživljavanja u datom momentu, koristi se rizični skup da bi se uključila


informacija koju imamo o cenzurisanim osobama do momenta cenzurisanja, a ne da se samo odbace sve
informacije o cenzurisanim osobama. Za izračunavanje takve verovatnoće koristimo Kaplan – Meier-ov
metod.

Statističko modeliranje Strana 6


Analiza preživljavanja i Koksov PH model

3. KAPLAN MEIER-OVE KRIVE

Sa Kaplan – Meier-ovim metodom upoznaćemo se preko primera. Posmatramo istraživanje nad 24 para
blizanaca obolelih od srčane bolesti, tzv. CHD (coronary heart disease). Podaci su dobijeni iz studije o
vremenu remisije, dati u mesecima, za dve grupe blizanaca. U prvoj grupi je 12 blizanaca koji su muškog pola,
a u drugoj 12 blizanaca ženskog pola. Osnovno pitanje od interesa tiče se upoređivanja iskustava
preživljavanja u ove dve grupe, tj. da li postoje statistički značajne razlike u vremenima preživljavanja između
grupa.

Primer

Vreme trajanja remisije, u mesecima, za dve grupe blizanaca obolelih od CHD-a

Grupa 1 ( n=12 ) Grupa 2 ( n=12 )


Blizanci Bliznakinje
49+ 50 56 52 58 63+
61 67 68 69+ 70+ 70+
69+ 70+ 74+ 70+ 72 73+
74+ 75+ 81 74+ 75+ 81+
Tabela 1

+ označava cenzurisanje

negativan događaj cenzurisan UKUPNO


Grupa 1 6 6 12
Grupa 2 3 9 12

Statističko modeliranje Strana 7


Analiza preživljavanja i Koksov PH model

Tabela 2

Podaci koji su dati u gornjoj tabeli još uvek nisu prikazani u odgovarajućoj formi za kompjutersku obradu.

Vrednosti u tabeli date za svaku grupu predstavljaju vreme izraženo u mesecima za pacijente u remisiji, pa sve
do njihovog izlaska iz remisije ili cenzurisanja. Izlazak iz remisije tretiramo kao negativan događaj (neuspeh).
Kako remisija predstavlja period nakon nestanka laboratorijskih i fizickih znakova bolesti, izlazak iz remisije
označava povratak bolesti.

U prvoj grupi 6 blizanaca je imalo negativan događaj, tj. vratila im se bolest do kraja perioda posmatranja, i isto
toliko je cenzurisano, a u drugoj grupu je samo 3 bliznakinje imalo negativan događaj, a ostalih 9 je
cenzurisano.

Na osnovu uzorka možemo izračunati prosečno vreme pojavljivanja događaja i prosečnu stopu rizika. Za to
koristimo sledeće statistike: T́ i h́ . Prosečno vreme pojavljivanja događaja (T́ ) se dobija sabiranjem svih
vremena pojavljivanja događaja za jednu grupu (tu uključujemo i vremena cenzurisanja i ta činjenica implicira
da su prosečna vremena preživljavanja za neku grupu veća nego ona koja dobijamo na ovaj način) i zatim
podeli sa brojem osoba koje se posmatraju u toj grupi. Prosečna stopa rizika ( h́ ) se dobija kao količnik broja
neuspeha u grupi i zbira svih vremena pojavljivanja događaja u toj grupi. Odnosno pomoću formula:
n
broj neuspeha
∑ tj h́= n
j =1
T́ =
n
∑t j
j=1

Deskriptivna statistika za podatke iz Tabele 1 :

T́ 1=66.17 , h́1 =0.0080

T́ 2=68.92 , h́2 =0.0036

Na osnovu ovih podataka možemo zaključiti da druga grupa ima bolju prognozu preživljavanja nego prva
grupa (jer je njeno prosečno vreme preživljavanja veće od prosečnog vremena preživljavanja prve grupe i
prosečna stopa rizika joj je manja u poređenju sa prvom grupom). Medjutim, pitanje je da li su razlike koje
postoje statistički značajne da bismo mogli da tvrdimo da je vreme preživljavanja bliznakinja zaista veće.
Činjenicu da postoje razlike u vremenima preživljavanja potvrdiće nam i Kaplan- Meier- ove krive preživljavanja
koje cemo u nastavku skicirati na osnovu dobijenih podataka.

U Tabelama 3 i 4 su prikazana vremena pojavljivanja događaja poređana rastućim redom za svaku grupu, kao
i osnovne informacije za izračunavanje KM krivih.

Primer

Grupa 1 (blizanci):

tj nj mj qj
0 12 0 1
50 11 1 0
56 10 1 0
61 9 1 0
67 8 1 0
68 7 1 5

Statističko modeliranje Strana 8


Analiza preživljavanja i Koksov PH model

81 1 1 0
Tabela 3

Grupa 2 (bliznakinje):

tj nj mj qj
0 12 0 0
52 12 1 0
58 11 1 5
72 5 1 4
Tabela 4

Svaka tabela počinje sa nultim vremenom pojavljivanja događaja, čak iako se nijednoj osobi nije pojavio
događaj u tom periodu jer je dozvoljena verovatnoća da neka osoba bude cenzurisana pre prvog vremena
pojavljivanja događaja.

Takođe, svaka tabela ima kolonu označenu sa n j koja predstavlja broj osoba u rizičnom skupu na početku
intervala. Pretpostavlja se dan j uključuje one osobe kojima može da se pojavi događaj u trenutku t j , tj. čije je
vreme preživljavanja veće ili jednako sa t j
.

Za crtanje Kaplan – Meier-ovih kriva potrebno je u tabele dodati još jednu kolonu, označenu sa ^S ( t j ), koja
sadrži ocene verovatnoća preživljavanja. Ove verovatnoće su Kaplan – Meier-ove verovatnoće za svaku od
grupa.

Verovatnoća preživljavanja daje verovatnoću za koju se kod posmatranog subjekta nije pojavio događaj posle
specifičnog vremena, tj. subjekat koji preživi do specifičnog vremena. Dakle, posmatrajući podatke iz svake od
grupa, verovatnoća da je vreme pojavljivanja događaja veće od 0 jeste 1, odnosno skoro sigurno, a to će inače
biti za bilo koji skup podataka.

Računanje verovatnoće preživljavanja je mnogo jednostavnije kada u posmatranoj grupi nema cenzurisanih
subjekata. Tada, za P(T >t j) , se ^S(t j ) računa po formuli:

broj pre ž ivelih poslet j


^S ( t j )= , j=0,1 , … , n
n

Ako posmatramo takvu grupu, bez cenzurisanih subjekata, tada se q kolona sastoji sastoji samo od nula. Ako
je neka q - ta vrednost različita od nule, potrebna je neka alternativna formula za računanje verovatnoće
preživljavanja. Ova alternativna formula se naziva Kaplan – Meier-ov pristup i može da se koristi čak i kada
su vrednosti q sve jednake nuli.

Verovatnoće preživljavanja bez cenzurisanih vrednosti, računate pomoću KM formule, predstavljaju proizvod
razlomaka od kojih je svaki uslovna verovatnoća. Odnosno, svaki razlomak u proizvodu je verovatnoća
prevazilaženja specifičnog vremena t j , datog tako da osoba nije imala događaj do tog vremena.

Statističko modeliranje Strana 9


Analiza preživljavanja i Koksov PH model

Uopšteno gledano, bilo koja KM formula za verovatnoću preživljavanja je ograničena proizvodom razlomaka
sve do specifičnog momenta bez događaja. Zbog toga se KM formula često označava kao granična vrednost
proizvoda.

KM formula=granič na vrednost proizvoda

Osnovna formula za Kaplan – Meier-ovu analizu preživljavanja u vremenu pojavljivanja događaja t j data je sa:

^S ( t j )= S^ ( t j−1 ) × P
^¿

Primer:

Grupa 1 (blizanci):

tj nj mj qj ^S ( t j )
0 12 0 1 1

50 11 1 0 10
1× =0 . 9091
11
56 10 1 0 9
0.9091 × =0 . 8182
10
61 9 1 0 8
0.8182 × =0 . 7273
9
67 8 1 0 7
0.7273 × =0 . 6364
8
68 7 1 5 6
0.6364 × =0 .5454
7
81 1 1 0 0.5454 × 0=0
Tabela 5

Grupa 2 (bliznakinje):

tj nj mj qj ^S ( t j )
0 12 0 0 1

52 12 1 0 11
1× =0 .9167
12

Statističko modeliranje Strana 10


Analiza preživljavanja i Koksov PH model

58 11 1 5 10
0.9167 × =0 . 8333
11
72 5 1 4 4
0.8333 × =0 . 6667
5
Tabela 6

U tabelama 5 i 6 su prikazane ocenjene verovatnoće preživljavanja dobijene pomuću KM formule.

Prva ocena preživljavanja u koloni je ^S ( 0 )=1 , u obe grupe, jer ona daje verovatnoću preživljavanja posle
nultog vremena. Ostale ocene preživljavanja su izračunate množenjem ocena (razlomaka) za preživljavanje.
11
Na primer, za grupu 2, razlomak je preživljavanje posle 52 meseca, jer 12 pari bliznakinja ostaje sve do
12
10
52 meseca i 1 od svih pari bliznakinja je imao događaj posle 52 meseca. Razlomak je preživljavanje posle
11
58 meseci, jer 11 pari bliznakinja ostaje sve do 58-og meseca i jednom paru se desio događaj posle 58-og
meseca. A da bi dobili ocenu preživljavanja još množimo taj razlomak sa ocenom iz predhodnom vremenskog
trenutka. Ostali razlomci su slično izračunati.

Kaplan – Meier-ove krive preživljavnanja za Grupu 1 i Grupu 2 prikazane su na sledećim graficima:

Grafik 3 – Blizanci

Statističko modeliranje Strana 11


Analiza preživljavanja i Koksov PH model

Grafik 4 – Bliznakinje

Znamo kako izgledaju krive preživljavanja za obe grupe pojedinačno, a od velikog značaja je i njihovo
poredjenje. Kada su obe krive prikazane na istom grafiku možemo jasno da vidimo koliko se poklapaju ili ne, a
kasnije to i možemo potvrditi ispitivanjem hipoteza.

Primer

Statističko modeliranje Strana 12


Analiza preživljavanja i Koksov PH model

KM krive za podatke remisije:

Grafik 5

Grafik 5 prikazuje KM krive za grupu 1 i grupu 2. Može se lako primetiti da je KM kriva za grupu 2 konzistentno
viša od KM krive za grupu 1. To ukazuje da grupa 2, tj. bliznakinje, ima bolje ocene preživljavanja nego grupa
1, tj blizanci.

Prikazan KM grafik se može lako dobiti iz većine kompjuterskih programa koji predstavljaju analizu
preživljavanja. Sve što korisnik treba da uradi jeste da obezbedi KM kompjuterski program sa osnovnom
bazom podataka i da obezbedi odgovarajuće komande za dobijanje grafika.

4. OSNOVNE KARAKTERISTIKE KM KRIVIH

Op š ta KM formula : S^ ( t j )= ^S ( t j−1 ) × ^
P¿

Statističko modeliranje Strana 13


Analiza preživljavanja i Koksov PH model

Ova formula daje verovatnoću preživljavanja posle prethodnog vremena pojavljivanja događaja t j−1
pomnožena sa uslovnom verovatnoćom preživljavanja posle vremena t j , dajući verovatnoću preživljavanja
najmanje do vremena t j.

Gornja KM formula takođe može biti predstavljena kao granična vrednost proizvoda ako umesto verovatnoće
preživljavanja ^S ( t j−1 ) stavimo proizvod svih razlomaka koji ocenjuju uslovne verovatnoće u momentu t j−1 i
ranije. Opšti izraz za graničnu vrednost proizvoda za KM ocenu preživljavanja dat je sa:
j−1
^S ( t ( j−1) ) =∏ ^
P¿ ¿
i=1

Na primer, verovatnoća preživljavanja posle 72 meseca je za Grupu 2 u Tabeli 6 data kao

4 10 11
0.8333 × =0.6667, ali broj 0.8333 može biti zapisan kao proizvod razlomaka i . Prema tome,
5 11 12
granična vrednost proizvoda preživljavanja posle 72 meseca je data preko prizvoda tri razlomka.

Primer

^S ( 58 )=0 . 9167 × 10 =0 . 8333= 11 × 10


11 12 11

^S ( 72 )=0 . 8333 × 4 =0 .6667= 11 × 10 × 4


5 12 11 5

Opšti izraz za graničnu vrednost proizvoda za KM ocenu preživljavanja je ekvivalentan sa opštom KM


formulom. Odnosno, važi:
j
^S ( t ( j ) )=∏ ^
P ¿¿
i=1

Jednostavan matematički dokaz za KM formulu može biti izveden u izrazima verovatnoće. Jedna od osnovnih
osobina verovatnoće jeste da je verovatnoća preseka dva događaja, npr.A i B, jednaka proizvodu verovatnoće
jednog od događaja, npr. događaja A, i uslovne verovatnoće drugog događaja, odnosno događaja B, ako se
desio događaj A. Odnosno:

P( A ∩ B)=P( A)× P( B∨ A)

Ako uzmemo za događaj A da osoba nije imala pojavu posmatranog događaja najmanje do vremena t j i
uzmemo B kao događaj da osoba nije imala pojavu tog događaja posle vremena t j , tada važi:

A= T ≥ {t} rsub {j}


B= T > {t} rsub {j}
A∩B=B

Statističko modeliranje Strana 14


Analiza preživljavanja i Koksov PH model

P(A∩B)= P(B)= S(tj)

Takođe, zbog toga što je t j sledeće vreme pojavljivanja događaja nakon t j−1 , zo znači da nema neuspeha
posle t j−1, a pre t j. Zato, verovatnoća događaja A je ekvivalentna sa verovatnoćom preživljavanja posle ( j−1 )-
og vremena pojavljivanja događaja.

Nema događaja

t j−1 <T < t j P ( A )=P ( T >t j−1 )=S ( t j−1 )

u intervalu:

Dalje, uslovna verovatnoća da se desi događaj B ako se prethodno desio dogašaj A je ekvivalentna uslovnoj
verovatnoći iz KM formule. Odnosno, važi:

P ( B| A )=P ¿

Prema tome, koristeći osnovna pravila verovatnoće možemo izvesti KM formulu:

S ( t j )=S ( t j−1 ) × P ¿

5. LOG RANK TEST ZA DVE GRUPE

Kada posmatramo podatke za više grupa pacijenata, od velike nam je važnosti da možemo da ih uporedimo.
Interesuje nas kako oceniti da li su ili ne KM krive za dve ili više grupa statistički ekvivalentne. Za početak
posmatramo samo dve grupe. Najpopularniji test-metod je tzv. Log - rank test.

Statističko modeliranje Strana 15


Analiza preživljavanja i Koksov PH model

Kada se uspostavi da su dve KM krive “statistički ekvivalentne“ misli se da, bazirano na proceduri testiranja
koja poredi dve krive u nekom globalnom smislu, nemamo dokaza kojim bismo pokazali da su krive
preživljavanja različite.

Log - rank test je veliki uzorak χ 2- testa, koji koristi kao svoj kriterijum za testiranje statistiku koja
obezbeđuje globalno poređenje KM krivih, koje se posmatraju. Ova statistika, kao i mnoge druge statistike koje
se koriste u χ 2 - testovima, koristi razlike između posmatranih i očekivanih (teorijskih) frekvencija. Frekvencije
za Log - rank test statistiku su definisane pojedinačno preko vremena pojavljivanja događaja, za ceo skup
podataka koji se analizira.

Kao primer potrebnih informacija za Log - rank test, ponovo posmatramo poređenje blizanaca (Grupa 1) i
bliznakinja (Grupa 2) koji su u fazi remisije kao 24 subjekta obolela od CHD-a.

Primer
Podaci remisije za n=24

Neuspesi Skup rizika


tj m1 j m2 j n1 j n2 j
0 0 0 12 12
50 1 0 11 12
52 0 1 10 12
56 1 0 10 11
58 0 1 9 11
61 1 0 9 10
67 1 0 8 9
68 1 0 7 9
72 0 1 4 5
81 1 0 1 1
Tabela 7

Ovde, za svako određeno vreme pojavljivanja događaja t j u čitavom skupu podataka, pokazujemo broj
subjekata (m ij) kojima se desio događaj u tom trenutku, za grupu i , i broj subjekata (nij ) u skupu rizika u datom
trenutku, za grupu i .
Prema tome, na primer u 50-om mesecu se jednom subjektu iz grupe 1 desio događaj, a u isto vreme se
nijednom subjektu iz grupe 2 nije desio događaj. Takođe u 50-om mesecu, skup koji posmatramo sadrži 11
subjekata u grupi 1, dok u grupi 2 ima 12 subjekata.
Slično u 72-om mesecu, nijedan subjekat iz grupe 1 nije imao događaj, dok iz grupe 2 jedan jeste, a
skupovi rizika za svaku grupu sadrže 4 i 5 subjekta, respektivno.

Sada proširujemo prethodnu tabelu uključujući elemente očekivanih frekvencija i razliku posmatranih i
očekivanih vrednosti za svaku grupu za svako vreme pojavljivanja događaja, poređanih rastućim redosledom.

Očekivane frekvencije obeležavamo sa e ij za svaku grupu i , i računamo ih po formuli:

nij
(
e ij = )
n1 j + n2 j
×(m1 j +m 2 j)

Statističko modeliranje Strana 16


Analiza preživljavanja i Koksov PH model

proporcija broj neuspeha


u skupu ruzika u obe grupe

Za grupu 1, ova formula izračunava očekivane vrednosti u momentu j , označene sa e 1 j, kao proporciju
broja subjekata iz grupe 1 i ukupnog broja subjekata u obe grupe u datom momentu pojavljivanja događaja,
pomnožena sa ukupnim brojem subjekata, iz obe grupe, kojima se desio događaj u tom momentu. Za grupu 2,
e 2 j, izračunava se na isti način.

registrovano-
Neuspesi Skup rizika Očekivano očekivano

tj m1 j m2 j n1 j n2 j e1 j e2 j m 1 j−e1 j m 2 j−e2 j
0 0 0 12 12 ¿ ¿)× 0 ¿ ¿)× 0 0 0
50 1 0 11 12 ¿ ¿)×1 ¿ ¿)×1 0.5217 −0.5217
52 0 1 10 12 ¿ ¿)×1 ¿ ¿)×1 −0.4545 0.4545
56 1 0 10 11 ¿ ¿)×1 ¿ ¿)×1 0.5238 −0.5238
58 0 1 9 11 ¿ ¿)×1 ¿ ¿)×1 −0.45 0.45
61 1 0 9 10 ¿ ¿)×1 ¿ ¿)×1 0.5263 −0.5263
67 1 0 8 9 (8/17)×1 (9/17)×1
0.5294 -0.5294
68 1 0 7 9 (7/16)×1 (9/16)×1
0.5625 -0.5625
72 0 1 4 5 (4/9)×1 (5/9)×1
-0.4444 0.4444
81 1 0 1 1 (1/2)×1 (1/2¿ ¿)×1
0.5 0.5

Tot 6 3
al 4.1852 4.8147 1.8148 -1.8148

Tabela 8

Kada se porede dve grupe, Log - rank statistika se formira pomoću sume registrovanih minus očekivanih
frekvencija za sva vremena pojavljivanja događaja za jednu od te dve grupe. U ovom primeru, ta suma je
1.8148 za grupu 1 i -1.8148 za grupu 2. Koristićemo vrednost grupe 1 za nastavak testa, ali kao što može da
se primeti, osim znaka minus, vrednost je ista za obe grupe.
10
Oi−E i=∑ (mij −eij ) , i=1 ,2
j=1

Primer:

O1 –E1 = 1.8148
O2 –E2 = -1.8148

Statističko modeliranje Strana 17


Analiza preživljavanja i Koksov PH model

Za slučaj sa dve grupe, Log - rank statistika se izračunava kao količnik kvadrata sume registrovanih minus
očekivanih frekvencija za jednu grupu, i ocene varijanse za sumu registrovanih minus očekivanih frekvencija.
Npr. za grupu 2, formula je:

(O 2−E2 )2
log −rank statistika =
Var (O 2 −E2)

Za dve grupe, formula varijanse je ista za svaku grupu. Ova formula uključuje broj subjekata iz skupa rizika
u svakoj grupi (nij ) i broj subjekata kod kojih se pojavio događaj u svakoj grupi ( m ij) u momentu j . Sumiranje se
vrši po svim vremenima pojavljivanja događaja. Izraz za ocenu varijanse je:

Var ( O i−Ei ) =∑ n1 j n2 j ¿ ¿ ¿
j

Uzimamo za nultu hipotezu da nema razlike između krivih preživljavanja. Pod nultom hipotezom ( H 0), Log -
rank statistika je približno χ 2−¿ statistika sa jednim stepenom slobode. Prema tome, P−¿ vrednost za log -
rank test je određena tabelom za χ 2−¿ raspodelu.

H 0=ne postoji razlika izme đ u krivih pre ž ivljavanja

Za izračunavanje Log - rank statistike imamo nekoliko odgovarajućih kompjuterskih programa. Na primer,
paket SPIDA sadrži proceduru “ km”koja računa deskriptivne informacije o KM krivama, zatim Log-rank
statistiku i alternativnu statistiku zvanu Peto statistika, koja će biti opisana kasnije, ili paketi poput SAS i BMDP,
koji imaju procedure koje daju rezlultate slične onima iz SPIDA paketa, ili program STATISTIKA, koji je
korišćen u ovom radu.

Primer

Log-Rank Test (uporedjivanje.sta)


WW = 1.8148 Sum = 8.0284 Var = 2.0944
Test statistic = 1.254007 p = .02098

Log-rank = 1.254

Gore prikazani podaci remisije su dobijeni pomoću programa Statistika, Log - rank testa za dve grupe. Log -
rank statistika je 1 .254 i odgovarajuća P−¿ vrednost je data na pet decimala. Ova P−¿ vrednost pokazuje da
bi trebalo da odbacimo nultu hipotezu. Na osnovu toga zaključujemo da grupa blizanaca i grupa bliznakinja
imaju različite KM krive preživljavanja.

Iako je pomoću računara bolje i lakše izračunati log - rank statistiku, pokazaćemo i neke dalove računa. Od
ranije znamo da je: O1 – E1= 1.8148. Ocena varijanse od O 1−E1 je izačunata pomoću formule varijanse i
iznosi 2.2358. Log- rank statistika se tada dobija kao količnik kvadrata broja 1.8148 i broja 2.2358, što daje
1.4729, što je približno jednako onome što je Statistica dala kao rezultat.

Primer

O1 –E1 = 1.8148

Statističko modeliranje Strana 18


Analiza preživljavanja i Koksov PH model

Var (O1 –E1) = 2.2358

Log- rank statiskika =1.4729

Postoji aproksimacija za log-rank statistiku koja se može izračunati pomoću registrovanih i očekivanih
vrednosti za svaku grupu bez izračunavanja formule za varijansu. Približna formula je klasična χ 2 forma koja
sumira, za svaku grupu koja se poredi, kvadrat registrovane minus očekivane vrednosti, podeljen sa
očekivanom vrednošću. Odnosno:

(O i− Ei)2
2
Aproksimaciona formula: X =∑
i Ei

Primer

Za naš primer aproksimaciona f-la daje: X2 ≈ 1.471 što je približno jednako sa 1.4729.

6. LOG RANK TEST ZA VIŠE GRUPA

Log - rank test se može koristiti i za upoređivanje tri ili više krivih preživljavanja. Nulta hipoteza, za ovaj opštiji
slučaj, glasi da su sve krive iste. Iako se može koristiti isti tabelarni prikaz da se sprovedu izračunavanja kada
ima više od dve grupe, test statistika je matematički komplikovanija, uključujući i varijanse i kovarijanse
sumiranih razlika registrovanih i očekivanih vrednosti za svaku grupu.

Statističko modeliranje Strana 19


Analiza preživljavanja i Koksov PH model

Detalje za izračunavanje log - rank statistike nema potrebe ovde opisivati jer kompjuterski program može da
izvede računanje iz osnovnog skupa podataka. Umesto toga, ilustrujemo upotrebu ovog testa na podacima iz
više grupa.

Ako uzmemo da je broj grupa koje se porede G , (G ≥2), tada log - rank statistika ima približno raspodelu
velikih uzoraka sa G−1 stepenom slobode. Prema tome, odluka o značajnosti je doneta pomoću χ 2 tabela sa
odgovarajućim stepenima slobode.

Aproksimacija postoji i u slučaju kada ima više od dve grupe. Približna formula, opisana ranije, koja
obuhvata samo registrovane i očekivane vrednosti bez računanja varijanse i kovarijanse, takođe se može
upotrebiti prilikom poređenja više grupa. Ipak, praktično govoreći, upotreba ove približne formule nije potrebna
dokle god je kompjuterski program u mogućnosti da izračuna tačnu log-rank statistiku.

Sledećim primerom ilustrujemo upotrebu log-rank statistike za poređenje više od dve grupe. Dat je skup
podataka koji predstavlja vremena pojavljivanja događaja izraženih u danima za 137 pacijenata veterana
obolelih od kancera pluća. Status preživljavanja je definisan preko status promenljive (kolona 11).

Primer

Vreme pojavljivanja događaja u danima

n=137

Vetran’s Administration Lung Cancer Trial


Kolona 1: Standardni tretman = 1 , test tretman =2
Kolona 2: Tip ćelije 1 ( veći = 1 , ostali = 0 )
Kolona 3: Tip ćelije 2 ( adeno = 1 , ostali = 0 )
Kolona 4: Tip ćelije 3 ( mali = 1 , ostali = 0 )
Kolona 5: Tip ćelije 4 ( squamos = 1 , ostali = 0 )
Kolona 6: Vreme pojavljivanja događaja ( u danima )
Kolona 7: Prikaz stanja pacijenata ( najgori = 0 , ... , najbolji = 100 )
Kolona 8: Trajanje bolesti ( u mesecima )
Kolona 9: Starosno doba
Kolona 10: Prioritetna terapija ( nijedna = 0 , neka = 1 )
Kolona 11: Status ( cenzurisani = 0 , preminuli = 1 )
Tabela 9

Među nabrojanim promenljivima, mi se fokusiramo na predstavljanje status pomenljive (kolona 7). Ova
promenljiva je interval promenljiva, pa pre nego što dobijemo KM krive i log- rank test, treba kategorizovati ove
promenljive.

Ako za promenljivu koja prikazuje stanje pacijenta izaberemo kategorije: 0−59, 60−74, 75−100, dobijamo tri
grupe obima: 52 ,50 i 35, respektivno.

Primer

Kategorije koje prikazuju stanje pacijenta

Grupa Kategorija Obim


1 0−59 52
Statističko modeliranje Strana 20
Analiza preživljavanja i Koksov PH model

2 60−74 50
3 75−100 35
Tabela 10

Upotrebom programa Statistika dobijamo deskriptivne informacije o ove tri KM krive, zajedno sa log-rank
testom i Peto testom.

Kako se porede tri grupe, G=3 , broj sepeni slobode za log-rank statistiku je tada G−1 ili 2. Kompjuterski
izračunata Log-rank statistika je 29 . 181, koja ima P−¿ vrednost nula datu na tri decimale. Prema tome, na
osnovu Log-rank testa zaključujemo da postoji značajna razlika između tri krive preživljavanja za predstavljene
status grupe.

Važno je primetiti, da je u ovom primeru i Peto-test veoma značajan.

7. PETO TEST

Peto test su predložili Prentice i Marek kao alternativu za log - rank test.

U opisivanju razlike između ova dva testa, podsetimo se da log - rank test koristi razliku sume registrovanih i
očekivanih vrednosti O−E za svaku grupu, radi formiranja test statistike. Ova jednostavna suma daje istu

Statističko modeliranje Strana 21


Analiza preživljavanja i Koksov PH model

težinu svakom vremenu pojavljivanja događaja kada kombinujemo registrovana minus očekivana
preživljavanja u svakoj grupi.

log−rank :O i−Ei =∑ ( m ij −e ij ) ,
j

i=indeks grupe , j= j−¿ vreme pre ž ivljavanja

Nasuprot tome, Peto test ocenjuje razliku registrovanih i očekivanih vrednosti u vremenu t j , pomoću broja iz
skupa rizika, n j , svih grupa u vremenu t j . Prema tome, umesto jednostavne sume, Peto test koristi težinsku
srednju vrednost razlike registrovanih i očekivanih vrednosti, što je prikazano ispod.

Peto test :
G
te ž ina=n j =∑ nij
i=1

∑ n j (mij−eij )
j
te ž inska srednja vrednost=
∑ nj
j

Ove formule nisu kompjuterski zaista važne jer kompjuterski program može sve jednostavno da izračuna. Peto
test statistika kao i Log - rank statistika ima približno veliki uzorak χ 2 raspodele sa G−1 stepenom slobode,
gde je G broj krivih preživljavanja koje se upoređuju.

Ipak, različite formule koje smo opisali navode da Peto test ističe informacije na početku krive preživljavanja,
gde je broj iz skupa rizika veliki. Prema tome, raniji događaji dobijaju veću težinu (značaj) nego događaji na
kraju krive preživljavanja.

Obrnuto, Log - rank test ističe događaje na kraju krive preživljavanja, gde broj osoba u skupu rizika opada
tokom vremena, a jednaka težina je data svakom vremenu pojavljivanja događaja.

Uprkos toj razlici između Log - rank i Peto testa, Peto test nije obavezno konzervativan test, kada se poredi sa
Log - rank testom, jer njegova numerička vrednost može biti ili manja ili veća od Log - rank testa, u zavisnosti
od podataka koji se analiziraju.

Kada se bira između Log - rank testa i Peto testa preporučuje se upotreba Peto testa ako želimo da damo veći
značaj prvom delu krive preživljavanja, gde se nalazi veći broj osoba iz skupa rizika. U suprotnom, treba korititi
Log - rank test. Ovaj izbor naglašavanja ranijih vremena pojavljivanja događaja potiče iz kliničkih odlika jedne
studije. Raspravu o relativnim vrednostima ovih testova kao i njihovih alternativa opisali su Harris i Albert u
radu “Survivorship Analysis for Clinical Studies”.

Ilustujemo Peto test preko primera. U prvom primeru, za podatke remisije, gde se porede grupa od 12
blizanaca sa grupom od 12 bliznakinja, dobili smo Log - rank test ranije, a sada i Peto test. Oba testa su
veoma značajna, iako Peto test daje manju χ 2 vrednost u ovom primeru.

Statističko modeliranje Strana 22


Analiza preživljavanja i Koksov PH model

Primer

Peto & Peto Wilcoxon Test (uporedjivanje.sta)


WW = 1.4373 Sum = 5.6860 Var = 1.4833
Test statistic = 1.180172 p = .023793

Sada posmatramo drugi primer, koji je opisan ranije, gde se posmatraju osobe obolele od kancera pluća.
Upoređivanjem Log-rank testa i Peto testa, za tri grupe promeljivih koje prikazuju stanje pacijenata, dobijamo
da je Peto statistika 32 .558 , što je malo veće od Log-rank statistike koja iznosi 29 . 181.

8. PRIMER 1

U cilju utvrđivanja efikasnosti hemoterapije nakon odstranjivanja raka pluća hirurškim putem pacijenata
obolelih od ove bolesti, posmatrane su dve grupe od po 12 pacijenata. Prva grupa pacijenata je primala
hemoterapiju neposredno nakon operacije, a druga grupa nije primala hemoterapiju. Negativnim događajem
smatramo ponovno pojavljivanje bolesti odnosno pojavu metastaze. Osnovni cilj nam je da utvrdimo da li su

Statističko modeliranje Strana 23


Analiza preživljavanja i Koksov PH model

vremena preživljavanja za ove dve grupe jednaka ili se razlikuju. U navedenoj tabeli su data vremena
preživljavanja po grupama:

Prva grupa- primali hemoterapija Druga grupa- nisu primali


hemoterapiju
8 , 9 , 13 , 15 , 17 , 20 , 24, 1 , 2 , 3 , 4 , 5 , 7 , 10 , 11 , 12 , 14 , 16
, 18
7+ , 11+ , 12+ , 14+ , 16+

+označava cenzurisanje

Primetimo da u drugoj grupi nema cenzurisanih pacijenata, tj. da se svakom od 12 pacijenata iz date grupe
pojavila metastaza. Ova informacija nam je od značaja prilikom izračunavanja ocenjenih verovatnoća
preživljavanja potrebnih za nalaženje Kaplan- Meier- ovih krivih. Podsetimo se da se u slučaju kada nema
cenzurisanja date verovatnoće izračunavaju prema formuli:

broj pre ž ivelih poslet j


^S ( t j )= ,gde je n veličina uzorka.
n

Dobijene podatke najpre predstavimo pomoću tabela:

Prva grupa:

Broj osobe Vreme δ X


pojavljivanja
1. 7 0 1
2. 8 1 1
3. 9 1 1
4. 11 0 1
5. 12 0 1
6. 13 1 1
7. 14 0 1
8. 15 1 1
9. 16 0 1
10 . 17 1 1
11. 20 1 1
12. 24 1 1

Druga grupa:

Broj osobe Vreme δ X


pojavljivanja
1. 1 1 2
2. 2 1 2
3. 3 1 2
4. 4 1 2
Statističko modeliranje Strana 24
Analiza preživljavanja i Koksov PH model

5. 5 1 2
6. 7 1 2
7. 10 1 2
8. 11 1 2
9. 12 1 2
10 . 14 1 2
11. 16 1 2
12. 18 1 2

A zatim pomoću tabela sa podacima neophodnih za nalaženje Kaplan- Meier- ovih krivih:

Prva grupa:

tj mj qj R(tj) nj ^S ( t j )
Osobe cije je
0 0 1 12 1
vreme prež. ≥0
Osobe cije je
8 1 0 11 10
vreme prež. ≥8 1× = 0.91
11
9
9 1 2 . 10 0.91× = 0.82
10
6
13 1 1 . 7 0.82× =0.7
7
4
15 1 1 . 5 0.7× =0.56
5
2
17 1 0 3 0.56× =0.37
3
1
20 1 0 2 0.37× =0.187
2
0
24 1 0 1 0.187× = 0
1

Druga grupa:

tj mj qj R(tj) nj ^S ( t j )
Osobe cije je
0 0 0 12 1
vreme prež. ≥0
Osobe cije je 11
1 1 0 12 = 0.92
vreme prež. ≥2 12
10
2 1 0 . 11 = 0.83
12

Statističko modeliranje Strana 25


Analiza preživljavanja i Koksov PH model

9
3 1 0 . 10 = 0.75
12
8
4 1 0 . 9 = 0.66
12
7
5 1 0 8 = 0.58
12
6
7 1 0 7 = 0.5
12
5
10 1 0 6 = 0.42
12
4
11 1 0 5 = 0.33
12
3
12 1 0 4 = 0.25
12
2
14 1 0 3 = 0.17
12
1
16 1 0 2 = 0.083
12
18 1 0 1 0

Na osnovu dobijenih podataka mozemo naći prosečna vremena preživljavanja i prosečne stope rizika prema
ranije pomenutim formulama:
n
broj neuspe h a
∑ tj h́= n
i
T́ = j =1 ∑ tj
n j=1

Za podatke iz tabele:

T́ 1=13.83 , h́1 =0.042

T́ 2=8.583 , h́2 =0.1165.

Vidimo da je prosečno vreme preživljavanja prve grupe veće nego prosečno vreme preživljavanja druge grupe,
kao da je i prosečna stopa rizika za prvu grupu manja. I Kaplan- Meier- ove krive govore u prilog tome da je
vreme preživljavanja prve grupe veće nego vreme preživljavanja druge grupe, tj. da hemoterapija pozitivno
utiče na izlečenje bolesti u smislu produženja vremena u kom su pacijenti zdravi.

Kaplan- Meier- ove krive preživljavanja su za obe grupe prikazane na sledećem grafiku:

Statističko modeliranje Strana 26


Analiza preživljavanja i Koksov PH model

C u m u l a ti v e P ro p o rti o n S u rv i v i n g (K a p l a n -M e i e r)
C o m p le te C e n so re d

1 .0

0 .8
Cumulative Proportion Surviving

0 .6

0 .4

0 .2

0 .0

-0 .2
0 5 10 15 20 25 30
G ro u p 1 .
T im e G ro u p 2 .

Testirajmo sada hipotezu H0 (krive preživljavanja se ne razlikuju) protiv alternativne hipoteze H1 (krive
preživljavanja se razlikuju) najpre pomoću log- rank statistike koja ima hi- kvadrat raspodelu sa jednim
stepenom slobode. Prikažimo najpre podatke tabelarno kako bismo sračunali neophodne delove:

Podaci za obe grupe:

tj m1j m2j n1j n2j e1j e2j m1j- e1j m2j- e2j
1 0 1 12 12 12 12 −12 12
24 24 24 24
2 0 1 12 11 12 11 12
23 23 −12 23
23
3 0 1 12 10 12 10 12
22 22 −12 22
22
4 0 1 12 9 12 9 −12 12
21 21 21 21
5 0 1 12 8 12 8 −12 12
20 20 20 20
7 0 1 12 7 12 7 −12 12
19 19 19 19
8 1 0 11 6 11 6 6 −6
17 17 17 17
9 1 0 10 6 10 6 6 −6
16 16 16 16
10 0 1 9 6 9 6 −9 9
15 15 15 15

Statističko modeliranje Strana 27


Analiza preživljavanja i Koksov PH model

11 0 1 9 5 9 5 −9 9
14 14 14 14
12 0 1 8 4 8 4 −8 8
12 12 12 12
13 1 0 7 3 7 3 3 −3
10 10 10 10
14 0 1 6 3 6 3 −6 6
9 9 9 9
15 1 0 5 2 5 2 2 −2
7 7 7 7
16 0 1 4 2 4 2 −4 4
6 6 6 6
17 1 0 3 1 3 1 1 −1
4 4 4 4
18 0 1 2 1 2 1 −2 2
3 3 3 3
20 1 0 2 0 1 0 0 0
24 1 0 1 0 1 0 0 0
total -5.716 5.716

Iz tabele vidimo da je O1- E1 = -5.716. Na osnovu formule za ocenu varijanse dobijamo da je var (O1- E1)=
(−5.716)2
3.8878, te je konačno registrovana vrednost log- rank statistike jednaka log−rank = =8. 4038
3.8878
Iz tablica za hi- kvadrat raspodelu sa jednim stepenom slobode nalazimo da je dogovarajuća p- vrednost
približno jednaka 0.0025 odakle vidimo da se nulta hipoteza odbacuje (p< 0.05), tj. prihvata se alternativna tj.
da krive preživljavanja na nivou značajnosti od 95% nisu iste.

Statistica daje sledeći rezultat:

Log-Rank Test
WW = -5.716
Sum = 15.772
Var = 4.1145
Test statistic = -2.81797
p = .00483

I na osnovu p- vrednosti dobijene u njoj vidimo da se nulta hipoteza odbacuje.

Peto test daje sledeće rezultate:

Peto & Peto Wilcoxon Test


WW = -4.000
Sum = 7.5031
Var = 1.9573
Test statistic = -2.85913
p = .00425
I on isto odbacuje nultu hipotezu.

Statističko modeliranje Strana 28


Analiza preživljavanja i Koksov PH model

Ako uvedemo i trecu grupu pacijenata od 12 koji su primali terapiju zračenja nakon operacije. Neka su
vremena pojavljivanja data u tabeli

Prva grupa Druga grupa Treća grupa


(hemoterapija) (nikakva terapija) (zračenje)
8 , 9 , 13 , 15 , 17 , 1,2,3,4,5,7, 7 , 7 , 10 , 11 , 11 ,
20 , 24, 10 , 11 , 12 , 12 , 13
7+ , 11+ , 12+ , 14 , 16 , 18 8+ , 8+, 9+, 10+,
14+ , 16+ 10+

Nađimo najpre krive preživljavanja a zatim testirajmo pomoću programskog paketa Statistica da li se krive
preživljavanja razlikuju.

Kaplan Meier- ove krive izgledaju:

C u m u l a ti v e P ro p o rti o n S u rv i v i n g (K a p l a n -M e i e r)
C o m p le te C e n so re d

1 .0

0 .8
Cumulative Proportion Surviving

0 .6

0 .4

0 .2

0 .0

-0 .2 G ro u p 1
0 5 10 15 20 25 30
G ro u p 2
T im e G ro u p 3

Sa grafika vidimo da je vreme preživljavanja pacijenata koji su primili hemoterapiju (prva grupa) najveće, pa
vreme preživljavanja pacijenata koji su išli na zračenje (treća grupa) i da je vreme preživljavanja pacijenata koji
nakon operacije nisu primali nikakvu terapiju (druga grupa).

Statističko modeliranje Strana 29


Analiza preživljavanja i Koksov PH model

9. KOKSOV PH MODEL

Posebno mesto u klasi statističkih modela preživljavanja imaju modeli sa proporcionalnim rizikom. Modele
preživljavanja analiziramo posmatrajući dve fundamentalne stavke, a to su osnovna funkcija rizika koja opisuje
kako se menja rizik tokom vremena i efekat parametara koji opisuju kako rizik varira u odnosu na nezavisne
promenljive. Dejvid Koks je uocio da ukoliko pretpostavimo da je rizik proporcionalan moguće je oceniti efekat
parametara bez određivanja same funkcionalne forme rizika. Ovaj pristup analizi podataka preživljavanja se
zove primena Koksovog modela sa proporionalnim rizikom li skraćeno Koksov model ili Model sa
proporcionalnim rizikom.

Koksova proučavanja iz 1972 godine promenila su pristup standardnoj parametarskoj analizi preživljavanja i
proširila metode nepapametarskih Kaplan Mejerovih ocena na argumente oblika regresije za analizu životnih
tablica. Koks je unapredio predviđanje vremena preživljavanja pojedinanca bez pretpostavki o osnovnoj fukicji
rizika pojedinaca ali pretpostavljajuci da funkcija rizika različitih subjekata ostaje proprocionalna i konstantna
tokom vremena.

Mi cemo pristupiti proučavanju ovog popularnog matematičkog modela na sledeći način. U desetom poglavlju
kroz primer i kompjuterske rezultate obrade podataka pokušaćemo da dočaramo sam model bez direktnog
uvođenja same forme modela. U poglavlju 11 uvodimo formulu modela dok u dvanaestom objasnjavamo
razloge zbog kojih je model atraktivan istražvačima. Poglavlje 13 posvećeno je ocenjivanju parametara
modela. Fokus u poglavljima 14, 15 i 16 je na hazard količniku i krivama preživljavanja. Posle teorijskog
razmatranja rad završavamo sa implementacijom u paketu Statistica 10.

Statističko modeliranje Strana 30


Analiza preživljavanja i Koksov PH model

10. KOMPJUTERSKA UPOTREBA KOKSOVOG PH MODELA

Priču o Koks-om modelu započinjemo na neuobičajen način, bez uvođenja same forme modela, koristeći
kompjuterske rezultate dobijene iz analize remisije vremenskih podataka za sledeći problem. Posmatramo
problem čiji skup podataka, prikazan u tabeli, uključuje dve grupe pacijenata koji boluju od leukemije. Svaka
grupa broji po 21 pacijenta. Grupe su stratifikovane prema tome da li su se pacijenti podvrgli medicinskom
tretmanu (tretman grupa-grupa 1), ili takozvanim tobožnjim lekovima (placebo grupa-grupa 2). Takodje, skup
podataka sadrži i promenljivu logWBC, (broj belih krvnih zrnaca pacijenata) koja je jedan od najboljih
prognostičkih indikatora preživljavanja za pacijente koji boluju od leukemije.

Podaci o remisiji leukemije


Tretman grupa (n=21) Placebo grupa (n=21)
Vreme (u Vreme (u
logWBC logWBC
nedeljama) nedeljama)
6 2.31 1 2.80
6 4.06 1 5.00
6 3.28 2 4.91
7 4.43 2 4.48
10 2.96 3 4.01
13 2.88 4 4.36
16 3.60 4 2.42
22 2.32 5 3.49
23 2.57 5 3.97
6+ ¿ 3.20 8 3.52
9+ ¿ 2.80 8 3.05
10+¿ 2.70 8 2.32
11+¿ 2.60 8 3.26
17+¿ 2.16 11 3.49
19+¿ 2.05 11 2.12
20+¿ 2.01 12 1.50
25+¿ 1.78 12 3.06
32+¿ 2.20 15 2.30
32+¿ 2.53 17 2.95
34+ ¿ 1.47 22 2.73
35+¿ 1.45 23 1.97
+ označava cenzurisano posmatranje

Osnovno pitanje koje nas interesuje se odnosi na upoređivanje iskustava preživljavanja ove dve grupe
pacijenata prilagođavanjem nekom mogućem ometanju i/ili efektima interakcije promenljive logWBC .

Promenljive u našem modelu su:

T - vreme (izraženo u nedeljama) do izlaska iz remisije,


X 1 - status grupe ( E )

Statističko modeliranje Strana 31


Analiza preživljavanja i Koksov PH model

X 2 =logWBC .

Dakle, razmatramo problem koji uključuje dve nezavisne promenljive kao predskazivače vremena
preživljavanja T. Ukoliko želimo da ocenimo mogući efekat interakcije promenljive logWBC na status grupe,
onda posmatramo još jednu promenljivu:

X 3 =X 1 × X 2

Postoji nekoliko programskih paketa pomoću kojih se mogu uraditi analize preživljavanja ovih grupa koristeći
Koks-ov model i to su: SPIDA, SAS I BMDP. Mi ćemo u našem posmatranju koristiti rezultate dobijene pomoću
programskog paketa SPIDA.

Analiziraćemo tri modela koji imaju isti skup podataka za ova 42 subjekta, istom zavisnom promenljivom ali su
nezavisne promenljive različite za svaki model. Tako model 1 sadrži samo promenljivu koja označava da li je
subjekat u tretman ili placebo grupi, model 2 sadrži dve promenljive: status grupe i logWBC, a treći model
pored ove dve sadrži i promenljivu datu kao proizvod statusa grupe i logWBC, a označava delovanje logWBC
na status grupe.

U sledećoj tabeli su dati rezultati obrade sva tri modela pomoću koji ćemo izračunati mogući efekat tretman
statusa, prilagođenog potencijalnom ometanju i interakcijske efekte promjenjive

Model 1:
Promenljive koeficijenti
standardna p-vrednost HR
greška
Rx 1.509 0.410 0 4.523
n:42 %Cen:28.571 -2logL:172.759

Model 2:
Promenljive koeficijenti
standardna p-vrednost HR
greška
Rx 1.294 0.422 0.002 3.648
logWBC 1.604 0.329 0.000 4.975
n:42 %Cen:28.571 -2logL:144.559

Model 3:
Promenljive koeficijenti
standardna p-vrednost HR
greška
Rx 2.355 1.681 0.161 10.537
log WBC 1.803 0.447 0.000 6.067
Rx×logWBC -0.342 0.520 0.510 0.710
n:42 %Cen:28.571 -2logL:144.131

Za svaki od modela predstavili smo prvih pet kolona iz rezultata koje daje SPIDA. Prva kolona prikazuje
promenljive koje učesvuju u modelu, u drugoj koloni su prikazani odgovarajući koeficijenti regresije za svaku
od promenljivih u modelu, u trećoj su standardne greške koeficijenata regresije, u četvrtoj p-vrednosti za

Statističko modeliranje Strana 32


Analiza preživljavanja i Koksov PH model

testiranje značajnosti svakog koeficijenta i konačno u petoj koloni koja je označena sa HR dat je hazard
količnik za efekat svake promenljive uskladjene sa ostalim promenljivim u modelu. Ako se izuzme poslednja
kolona analiziranje rezultata Koks-ovog modela je analogno analiziranju modela linearne regresije.

Analizirajmo prvo rezultate kompjuterske obrade dobijene za model 3.

Promenljive koeficijentistandardn p-vrednost HR


a greška
Rx 2.355 1.681 0.161 10.537
log WBC 1.803 0.447 0.000 6.067
Rx×logWBC -0.342 0.520 0.510 0.710
n:42 %Cen:28.571 -2logL:144.131

Za dobijanje ocena koeficijenata u ovom modelu se koristi metoda maksimalne verodostojnosti.

Cilj nam je da ispitamo da li je efekat promenljive koja predstavlja interakciju značajan. U ocenama metode
maksimalne verodostojnosti najčešće se koriste sledeća dva testa, a to su Wald test i Test količnika
verodostojnosti.

Wald test

Ako ocenu koeficijenta koji odgovara promenljivoj koja označava interakciju Rx ×logWBC označimo sa ^β a
odgovarajuću grešku sa s ^β testiranje izvršavamo na sledeći način.

Testiramo nultu hipotezu da koeficijent interakcije nije značajan H 0 ( β=0) protiv alternativne da je koeficijent
značajan H A ( β ≠ 0). Test statistika koju koristimo je


Z=
s ^β

Reč je o Z promenjivoj, odnosno promenljivoj koja ima standardizovanu normalnu raspodelu. Registrovana
vrednost test statistike se dakle dobija kao količnik ocene koeficijenta -0.342 i njegove standardne greške
0.520, što iznosi -0.66. Ostaje da izračunamo p-vrednost

p=P H { Z > z reg }=P H { Z>−0.66 }=0.510


0 0

Za nivo poverenja α odluka se donosi na sledeći način:

 Ako je p ≤ α , H 0 se odbacuje;
 Ako je p ≥ α , H 0 se ne odbacuje.

Za α =5 % sledi da se H 0 ne odbacuje, odnosno da efekat interakcije nije značajan.

Test količnika verodostojnosti ili LR test

Statističko modeliranje Strana 33


Analiza preživljavanja i Koksov PH model

Test količnik verodostojnosti ili LR test uzima u obzir vrednost logaritma funkcije verodostojnosti. Ona je data
izrazom −2 logL i njena vrednost za model 3 je 144.131.

Da bi izvršili ovaj test moramo da pogledamo i rezultate kompjuterske obrade za model 2 koji sadrži dve
promenljive. Promenljiva od interesa je R x i ona označava status postupka. Druga promenljiva je logWBC i ona
će biti razmatrana kao eventualni ometač. Naš cilj je da opišemo efekat statusa postupka prilagođenog za
logWBC .

promenljive koeficijenti standardna p-vrednost HR


greška
Rx 1.294 0.422 0.002 3.648
log WBC 1.604 0.329 0.000 4.975
n :42 %Cen28.571 -2logL:144.559

Odavde vidimo da je vrednost logaritma verodostojnosti za model 2 data sa −2 logL=144.559 . Ovu vrednost
zajedno sa −2 logL vrednosti iz modela 3 koristimo za dobijanje LR statistike za testiranje značaja
interakcijskog izraza u modelu 3:

H 0 ( nemainterakcije u modelu 3 ) vs H A ( postojiinterakcija u modelu)

Test statistika je

L model2 2
LR ( interakcija u modelu 3 )=−2 log =−2 ( log Lmodel 2−log Lmodel3 ) : χ 1
Lmodel 3

Ova test statistika ima χ2 raspodjelu sa jednim stepenom slobode sa nultom hipotezom da interakcijski
efekat ne postoji.

Registrovana vrednost test statistike je

−2 ( log Lmodel 2−log Lmodel3 ) =144.559−144.131=0.428

P vrednost za ovaj test je u intervalu (0.40, 0.50), što pokazuje da ne postoji značajna interakcija.

Kako je za Wald test je p-vrednost 0.510, što znači da p-vrednosti za Waldov i LR test nisu iste ali nas dovode
do istih zaključaka. Zbog boljih statističkih osobina češće se koristi LR test.

Pošto smo zaključili da je značaj interakcijskog dejstva zanemarljiv za analizu ćemo uzeti model 2.

Statističko modeliranje Strana 34


Analiza preživljavanja i Koksov PH model

Promenljive Koeficijenti standardna p-vrednost HR


greška
Rx 1.294 0.422 0.002 3.648
logWBC 1.604 0.329 0.000 4.975
n :42 %Cen28.571 −2 logL :144.559

Prilikom razmatranja ovog problema postoje tri statistička cilja koja treba ispuniti:

1. izvršiti test za značajnost promenljive za status tretmana prilagođenog za logWBC,

2. oceniti efekta statusa tretmana prilagođenog za logWBC

3. odrediti interval poverenja za ovaj efekat.

Ove tri bitne vrednosti još uvek možemo dobiti koristeći rezultate kompjuterske obrade, bez uvođenja
eksplicitne Koks-ove formule.

Iz tabele se vidi da je test za značaj efekta tretmana, p-vrednost dobijena Wald statistikom 0.002, što je veoma
značajno.

Bitna ocena efekta tretmana je data u HR koloni sa 3.648. Ova vrednost daje ocenjeni hazard količnik (HR) za
efekat tretmana, a računa se kao e 1.294 =3.648 .

Za pojam hazard količnika vezuje se interval poverenja. Da bismo opisali interval poverenja, koristimo
proširenu tabelu kompjuterski dobijenih rezultata za model 2.

Model
2:
Kolona koeficijenti standardn p- HR 0.95 CI P(PH)
a greška vrijednost
Rx 1.294 0.422 0.002 3.648 1.505 0.944
8.343
logWBC 1.604 0.329 0.000 4.975 2.609 9.486 0.917
n:42 %Cen:28.571 -2logL:144.559

Odavde se vidi da se 95% interval poverenja nalazi između 1.505-8.343. Ovo je interval poverenja za hazard
količnik i on je ustvari okolina od ranije opisane bitne ocene 3.648. Vidimo da je interval poverenja prilično
širok, što ukazuje na to da je ocena prilično nepouzdana. Zbog niske p-vrednosti od 0.002, interval poverenja
za hazard količnik ne sadrži 1 kao početnu vrijednost.

Kako računamo interval poverenja ako nam programski paket ne pruža odmah informaciju?

Prvo računamo 95% intervala povjerenja za koeficijent regresije promenljive R x ( β 1), a to je

1.294 ± 1.96 ×0.422,

Statističko modeliranje Strana 35


Analiza preživljavanja i Koksov PH model

gde je 1.96 kvantil, 97.5% normalne ili Z raspodjele. 95% intervala povjerenja za hazard količnik (HR) je

e 1.294 ±1.96 ×0.422

Programski paket SPIDA obezbeđuje traženi interval poverenja direktno, a ostali paketi obezbeđuju samo
koeficijente regresije i njihove standardne greške.

Ostalo je još da analiziramo model 1. U odnosu na modele 2 i 3, model 1 sadrži samo jednu promenljivu koja
označava status postupka i zbog toga se on često naziva “grub“ model jer ignoriše efekat potencijalne
promenljive od interesa kao što je logWBC.

Zbog toga se on najčešće koristi za neka upoređivanja.

Model 1:
Promenljive Koeficijenti Standardna p-vrijednost HR
greška
Rx 1.509 0.410 0 4.523
(grub model)
n:42 %Cen:28.571 -2logL:172.579
Model 2:
Promenljive Koeficijenti Standardna p-vrijednost HR
greška
Rx 1.294 0.422 0.002 3.648
logWBC 1.604 0.329 0.000 4.975
n:42 %Cen:28.571 -2logL:144.559

Model 1 može biti iskorišten da u poređenju sa modelom 2 izračunamo potencijalni efekat ometanja
promjenjive logWBC.

Primetimo da je vrednost u HR koloni za promenljivu koja označava status postupka 4.523 za model 1 i 3.648
za model 2. Prema tome grubi model ima ocenjeni hazard količnik koji je nešto viši nego odgovarajući koji je
dobijen kada prilagodimo logWBC. Ako su grube i prilagođene ocene značajno različite možemo reći da
imamo ometanje usled logWBC. Kada jednom uočimo da postoji ometanje mi moramo kontrolisati ometača-u
našem slučaju je to logWBC-da bi smo dobili validne ocjene efekta. Iz tog razloga koristimo model 2 koji
kontroliše logWBC, a ne model 1.

Statističko modeliranje Strana 36


Analiza preživljavanja i Koksov PH model

Čak iako ne postoji značajno ometanje, mi ipak želimo kontrolisati logWBC da bi dobili, što precizniju ocjenu
hazard količnika. Tako, ako je interval povjerenja za hazard količnik uži kod modela 2 nego kod modela 1,
koristimo model 2 da bi postigli precizniju ocjenu.

Posle analize sva tri modela možemo zaključiti da je najbolji model 2 i da koristeći model 2 dobijamo statistički
značajan hazard količnik od 3.648 za efekat postupka sa intervalom poverenja koji se kreće između 1.5 i 8.3.

Sve ove zaključke do sada smo izveli bez korištenja Koksove formule, a analize koje smo uradili su vrlo slične
analiziranju logističkog regresionog modela i klasične linearne regresije.

Spomenimo još i krive preživljavanja za ovaj model.

Prilagođene krive preživljavanja za logWBC (model 2):

Kriva za svaku od grupa prilagođenu za efekat od logWBC je bazirana na rezultatima kompjuterske obrade za
model 2. Naročito je bitno da se uporede obe krive u periodu posmatranja. Upoređivanjem krivih vidimo da
grupa pacijenata koji su na tretmanu ima veću verovatnoću preživljavanja od placebo grupe nakon
prilagođavanja za logWBC. Razlika izmedju krivih se povećava kako vrijeme odmiče.

Bitno je još napomenuti da se ove krive matematički razlikuju od Kaplan-Mejerovih krivih. Kaplan-Mejerove
krive nisu prilagođene promenljivima pa se i ne dobijaju korištenjem rezultata prilagođenog Koksovog PH
modela,ali su ipak slične ovim krivama.

Još jedan podatak koji obezbeđuju programski paketi koji koriste Koksov model je P(PH) vrednost. Ova
vrednost nam omogućava da uočimo da li je zadovoljena pretpostavka o proporcionalnom hazardu tj da li je
ispunjena PH pretpostavka.

Statističko modeliranje Strana 37


Analiza preživljavanja i Koksov PH model

Model 2:
Kolona P(PH)
Rx 0.944
logWBC 0.917

P-vrijednost, recimo veća od 0.10 pokazuje da je PH pretpostavka zadovoljena, a mala p-vrijednost, recimo
manja od 0.05 pokazuje da testirana promenjiva ne zadovoljava ovu pretpostavku.

Kompjuterski dobijena vrednost P(PH) za model 2, za obe promenjive, pokazuje da je PH pretpostavka


zadovoljena u oba slučaja.

11. FORMA KOKSOVOG MODELA

Statističko modeliranje Strana 38


Analiza preživljavanja i Koksov PH model

Koksov PH model se obično zapisuje u obliku sledeće formule:


p

∑ βi Xi
h ( t , X )=h0 ( t ) e i=1
, X=( X 1 , ⋯ , X p )

Koksov model nam daje izraz za rizik u vremenu t subjekta sa skupom nezavisnih promenljivih X. X predstavlja
kolekciju ( “vektor“) nezavisnih promenivih koje su modelirane da predvide pojedinačan rizik.

Odmah uočavamo da je rizik u trenutku t proizvod dve veličine. Prva od tih veličina h0 ( t) predstavlja funkciju
osnovnog rizika. Druga veličina je eksponencijalni izraz. Bitno svojstvo formule, a tiče se PH pretpostvke
(pretpostavke o proporcionalnom riziku), je to da je osnovni rizik funkcija od t, ali ona ne uključuje X-eve.
Suprotno tome, eksponencijalni izraz uključuje X-eve ali ne uključuje t. Ovakve promenljive se nazivaju još i
vremenski-nezavisni X-evi.

Moguće je, ipak, razmatrati i vremenski-zavisne promenljive. I u tom slučaju Koksov model je i dalje moguće
koristiti samo što takav model ne zadovoljava PH pretpostavku i tada govorimo o proširenom Koksovom
modelu.

U ovom radu bavićemo se isključivo sa vremenski-nezavisnim X-evima.

Vremenski-nezavisna promenljiva je definisana kao promenljiva čija se vrednost za datog subjekta ne menja
kroz vreme. Primeri takvih promenjivih su pol i pušački status. Iako se pušački status može menjati kroz
vrijeme, za ciljeve naše analize je uzeto da se jednom utvrđen status neće menjati.

Takođe primećujemo da se promenljive kao što su starosna dob i težina menjaju kroz vreme, ali može biti
veoma zgodno tretirati takve promenljive kao vremenski-nezavisne, ukoliko se njihova vrednost ne menja
drastično kroz vreme ili ako efekat takvih promenljivih na rizik preživljavanja u biti zavisi od jednom utvrđene
vrednosti tih promenjivih.

Koksova formula ima osobinu da ukoliko su sve nezavisne promenljive jednake nuli, da se ona svodi na
funkciju osnovnog rizika, jer je e 0=1.
p

X 1 , ⋯ , X p =0 ∑ βiXi
⇒ h ( t , X )=h 0 ( t ) e i=1
=h0 (t )e 0=h0 (t).

Ova osobina Koksovog modela jeste i razlog zašto je h0 ( t) zove osnovna funkcija.

Drugačije rečeno Koksov model se svodi na funkciju h0 ( t) osnovnog rizika kada u modelu nema nezavisnih
promenljivih. Tako, može biti smatrana kao osnovna verzija hazard funkcije pre uključivanja i razmatranja
nezavisnih promenljivih.

Druga važna osobina Koksovog modela je ta da je osnovna funkcija, h0 ( t) neodređena funkcija. Ova osobina
čini Koks-ov model neparametarskim modelom.

Nasuprot tome, parametarski model, je onaj čija je funkcionalna forma potpuno određena, osim vrednosti
nepoznatih parametara. Jedan od najpoznatijih parametarskih modela je Veilbulov hazard model:
p

α −1
∑ β i Xi
h(t , X )=λ t e i=1

Statističko modeliranje Strana 39


Analiza preživljavanja i Koksov PH model

gde su nepoznati parametri su λ, α i β i. Posmatrajući ovaj model primećujemo da je h0 ( t) dato sa λ t α −1.

Statističko modeliranje Strana 40


Analiza preživljavanja i Koksov PH model

12. ZAŠTO JE KOKSOV MODEL POPULARAN?

Ključni razlog za popularnost Koksovog modela leži u cinjenici da iako je funkcija osnovnog rizika neodređena,
dobre ocene koeficijenata regresije, hazard količnici i prilagođene krive preživljavanja se mogu izvesti za širok
spektar podataka. Drugim rečima, Koksov model je “čvrst“ model. Rezultati dobijeni upotrebom Koksovog
modela su veoma približni rezultatima tačnog parametarskog modela. Na primer, ako je Veibulov model
ispravan parametarski model, onda korišćenjem Koksovog modela dobijamo rezultate približne onim koji su
dobijeni korišćenjem Veibulovog modela.

U principu, uvek koristimo parametarski model ukoliko smo sigurni u pravilnost modela. Postoje različite
metode da za procenu prednost korišćenja parametarskog modela, ali nikada ne možemo biti potpuno sigurni
da je dati parametarski model prikladan. Baš iz tog razloga što često dolazimo u nedoumicu, biramo Koksov
model jer on daje dovoljno pouzdane rezultate i možemo ga smatrati sigurnim izborom.

Generalno gledano “čvrstina“ Koksovog modela i njegov specifičan oblik je atraktivan iz nekoliko razloga.

Kao što znamo formula za Koksov model je proizvod osnovne hazard funkcije koja sadrži t i eksponencijalnog
izraza koji sadrži X-ove a ne sadrži t. Eksponencijalni deo ove formule je privlačan jer obezbeđuje nenegativne
ocene prilagođenog modela. Pošto se po definiciji vrednost bilo koje funkcije rizika mora kretati između 0 i + ∞
želimo da i drugi deo formule bude nenegativan. Ukoliko bi umesto eksponencijalnog dela imali linearnu
funkciju po X, mogli bi dobiti negativne ocjene rizika što nije dozvoljeno.

Još jedna bitna osobina Koksovog modela je to što iako funkcija osnovnog rizika nije određena možemo
oceniti β parametre u eksponencijalnom delu modela, koji su nam kako ćemo kasnije videti, potrebni da bi
procenili efekat promenljivih od interesa. Mera efekta, koja se zove hazard količnik, se takođe računa bez
ocene osnovne hazard funkcije.

Primetimo da hazard funkcija h(t , X ) i odgovarajuća kriva preživljavanja S(t , X) mogu biti ocenjene za Koksov
model čak iako osnovna hazard funkcija nije određena. To znači da sa Koksovim modelom, uz minimum
pretpostavki možemo dobiti primarne informacije iz analize preživljavanja a to su hazard količnik i kriva
preživljavanja.

Još jedna bitna cinjenica zbog koje je Koksov model popularan je upravo to što on ima prioritet nad logističkim
modelom kad imamo informaciju o vremenu preživljavanja i kada postoje cenzurisanja. Koksov model koristi
više informacija - vreme preživljavanja- nego logistički model, koji razmatra samo opcije (0,1) i ignoriše vreme
preživljavanja i cenzurisanje.

Statističko modeliranje Strana 41


Analiza preživljavanja i Koksov PH model

13. OCENJIVANJE PARAMETARA KOKSOVOG MODELA

U ovom poglavlju opisaćemo postupak za dobijanje ocena parametara Koksovog modela. Kao što znamo
formula za Koksov model ima oblik:
p

∑ βi Xi
h ( t , X )=h0 ( t ) e i=1

a parametri koje ocenjujemo su koeficijenti β i. Odgovarajuće ocene ovih parametara zovu se ocene
maksimalne verodostojnosti i označavamo ih sa ^
β i.

Još jednom ćemo pogledati rezultate kompjuterske obrade za model 2 i na tom primeru objasniti izvođenje
ovih ocena.

Model 2:
Promenljive Koeficijenti
standardna p-vrijednost HR
greška
Rx 1.294 0.422 0.002 3.648
logWBC 1.604 0.329 0.000 4.975
n:42 %Cen28.571 -2logL:144.559

Koksov model za ovaj primer uključuje dva parametra, jedan koji je koeficijent promenljive koja označava
status grupe ( R x) a drugi je koeficijent uz promenjivu logWBC . Dakle, model je:

h ( t , X )=h0 ( t ) e β Rx+ β2 logWBC


1
.

Koristimo ocene koeficijenata iz tabele i dobijamo ocenjeni model

h^ ( t , X )=h^0 (t )e 1.294 Rx+1.604 logWBC .

Kao i kod logističke regresije, ocene parametara metodom maksimalne verodostojnosti za Koksov model
dobijaju se maksimiziranjem funkcije verodostojnosti koja se obično označava sa L ili L(β) gde β označava
skup nepoznatih parametara.

Matematički izraz za ovu formulu je veoma komplikovan, a kako je sama formula ugrađena u kompjuterski
program, način dobijanja MV ocena ne može videti.

Funkcija verodostojnosti za Koksov model se često naziva i parcijalna funkcija verodostojnosti jer ona razmatra
samo verovatnoće za one subjekte kod kojih se desio događaj i ne razmatra verovatnoće za subjekte koji su
cenzurisani.

Takva parcijalna funkcija verodostojnosti se može zapisati kao proizvod nekoliko funkcija verodostojnosti,
jedna za svaki od recimo k neuspeha:

Statističko modeliranje Strana 42


Analiza preživljavanja i Koksov PH model
k
L=L1 ×⋯ × Lk =∏ L j
j=1

Indeksi od 1 ,... , k označavaju intervale u kojima se desio događaj. Tako je L j funkcija verodostojnosti za j-to
vreme neuspeha, a subjekti kod kojih postoji rizik da se desi događaj u vremenu j čine grupu rizika i
označavaju sa R(t ( j) ). Jasno, skup - grupa rizika se smanjuje kako se vreme povećava.

Već smo rekli da funkcija verodostojnosti ne razmatra cenzurisane subjekte, ali ako je subjekat cenzurisan
nakon vremena j , onda je on deo grupe rizika koju koristimo za računanje L j .

Dakle ako imamo k intervala neuspeha t (1) <t (2) < ⋯<t (k), tako da se tačno jedan neuspeh desi u svakom
t (i) , i=1 , ⋯ , k . Sa [ i ] označimo subjekta kome se desio događaj u intervalu t (i). Koksova funkija verodostojosti je
tada data sa:
p

k ∑ β i X [i ] j
e i=1

L=∏
j=1 ∑ eβ X
i li

l ∈ R (t ( j) )

Nakon formiranja funkcije verodostojnosti za dati model, sledi maksimiziranje te funkcije. Maksimiziranje
vršimo izjednačavanjem parcijalnih izvoda funkcije L po svakom parametru u modelu sa 0. Tako dobijamo
sistem jednačina oblika:

∂L
=0 , i=1 , ⋯ , p
∂ βi

Sistem se rešava iterativnim postupkom, gde se na početku uzima neka pretpostavljena (nagađana) vrednost i
onda se postepeno modifikuje dok se ne dobije konačno rješenje.

Da sumiramo: ocene koeficijenata Koksovog modela dobijamo izvršavanjem sledećih koraka:

 formirati L(β )

 max L(β ) ili maxlnL( β)

∂L
 rešiti sistem =0 , i=1 , ⋯ , p
∂ βi

Rešenje se dobija iteracijom, počinje pretpostavljanjem vrednosti rešenja i onda se ta vrednost sukcesivno
modifikuje dok se ne dobije rešenje.

Statističko modeliranje Strana 43


Analiza preživljavanja i Koksov PH model

14. HAZARD (RIZIK) KOLIČNIK

Hazard količnik se definiše kao količnik rizika dva subjekta. Individualci koji se porede se razlikuju po
vrednostima nezavisnih promenljivih koje ih karakterišu.

Ocenu količnika rizika možemo stoga zapisati kao:

^ h^ ( t , X ¿ )
HR=
h^ ( t , X )
gde vektori

X ¿ =( X ¿1 , ⋯ , X ¿ p ) i X=(X 1 , ⋯ , X p ),

označavaju skupove predviđajućih promenljivih, X-eva, koji karakterišu jedinku.

Kao i sa količnikom verovatnoća, lakše je predstaviti količnik rizika koji ima vrednost veću od 1 nego količnik
rizika koji je manji od jedan a to će se desiti ako je brojilac veći od imenioca, odnosno ako je:

h^ ( t , X ¿ ) ≥ h^ ( t , X )
¿
Stoga, X-evi su najčešće kodirani tako da grupi sa većim rizikom – obično neizloženoj grupi odgovara X a
grupi sa manjim rizikom odgovara X .

Na našem primeru, placebo grupa je kodirana sa X 1=1, a tretman grupa sa X 1 =0, to jest:
¿

X ¿ =( X ¿1=1 , ⋯ , X ¿ p ), gde X ¿ 1=1 označava placebo grupu,

a X =( X 1 , ⋯ , X p), gde X 1 =0 označava tretman grupu.

Sređivanjem izraza za količnik rizika, HR, dobijamo:

∑ ^βi X i¿ p

h^ ( t , X ) h^0 ( t ) e
¿ i=1
∑ β^ (X ¿¿ i¿¿¿−X )¿¿
i i

HR=
^ = p =e i=1

h^ ( t , X ) ∑ ^β Xi i

h^0 ( t ) e i=1

odnosno:
p

∑ ^β i(X ¿ ¿ i¿ ¿¿−X i)¿¿.


^
HR=e i=1

Sada ćemo na primerima pokušati da se što više približimo ovoj formuli.

Pretpostavimo da postoji samo jedna promenljiva od interesa, X, koja uzima vrednosti 0 ili 1 i p=1. Ocena
hazard količnika je tada:

Statističko modeliranje Strana 44


Analiza preživljavanja i Koksov PH model
p

∑ ^β i(X ¿ ¿ i¿ ¿¿−X i)=e ^β (1−0)=e ^β ¿¿.


1 1

^
HR=e i=1

Prisetimo se sada podataka remisije iz modela 1 koji sadrži samo jednu promenljivu R x.

Model 1:
Promenljive Koeficijenti standardna p-vrijednost HR
greška
Rx 1.509 0.410 0 4.523

Ocenjeni količnik rizika je

HR=e 1,509=4.523.
^

Za model 2 situacija je sledeća:

Model 2:
Promenljive Koeficijenti standardna p-vrijednost HR
greška
Rx 1.294 0.422 0.002 3.648
logWBC 1.604 0.329 0.000 4.975

¿
X =( 1 , logWBC ) , X =(0 ,logWBC )

Hazard količnik za efekat promenljive status grupe prilagođen za logWBC je


1.294 (1−0 )+1.604 (logWBC −logWBC ) 1.294
^ ^
HR=e β ( X ¿ ¿1¿ ¿ ¿− X )+ β ( X ¿ ¿2¿ ¿ ¿− X )=e =e ¿¿¿ ¿
^ 1 1 2 2

Ovaj primer ilustruje osnovno pravilo da je hazard količnik, za efekte (0,1) date promenljive usklađene za
ostale promenljive, dobijen kao e β gde je β koeficijent date promenljive. Ovo pravilo ima uslov da model ne
sme sadržati izraz u obliku proizvoda.

Pogledajmo još šta se dešava ako model sadrži izraz u obliku proizvoda, to jest na primeru modela 3:

Model 3:
Kolona Koeficijenti Standardna p-vrijednost HR
greška
Rx 2.355 1.681 1.161 10.537
log WBC 1.803 0.447 0.000 6.067
Rx×logWBC -0.342 0.520 0.510 0.710

¿
Model sadrži tri promjenjive. Vektor X koji označava placebo subjekat, ima komponente:

X ¿ =(1 ,logWBC , 1× logWBC)

Statističko modeliranje Strana 45


Analiza preživljavanja i Koksov PH model

a vektor X , koji označava subjekat na tretmanu ima komponente:

X =(0 ,logWBC , 0 ×logWBC )

Zamenjujući vrednosti dobijene kompjuterskom obradom i vrednosti vektora X* i X dobijamo da je ocena za


HR jednaka
^ ^ ^ 2.355 (1−0) +1.803 (logWBC −logWBC )−0.342(logWBC −0 ) 2.355−0.342logWBC

HR=e β ( X ¿ ¿1¿ ¿ ¿− X )+ β ( X ¿ ¿2¿ ¿ ¿− X )+ β ( X ¿ ¿3¿ ¿ ¿− X )=e


^ 1 1 2 2 3 3 =e ¿¿ ¿¿¿ ¿

Da bismo dobili konkretnu numeričku vrednost za HR moramo odrediti vrednost za logWBC . Tako za
logWBC=2 , ocjena HR-a je 5.32, a za vrijednost logWBC=4 , ocjena HR-a je 2.68. Kako za različite vrednosti
log WBC dobijamo različite vrednosti za ocenu količnika rizika, što ima smisla jer je logWBC modifikacioni
efekat u modelu 3.

Ovaj primer upravo ilustruje pravilo za određivanje hazard količnika u modelu koji sadrži izraz u obliku
proizvoda promenljivih koje učestvuju u modelu, a to je:
^ ^
HR=e β+∑ δ W
^ j j

gdje je ^β ocena koeficijenta od E, a δ^ j od promenljive E ×W j.

Koristeći ovu formulu dobijamo isti rezultat za model 3:


^ ^
HR=e β+ δ logWBC =e 2.355−0.342 logWBC ,
^ 1

gde je E=Rx a W 1=logWBC

Statističko modeliranje Strana 46


Analiza preživljavanja i Koksov PH model

15. PRILAGOĐENE KRIVE PREŽIVLJAVANJA

Dve osnovne veličine koje nas zanimaju iz analize preživljavanja su:

 ocena količnika rizika


 ocene kriva preživljavanja

Kako smo upravo opisali postupak za računanje ocene količnika rizika, preostaje nam da kažemo nešto o
ocenjivanju kriva preživljavanja koristeći Koksov model.

Podsetimo se, ukoliko nemamo model za fitovanje podataka preživljavanja, onda se krive preživljavanja
dobijaju Kaplan-Mejerovom metodom. To su su stepenaste funkcije. Međutim, kada se Koksov model koristi za
fitovanje podataka preživljavanja, krive preživljavanja se dobijaju tako da budu prilagođene nezavisnim
promenljivim u modelu. Otuda i potiče naziv prilagođene krive preživljavanja. Kao i KM krive i one su
stepenastog oblika.

Formula funkcije rizika za Koks-ov model


p

∑ βi Xi
h ( t , X )=h0 ( t ) e i=1

može biti pretvorena u odgovarajuću formulu za funkciju preživljavanja:


p
∑ βi X i
e
S(t , X)=S 0 (t)
i=1

Ova formula je osnova za određivanje prilagođenih krivih preživljavanja..

Ocenjena funkcija preživljavanja je:


p

∑ ^βi X i
e
^S (t , X)=S^0 (t) i=1

S0 (t ) i β i se dobijaju pomoću kompjuterskih programa koji imaju ugrađenu funkciju za Koks-ov model,
Ocene ^
gde vrednosti za X i moraju biti određene od strane istraživača, kako bi program mogao da izračuna ocene za
funkcije preživljavanja.

Objasnimo ovo na ranije razmatranom modelu 2.

h^ ( t , X )=h^0 (t )e 1.294 Rx+1.604 logWBC


1.294 Rx+ 1.604 logWBC
^S(t , X)=S^ (t)e .
0

Statističko modeliranje Strana 47


Analiza preživljavanja i Koksov PH model

Ovdje vidimo izraze za hazard funkciju i odgovarajuću funkciju preživljavanja. Ako unesemo konkretne
vrijednosti za vektor X , čije su komponente Rx i logWBC , na primjer, ako uzmemo da je Rx=1 i
logWBC=2.93 , dobijamo konkretnu funkciju preživljavanja.
1.294∗1+1.604∗2.93 5.99
^S(t , X)=S^ (t)e =S^0 (t)e = S^0 (t )400.9
0

Primetimo da je vrednost 2.93 od logWBC artmetička sredina logWBC na čitavom skupu od 42 subjekta.

Slično je i za Rx=0 i logWBC=2.93 .


1.294∗0+1.604∗2.93 4.70
^S(t , X)=S^0 (t)e =S^0 (t)e = S^0 (t)109.9

Svaki od ova dva izraza daje prilagođene krive preživljavanja, gde je prilagođavanje za vrednosti vektora X .

Primetimo još iz ovih izraza da verovatnoća preživljavanja može biti dobijena za bilo koju vrijednost t .

Ovako dobijene krive preživljavanja nam omogućuju da uporedimo krive preživljavanja za različite tretman
grupe, prilagođene promjenjivoj logWBC .

Obe krive opisuju ocenjene verovatnoće preživljavanja pod pretpostavkom da je sve vreme vrednost
promjenjive logWBC jednaka,a u našem slučaju je to 2.93.

Kada računamo krivu preživljavanja, vrednost koja se bira za promenjivu kojoj se prilagođavamo je srednja
vrijednost. U našem primjeru srednja vrednost za logWBC , za svih 42-ije promjenjive u skupu je 2.93.

Ako želimo uporediti krive preživljavanja na dva nivoa (za tretman i za placebo grupu) date promenjive i želimo
ih prilagoditi za nekoliko promenljivih u modelu, možemo koristiti posebne formule za svaku od tih krivih:
β 1 ∗1+∑ ^
βi X́ i

^S(t , X 1)= S^0 (t)e i≠1

β 1 ∗0+∑ ^
β i X́ i

^S(t , X 0)=S^0 (t)e i≠ 1

Ako želimo dobiti prilagođenu krivu koja se prilagođava svim promenivim u modelu, opšta formula koja koristi
srednju vrednost za svaku promenjivu je:
p
∑ ^βi X́ i
^S (t , X́)=S^0 (t)e i=1

Ova formula daje jedinstvenu prilagođenu krivu preživljavanja.

Ilustrujmo to na sledećem primeru:

´
Ŕx=0.5, logWBC=2.93
´ β^2 logWBC
β 1 Rx+ ´ 1.294∗0.5+ 1.604∗2.93
^S(t , X́)=S^0 (t)e S0 (t)e
=^ = S^0 (t )210.6

Statističko modeliranje Strana 48


Analiza preživljavanja i Koksov PH model

Iz ovakvog izraza za krivu preživljavanja, verovatnoća preživljavanja može biti izračunata za bilo koje t. Ako
krivu preživljavanja crtamo koristeći neki programski paket vrijednost od t će biti birana automatski izmedju
vremena dok se događaj ne desi, određenih za svaki subjekat u posmatranju koji je imao događaj.

Grafik prilagođenih krivih preživljavanja dobijen iz prilagođenog Koksovog modela nacrtan kao stepenasta
funkcija.

S^ ( t )

1,0
109.9
[ S^ 0 ( t ) ]
0,8

0,6

0,4 400 .9
[ S^ 0 ( t ) ]
0,2

Vidimo stepenaste funkcije za dvije prilagođene krive preživljavanja dobijene za 0 ili 1 tretman status i uzevši
da je prosječna vrednost za logWBC 2.93.

Statističko modeliranje Strana 49


Analiza preživljavanja i Koksov PH model

16. PH PRETPOSTAVKA

PH pretpostavka zahteva da je HR konstantan u vremenu, to jest da je rizik jednog subjekta proporcionalan


riziku drugog subjekta, gdje je konstanta proporcije nezavisna od vremena.

Da bismo bolje razumjeli PH pretpostavku, vratimo se na formulu za HR, gde se porede dve jedinke koje
¿
karakterišu vektori X , X .
p

∑ ^βi X i¿ p

h^ ( t , X ¿ ) h^0 ( t ) e i=1
∑ β^ (X ¿¿ i¿¿¿−X )¿¿
i i

HR=
^ = p =e i=1

h^ ( t , X ) ∑ ^β X i i

h^0 ( t ) e i=1

Konačni izraz za hazard količnik dakle uključuje ocene koeficijenata β i i vrednosti koje primaju promenljive X
¿

i X.

Kao što vidimo osnovna hazard funkcija se poništila i konačni izraz ne zavisi od t. Pošto je konačna vrednost
hazard količnika konstantna označimo je sa θ^ i onda dobijamo :
p

∑ ^βi ( X ¿ ¿i¿ ¿ ¿− Xi)¿ ¿


^
θ=e i=1

h^ ( t , X ¿ )=θ^ h^ ( t , X ).

Ovo je matematički izraz koji određuje proporcionalnu hazard pretpostavku.

Drugim rečima:h^ ( t , X ¿ )=θ^ h^ ( t , X )

Ovaj izraz nam govori da je hazard funkcija za jednog subjekta proporcionalna hazard funkciji za nekog drugog
subjekta, gdje je θ^ konstanta proporcionalnosti koja ne zavisi od vremena.

Statističko modeliranje Strana 50


Analiza preživljavanja i Koksov PH model

Da bi smo bolje objasnili hazard pretpostavku ponovo ćemo razmotriti Koks-ov model za podatke remisije koji
uključuje dvije promenjive Rx i logWBC .

h^ ( t , X )=h^0 (t )e 1.294 Rx+1.604 logWBC .

^ h^ ( t , Rx=1 ,logWBC =2.93 ) 1.294


HR= =e =3.65
h^ ( t , Rx=0 ,logWBC =2.93 )

h^ ( t , Rx=1 ,logWBC =2.93 )=3.65 h^ ( t , Rx=0 , logWBC=2.93 )

U ovom modelu, hazard količnik je ocenjen poređenjem placebo ( Rx=1) sa tretiranim ( Rx=0) subjektom,
kontrolišući logWBC i njegova vrednost je 3.65. Prema tome hazard količnik za placebo grupu je 3.65 puta veći
od hazard količnik za tretman grupu, a vrednost 3.65 konstatnta proporcionalnosti.

U cilju još boljeg objašnjenja hazard pretpostavke razmotrićemo situaciju kada proporcionalna hazard
pretpostavka nije zadovoljena.

Posmatrajmo studiju u kojoj su pacijenti koji boluju od kancera nasumično izabrani za operaciju ili radijaciju bez
operacije. Tako imamo (0,1) zadatu promjenjivu koja označava status operacije i to tako što 0 označava da
pacijent ide na operaciju, a 1 da ne ide. Pretpostavimo dalje da je to jedina promjenjiva od interesa, pa će tako
Koks-ov model za analizu ovih podataka sadržati samo jednu promjenjivu E, koja ozačava zadatu promjenjivu.

h ( t , X )=h0 ( t ) e βE

Pitanje koje se ovde postavlja je to da li je Koks-ov model koji sadrži promjenjivu E prikladan model za ovakvu
situaciju?

Da bi odgovorili na ovo pitanje, primijetimo prvo da kad se pacijent podvrgne delikatnoj operaciji, kao što je
uklanjanje kancerogenog tumora, on je izložen riziku da dodje do komplikacija tokom operacije, rane smrti
tokom rehabilitacionog toka i tak kada pacijent prođe određeni kritični period korist operacije, ukoliko postoji,
može biti primećena.

Prema tome, u studiji koja poredi ove dvije mogućnosti, operacija ili ne, možemo očekivati da hazard funkciju
grafički izgleda:

Statističko modeliranje Strana 51


Analiza preživljavanja i Koksov PH model

h(t ,X)

E=0 (operacija)
E=1

E=0
E=0 (bez operacije)

3 t (dani)

Primećujemo da se ove dve funkcije seku približno na treći dan i da pre trećeg dana rizik grupe koja se
podvrgne operaciji je veći nego rizik grupe koja se leči bez operacije, dok nakon trećeg dana rizik grupe koja
se podvrla operaciji je niži nego rizik grupe bez operacije.

Pažljivije posmatrajući grafik vidimo da drugi dan, kada je t  2 , količnik rizika grupe koja se leči bez operacije
(E=1) i grupe koja se leči sa operacijom (E=0) ima vrednost manju od jedan:

^ h^ ( t =2 , E=1 )
HR= <1
h^ ( t =2 , E=0 )

Nasuprot tome, kada je t  5 količnik rizika grupa bez i sa operacijom ima vrednost veću od jedan:

^ h^ ( t=5 , E=1 )
HR= <1
h^ ( t=5 , E=0 )

Ako je opis funkcije rizika za svaku od grupa tačan količnici rizika nisu konstantni u toku vremena. Tačnije,
količnik rizika je neki broj koji je manji od jedan pre trećeg dana, i veći od jedan nakon tri dana, zbog toga je
neprikladno koristiti Koksov PH model u ovoj situaciji jer ovaj model pretpostavlja konstantan količnik rizika a u
ovom slučaju on varira u toku vremena.

Ako koristimo Koksov model u ovoj situaciji ocenjeni količnik rizika koji poredi dve grupe pacijenata je dat
^
konstantnom vrednošću e β .

Ovaj primer pokazuje opšte pravilo da ako se rizici presecaju PH pretpostavka ne može biti zadovoljena tako
da je Koksov PH model neprikladan.

Prirodno je zapitati se, ako je Koksov model neprikladan, kako bi trebalo izvesti analizu?

Za studiju operacije postoji nekoliko opcija za analizu. To uključuje:

Statističko modeliranje Strana 52


Analiza preživljavanja i Koksov PH model

 analiziranje stratifikovanjem promenljive, to jest, ne prilagođavati je nijednom modelu i umesto


toga dobiti Kaplan – Meier-ove krive za svaku grupu te promenljive posebno;

 početi analizu za tri dana i primeniti Koks-ov PH model na trodnevno preživljavanje;

 prilagoditi Koks-ov model za manje od tri dana i drugačiji Koks-ov model za više od tri dana da

bismo dobili dve različite ocene količnika rizika, po jednu za svaki od perioda(dobijemo HR (< 3

dana) i HR (> 3 dana));

 prilagoditi modifikovani Koks-ov model koji uključuje vremenski zavisnu promenljivu koja meri
interakciju promenljive sa vremenom. Ovaj model se naziva prošireni Koks-ov model.

Dalja diskusija ovih opcija je izvan domena teme ovog rada, međutim, istaći ćemo da različite opcije mogu
dovasti do različitih zaključaka, tako da bi istražitelj morao da proceni relativne vrline svake opcije u smislu
podataka koji su dobijeni pre nego što odluči da je bilo koja opcija najbolja.

17. PRIMER 2

Posmatramo dve grupe pacijenata obolelih od melanoma, od ukupno 65 pacijenata. Grupe su stratifikovane
prema tome da li imaju normalnan i abnormalan broj trombocita na dijagnozi. Osnovni skup podataka pored
statusa grupe sadrži i promenljive: starosna dob i pol. Ukoliko želimo još da ocenimo efekat interakcije
starosne dobi ili pola na status grupe posmatraćemo još dve promenljive u obliku proizvoda.

Cilj posmatranja ove dve grupe je upoređivanje iskustava preživljavanja prilagođavanjem nekom mogućem
ometanju ili efektima interakcije promenljive starosna dob i pol.

Promenljive koje se pojavljuju u ovom posmatranju su:

T – vreme dok se ne izađe iz remisije

X 1 - status grupe ¿ 0 , ako je broj trombocita abnormalan


{
1 , ako je broj trombocita normalan

X 2 – starosna dob (izražena u godinama)

X 3 - pol ¿ 1 , ukoliko je pacijent muskog pola


{
2,∧ukoliko je pacijent ž enskog pola

X 4= X 1 × X 2

X 5 =X 1 × X 3

Statističko modeliranje Strana 53


Analiza preživljavanja i Koksov PH model

model 1:

promenljive koeficijenti st. greška p-vrednost HR

trombociti 0.470 2.854 0.869 1.600

starosna dob 0.000 0.037 0.998 1.000

pol 0.183 0.725 0.801 1.200

trom x stdob -0.008 0.041 0.850 0.992

trom x pol -0.503 0.804 0.532 0.605

-2 ln L: 306.080

model 2

promenljive koeficijenti st. greška p-vrednost HR

trombociti -0.725 0.401 0.071 0.484

starosna dob -0.005 0.016 0.740 0.995

pol -0.221 0.311 0.478 0.802

-2 ln L:306.505

model 3

promenljive koeficijenti st. greška p-vrednost HR

trombociti -0.706 0.401 0.078 0.493

starosna dob -0.003 0.015 0.828 0.997

-2 ln L: 307.018

model 4

promenljive koeficijenti st. greška p-vrednost HR

trombociti -0.705 0.397 0.076 0.494

Statističko modeliranje Strana 54


Analiza preživljavanja i Koksov PH model

pol -0.204 0.307 0.506 0.815

-2 ln L: 306.616

model 5

promenljive koeficijenti st. greška p-vrednost HR

trombociti -0.694 0.397 0.080 0.500

-2 ln L: 307.065

Sada uočavamo razlike među rezultatima ovih pet prikazanih modela. Svaki od ovih modela obrađuje isti skup
podataka, međutim, nezavisne promenljive su različite za svaki model. Tako, model 1 sadrži promenljivu koja
označava da li je broj trombocita u dijagnozi normalan ili abnormalan, starosnu dob, pol, kao i promenljive koje
su proizvod promenljivih – trombociti x starosna dob, i trombociti x pol. Model 2 sadrži tri promenljive – status
trombocita, starosnu dob i pol. Model 3 sadrži dve promenljive, broj trombocita i starosnu dob, model 4 broj
trombocita i pol, dok model 5 sadrži samo jednu promenljivu i to je broj trombocita.

Posmatramo rezultate modela 1. Metod koji se koristio za dobijanje koeficijenata je ocena metodom
maksimalne verodostojnosti (ML)

model 1:

promenljive koeficijenti st. greška p-vrednost HR

trombociti 0.470 2.854 0.869 1.600

starosna dob 0.000 0.037 0.998 1.000

pol 0.183 0.725 0.801 1.200

trom x stdob -0.008 0.041 0.850 0.992

trom x pol -0.503 0.804 0.532 0.605

-2 ln L: 306.080

Dobijena p-vrednost za promenljivu koja je proizvod broja trombocita i starosne dobi je 0.850 i rezultat je
deljenja koeficijenta -0.008 sa njegovom standardnom greškom 0.041, što daje -0.195 i onda pretpostavimo da
ova promenljiva ima približno standardnu normalnu raspodelu, tj. da je standardna normalna ili Z promenljiva.
Ova Z statistika je poznata kao Wald statistika koja je jedna od dve test statistike koje se koriste za ocenu
metodom maksimalne verodostojnosti. Druga test statistika zvana količnik verodostojnosti ili LR statistika
koristi vrednost logaritma verodostojnosti. Ovo je dato izrazom -2 ln L i ta vrednost za model 1 je 306.080. isti
postupak se primenjuje i na promenljivu koja je u obliku proizvoda broja trombocita i pola. p-vrednost te
promenljive jednaka je 0.532 i dobijena je deljenjem koeficijenta -0.503 standardnom greškom 0.804 i rezultat
je -0.626 i onda pretpostavljamo da ta promenljiva ima približno normalnu raspodelu. Takođe, i za ovu

Statističko modeliranje Strana 55


Analiza preživljavanja i Koksov PH model

promenljivu je druga test statistika količnik verodostojnosti i koristi vrednost logaritma verodostojnosti.

Sada gledamo rezultate modela 2 koji sadrži tri promenljive. Promenljiva koja označava status broja trombocita
je promenljiva od interesa. Druga i treća promenljiva su starosna dob i pol, i posmatraju se kao smetnja. Naš
cilj je da opišemo efekat broja trombocita prema starosnoj dobi i polu.

Model 2

promenljive koeficijenti st. greška p-vrednost HR

trombociti -0.725 0.401 0.071 0.484

starosna dob -0.005 0.016 0.740 0.995

pol -0.221 0.311 0.478 0.802

-2 ln L:306.505

Najpre primetimo da je vrednost logaritma verodostojnosti za model 2 data sa


-2 ln L = 306.505 i tu vrednost možemo koristiti zajedno sa vrednošću -2 ln L iz modela 1 da dobijemo LR
statistiku za testiranje značaja promenljive koja predstavlja interakciju promenljivih u modelu 1. Nju dobijamo
2
tako što od 306.505 oduzmemo 306.080 i dobijemo 0.425. Ova test statistika ima raspodelu sa dva stepena
slobode i sa nultom hipotezom da ne postoji efekat interakcije. p-vrednost za ovaj test je između 0.4 i 0.5 što
ukazuje na to da ne postoji značajna interakcija u modelu 1. Iako p-vrednosti za Wald test i LR test nisu
potpuno iste dovode do istog zaključka. Uopšteno, Wald i LR statistika mogu dati različite rezultate. Statističari
su pokazali da od te dve test procedure LR statistika ima bolja statistička svojstva tako da ako smo u
nedoumici treba da se odlučimo za LR test.

Postoje tri statistička cilja koji se obično uzimaju u obzir. Prvi je da testiramo značaj promenljive koja označava
status broja trombocita prilagođen starosnoj dobi i polu, drugi je da dobijemo ocenu efekta broja trombocita,
prilagođenog starosnoj dobi i polu, i treći je da dobijemo interval poverenja za ovaj efekat. Ovo možemo postići
koristeći dobijene rezultate bez direktnog korišćenja formule za Koks-ov model.

Za testiranje značaja broja trombocita, p-vrednost u tabeli za Wald statistiku je 0.071 što je veoma značajno.
Alternativno, količnik verodostojnosti može biti izveden poređenjem statistike logaritma verodostojnosti za
model 1 sa logaritmom statistike verodostojnosti za model koji ne sadrži promenljivu koja predstavlja stanje
broja trombocita. Ovaj drugi model koji bi trebao da sadrži samo drugu promenljivu ovde nije prikazan pa ćemo

Statističko modeliranje Strana 56


Analiza preživljavanja i Koksov PH model

samo primetiti da je LR test takođe veoma značajan. Stoga, ovi rezultati pokazuju da upotreba modela 2,
promenljiva koja označava broj trombocita je značajna, nakon prilagođavanja za starosnu dob i pol.

Procena efekta promenljive broja trombocita je obezbeđena u koloni HR sa vrednošću 0.484. Ova vrednost je

ocena količnika rizika za efekat broja trombocita a računa se kao e0.725  0.484. Za pojam količnika rizika
vezuje se interval poverenja.

Da bismo opisali interval poverenja za efekat broja trombocita posmatramo rezultate za proširenu tabelu datu
za model 2 koji je prikazan ranije.

Model 2
promenljive koeficijenti st. greška p-vrednost HR 0.95 CI P(PH)
trombociti -0.725 0.401 0.071 0.484 0.221 1.063 0.863
st.dob -0.005 0.016 0.740 0.995 0.965 1.026 0.405
Pol -0.221 0.311 0.478 0.802 0.436 1.476 0.487
-2 ln L: 306.505

Iz tabele se vidi da je 95% interval poverenja za efekat broja trombocita između 0.221 i 1.063. Ovo je interval
poverenja za količnik rizika (HR) koji okružuje tačku 0.484, koja je prethodno opisana.

Ostaje još da analiziramo modele 3, 4 i 5.

model 3
promenljiv koeficijent st. p- HR
e i greška vrednost
trombociti -0.706 0.401 0.078 0.493
starosna -0.003 0.015 0.828 0.997
dob
-2 ln L: 307.018

model 4
promenljiv koeficijent st. p- HR
e i greška vrednost
trombociti -0.705 0.397 0.076 0.494
pol -0.204 0.307 0.506 0.815
-2 ln L: 306.616

model 5
promenljiv koeficijent st. p- HR
e i greška vrednost
trombociti -0.694 0.397 0.080 0.500

Statističko modeliranje Strana 57


Analiza preživljavanja i Koksov PH model

-2 ln L: 307.065

Model 5 sadrži samo jednu promenljivu koja označava status broja trombocita i zbog toga se često naziva
„grub“ model, jer ignoriše efekat moguće promenljive od interesa kao što je starosna dob ili pol.

Vrednost HR za promenljivu koja označava status broja trombocita je nešto veći nego odgovarajući koji se
dobije kada prilagodimo starosnu dob i pol. Ako su grube i prilagođene ocene različite možemo reći da postoji
ometanje zbog starosne dobi i pola. Ako jednom ustanovimo smetnju moramo je kontrolisati da bismo dobili
važeće ocene efekta. Zbog toga koristimo neki od modela 2, 3, 4 ili 5 a ne 1. Čak iako ne postoji značajno
ometanje ipak ga kontrolišemo da bismo dobili što tačniju ocenu količnika rizika. Tako da, ako je interval
poverenja za količnik rizika kod nekig modela uži nego kod nekog drugog koristićemo model sa užim
intervalom poverenja da bismo dobili što precizniju ocenu.

Opštevažeći količnik rizika je 0.484, koji je dobijen u modelu 2. primetimo da model 2 ne sadrži promenljive
koje predstavljaju interakciju i kontroliše obe promenljive od interesa. Kada su ili pol ili starosna dob izbačeni iz
modela količnik rizika (za broj trombocita) se ne menja primetno. Stoga, izgleda da ni pol ni starosnu dob ne
treba tretirati kao smetnju, odnosno ne treba ih kontrolisati.

Modeli 2, 3, 4 I 5 su dosta slični, buduči da svi u suštini daju isti količnik rizika i interval poverenja za
promenljivu broj trombocita.

Nakon analize svih pet modela zaključujemo da je najpodesniji model 2 i da koristeći njega dobijamo statistički
značajan količnik rizika od 0.484 za status broja trombocita sa intervalom poverenja od 0.221 do 1.063 i
kontrolišemo obe promenljive, i starosnu dob i pol.

Statističko modeliranje Strana 58


Analiza preživljavanja i Koksov PH model

18. PRILOG

Analiza preživljavanja

Rešavanje KM krivih, Log - rank testa i Peto testa na primerima iz rada, pomoću kompjuterskog programa
Statistika.

Grupa 1 - Blizanci

Za date podatke iz grupe 1, predstavljen je niz koraka kojima se dolazi do odgovarajuće KM krive
preživljavanja.

Statističko modeliranje Strana 59


Analiza preživljavanja i Koksov PH model

Statističko modeliranje Strana 60


Analiza preživljavanja i Koksov PH model

Statističko modeliranje Strana 61


Analiza preživljavanja i Koksov PH model

Grupa 2.

Podaci remisije za 24 para blizanaca

Statističko modeliranje Strana 62


Analiza preživljavanja i Koksov PH model

Predstavljen je niz koraka za dobijenje odgovarajućih KM krivih, Log-rank test i Peto test.

Statističko modeliranje Strana 63


Analiza preživljavanja i Koksov PH model

Statističko modeliranje Strana 64


Analiza preživljavanja i Koksov PH model

Statističko modeliranje Strana 65


Analiza preživljavanja i Koksov PH model

Koksov PH model

Rad završavamo prilgom rezultata koje nam daju različiti programski paketi za naš početni primer o
pacijentima koji boluju od leukemije iz dela o Koksovom modelu. Dacemo uputstvo kako se obrađuju podaci u
paketu SPIDA i programu Statistica10. U dodatku vezanom za Statistiku pokazaćemo i razliku između kriva
preživljavanja koje se dobijaju Kaplan Majerovim metodom i prilagođenoh kriva preživljavanja.

SPIDA

Za unete podatke o vremenu preživljavanja i broju krvih zrnaca za svih 42 pacijenta i funkcijom označenom
kod svakog modela dobijamo sledeće vrednosti.

Za

Statističko modeliranje Strana 66


Analiza preživljavanja i Koksov PH model

Statističko modeliranje Strana 67


Analiza preživljavanja i Koksov PH model

Statistica 10

Unesemo podatke:

Statistics → Advanced models → Survival → Regression models

Statističko modeliranje Strana 68


Analiza preživljavanja i Koksov PH model

Sada upoređujemo krive koje odgovaraju grupama:

Statistics → Advaced models → Survival→ Comparing multiple samples

Statističko modeliranje Strana 69


Analiza preživljavanja i Koksov PH model

Statistica 10 ima u sebi i odvojenu rubriku za Cox Proportional Hazards Regression pod odeljkom Statistics →
Advanced models koja crta prilagođene krive prilagođavanja.

Statističko modeliranje Strana 70


Analiza preživljavanja i Koksov PH model

Statističko modeliranje Strana 71


Analiza preživljavanja i Koksov PH model

19. ZAKLJUČAK

Statistika kao nauka je sama po sebi značajna zbog toga što nalazi široku primjenu u realnom životu. Mnoge
životne situacije i procjene se rade upravo pomoću različitih statističkih metoda, što smo uostalom i vidjeli kroz
ovaj rad, gdje je Koks-ova metoda primijenjena na analizu preživljavanja. Neke od tih metoda su matematički
veoma složene, ali razvojem računara i stvaranjem programskih paketa koji imaju ugrađene funkcije za
određene postupke, to više nije problem.
Statistika je oblast matematike koja se bavi sakupljanjem, analizom, interpretacijom, objašnjavanjem i
prezentacijom podataka. Ima svoje primene u širokom spektru akademskih disciplina,
od fizike do ekonomije i sociologiije. Predmet statističkog istraživanja su masovne pojave koje su po svojoj
prirodi promenljive i nastaju pod uticajem nekih faktora.
Danas statistika prevazilazi svoje nekadašnje okvire - opisivanje pojava, i koristi se za davanje procena,
odmeravanje rizika, istražuje tendencije, analizira odnose i faktore koji određuju pojavu. Statistika se danas
koristi praktično u svakoj profesiji. Ekonomisti je koriste da testiraju različite tehnike proizvodnje; poslovni ljudi
je koriste da testiraju dizajn proizvoda koji daje maksimalnu prodaju; sociolozi koriste statističke testove da
testiraju rezultate programa rehabilitacije alkoholičara; industrijski psiholozi da provere uticaj fabričkog
okruženja na radnike; političari je koriste da predvide rezultate izbora; hemičari da bi proizveli jeftinije đubrivo,
lekari da odrede efikasnost novog leka itd. Mnoge životne situacije i procene se vrše upravo pomoću
statističkih metoda, što smo videli i kroz ovaj rad gde je Koks-ova metoda primenjena na analizu preživljavanja.
Neke od metoda su veoma složene ali razvojem računara i programskih paketa koji imaju ugrađene funkcije za
određene postupke to više ne predstavlja problem.

Koksova metoda ima veoma široku primjenu u različitim sferama života i nauke uopšte, a ovdje smo vidjeli
njenu primjenu u medicinskim naukama.

Statističko modeliranje Strana 72


Analiza preživljavanja i Koksov PH model

20. LITERATURA

1. David G. Kleinbaum, “Survival Analysis“, Springer-Verlag, New York, 1996.


2. Survival Analysis Using SAS : Practical Guide“ , Paul D. Allison

3. SPIDA manual, Sydney, Australia, 1991; i Krall et al., „A step-up procedure for Selecting Variables
Associated with Survival Data“, Biometrics, vol.31, pp 49-57, 1975.

4. www.bmj.com

5. www.ncbi.nlm.nih.gov > Journal List > Crit Care > v.8(5); 2004

6. Medical College of Wiskoncin: www.mcw.edu

Statističko modeliranje Strana 73

You might also like