Professional Documents
Culture Documents
Logisticka Regresija
Logisticka Regresija
Logisticka Regresija
1
Šta je logistička regresija?
2
Binarna logistička regresija
3
Linearna regresija
y = β0 + β1x + ε
ε – greška koja je normalno distribuirana sa srednjom
vrednošću 0 i konstantnom varijansom
ε = 1 − β0 − β1x
ε = 0 − β0 − β1x
4
Primena
5
Primer 1 – Da li je pušenje prediktor za pojavu KSB
Dizajn:
60 pacijenata
dve grupe: pušači i nepušači
pušači – 1; nepušači – 0
Zavisna varijabla
Koronarna srčana bolest: DA / NE
6
Primer 1
Analiza:
Student t – test za proporciju: pKSB+ puš
pušači : p KSB+ nepuš
nepušači
7
Dihotomna varijabla Y (0/1):
KSB
0 1
pušenje
8
Example 1
outcome smoking + smoking - total
a / m a 17
Odds KSB (pušači) = = = = 2,429
c /m c 7
Pušači imaju 2,428 puta veću šansu da dobiju KSB nego da je ne dobiju
b/n b 9
Odds KSB (nepušači) = = = = 0,333
d / n d 27
Nepušači imaju 0,333 puta veću šansu dobiju KSB nego da je ne dobiju
9
Odds
Odds za neki događaj je
p
odds =
1− p
odnosno
p
log (odds ) = log
1− p
10
Logit transformacija
11
Logit transformacija
Logit transformacija daje linearnu relaciju između
verovatnoće posmatranog događaja i vrednosti
nezavisne varijable x
p
log (odds) = log = β0 + β1x
1− p
p
log (odds ) = log = β0 + β1x
1− p
p
= eβ0 +β1x
1− p
eβ0 +β1x
p= za populaciju
β0 +β1x
1− e
eb0 +b1x
p= za uzorak
b0 +b1x
1− e
e ≈ 2,718
p = P(y=1)
x = prediktor
13
Logistički regresioni model
e ≈ 2,718
p = P(y=1)
14
Interpretacija koeficijenata b0 i b1
b0
neophodan za jednačinu, nema značaja za interpretaciju
predstavlja vrednost log odds kada je prediktor jednak 0
15
Interpretacija koeficijenta b1
b1 je frakcija za koju se promeni rizik za pojavu događaja koji nas
interesuje kada se prediktor x promeni za jednu jedinicu
Primer
osoba 1, prediktor (x) = k
osoba 2, prediktor (x) = k + 1
Jednačine za log odds glase
log (odds za događaj kod osobe 2) = b0 + b1 (k + 1)
log (odds za događaj kod osobe 1) = b0 + b1 (k)
Dalje:
log (odds za događaj kod osobe 2) = b0 + b1 (k) + b1
log (odds za događaj kod osobe 1) = b0 + b1 (k)
16
Interpretacija koeficijenta b1
Razlika između log odds osobe 1 i osobe 2:
log (odds za događaj kod osobe 2) = b0 + b1 (k) + b1
log (odds za događaj kod osobe 1) = b0 + b1 (k)
log odds za pojavu događaja koji nas interesuje kod osobe 2 čiji je
prediktor x = k + 1, razlikuje se od log odds za pojavu događaja koji
nas interesuje kod osobe 1 čiji je prediktor x = k za vrednost
koeficijenta b1
odnosno
17
Interpretacija koeficijenta b1
18
Interpretacija koeficijenta b1
b1 = 0
odds i verovatnoća za pojavu željenog događaja su
jednaki za sve vrednosti x (eb1 = OR = 1)
b1 > 0
odds i verovatnoća za pojavu željenog događaja se
povećavaju sa povećanjem vrednosti x (eb1 = OR > 1)
b1 < 0
odds i verovatnoća za pojavu željenog događaja se
smanjuju sa smanjenjem vrednosti x (eb1 = OR < 1)
19
Example 1 – Odds ratio
outcome smoking + smoking - total
a / m a 17
Odds CHD (smo ker s) = = = = 2,429
c/m c 7
b/n b 9
Odds CHD (non − smo ker s) = = = = 0,333
d / n d 27
2,429
Odds ratio (OR ) = = 7,286
0,333
Interpretation:
Smokers are 7,29 times more likely to have CHD than non-smokers
20
Odds ratio (Relativni odds, Ukršteni odnos)
Odds Ratio (OR) je odnos šansi prethodne izloženosti kod slučajeva
(prisutan događaj koji nas interesuje, kodiran sa 1) i kontrola (odsutan
događaj koji nas interesuje, kodiran sa 0):
događaj
ukupno
prisutan (+) odsutan (-)
da (+) a b r (a + b)
izloženost ne (-) c d s (c + d)
ukupno m (a + c) n (b + d) N (a+b+c+d)
21
Interpretacija koeficijenata
Odds (pušači) = 2.429
ln (odds) = 0.887
Odds (nepušači) = 0.333
ln (odds) = -1.099
p
Model za ovaj primer je ln = b 0 + b 1 x
1− p
p
Za nepušače (x = 0) imamo ln = b 0 + b 1 × 0 = b 0
1− p
22
Interpretation of coefficients
Nagib predstavlja razliku između log odds za pušače i log odds za
nepušače:
p1 p0
b1 = ln
− ln = 0.887 − (−1.099) = 1.986
(1 − p1 ) (1 − p 0 )
Model je:
log(odds) = -1,099 + 1.986x
23
Logistic regression in SPSS
In the menu, click on Dependent : chd
Analyze Covariates: smoking
Point to Method: Enter
Regression Then Continue
Point to and OK
Binary Logistic
... and click
24
Example 1 in SPSS
25
Example 1 in SPSS
In the menu, click on Options
Check
CI for exp(B)
and Continue
Then click OK
26
Example 1 in SPSS
In the menu, click on Options
Check
CI for exp(B)
and Continue
Then click OK
27
Example 1 in SPSS - Output
Case Processing Summary
a
Unweighted Cases N Percent
We see that there are 60 cases Selected Cases Included in Analysis 60 100,0
used in the analysis. Missing Cases 0 ,0
Total 60 100,0
Unselected Cases 0 ,0
Total 60 100,0
a. If weight is in effect, see classification table for the total
number of cases.
Classification Tablea,b
Predicted
CHD Percentage
Observed 0 1 Correct
Step 0 CHD 0 34 0 100,0
1 26 0 ,0
Overall Percentage 56,7
a. Constant is included in the model.
b. The cut value is ,500
The Block 0 output is for a model that includes only the intercept
(which SPSS calls the constant).
Given the base rates of the two CHD options (34/60 = 56.7% no CHD,
43.3% with CHD), and no other information, the best strategy is to
predict, for every case, that the subject has CHD. Using that strategy,
you would be correct 56.7% of the time.
28
Example 1 in SPSS - Output
Under Variables in the Equation you see that the intercept-only model is
ln(odds) = -.268
The predicted odds that nonsmokers have CHD is [Exp(B)] = 0.765
Chi-square df Sig.
Step 1 Step 12,645 1 ,000
Block 12,645 1 ,000
Model 12,645 1 ,000
29
Example 1 in SPSS - Output
Under Model Summary we see that the -2 Log Likelihood statistic is
69.463.
This statistic measures how poorly the model predicts the decisions --
the smaller the statistic the better the model.
The Cox & Snell R2 can be interpreted like R2 in a multiple regression,
but cannot reach a maximum value of 1.
The Nagelkerke R2 can reach a maximum of 1.
Model Summary
30
Example 1 in SPSS - Output
The Variables in the Equation output shows us that the regression
equation is
df = 1, χ20,05; 1 = 3,841
31
Example 1 in SPSS - Output
The Variables in the Equation output also gives us the Exp(B) or
the odds ratio predicted by the model.
OR = e1,986 = 7,286 p OR
32
Example 1 in SPSS - Output
We can now use this model to predict the odds that a subject has
CHD.
The odds prediction equation is odds = ea+bx
33
Example 1 in SPSS - Output
Convert Odds to probability p = odds / (1+odds)
34
Primer 2 – Faktori rizika za pojavu KSB
Povezanost između pojave KSB i godina starosti, pušenja i
gojaznosti
60 osoba
26 sa KSB (43,3%)
23 pušača (38,3%)
22 gojazne osobe (36,7%)
Cilj:
Pokazati da li su starost, pušenje i gojaznost faktori
rizika za KSB
Ako su faktori rizika kolika je “jačina” njihovog
delovanja
35
Primer 2 – Faktori rizika za pojavu KSB
Pokazati da li su starost, pušenje, gojaznost i holesterol faktori
rizika za KSB
Ako su faktori rizika kolika je “jačina” njihovog delovanja
Varijable:
KSB: 0 – KSB odsutna; 1 – KSB prisutna
zavisna varijabla, nominalna skala (binarna)
Starost: 0 - < 50 g; 1 - > 50 g
prediktor, kategorička varijabla, nominalna skala (binarna)
Pušenje: 0 – nepušač; 1 – pušač
prediktor, kategorička varijabla, nominalna skala (binarna)
Gojaznost: 0 – negojazni; 1 – gojazni
prediktor, kategorička varijabla, nominalna skala (binarna)
Holesterol: kontinuirane vrednosti
prediktor, skala odnosa
36
Primer 2 - Logistička regresija
Omogućava da se izračuna jednačina koja izražava relaciju
između binarnog ishoda i jednog ili više faktora uticaja (prediktora):
verovatnoća za pojavu KSB i starost
verovatnoća za pojavu KSB i pušenje
verovatnoća za pojavu KSB i gojaznost
verovatnoća za pojavu KSB i holesterol
verovatnoća za pojavu KSB i starost + pušenje + gojaznost +
holesterol
i ako nas interesuje
verovatnoća za pojavu KSB i starost + pušenje
verovatnoća za pojavu KSB i starost + gojaznost
verovatnoća za pojavu KSB i starost + holesterol
verovatnoća za pojavu KSB i pušenje + gojaznost
verovatnoća za pojavu KSB i pušenje + holesterol
verovatnoća za pojavu KSB i gojaznost + holesterol
37
KSB : Godine
ishod > 50 g < 50 g ukupno
KSB+ 20 6 26
KSB− 12 22 34
ukupno 32 28 60
38
Primer 2 u SPSS-u
b0 b1 p OR
OR = e-1,299 = 6,111
Osobe starije od 50 g imaju 6,11 puta veću verovatnoću da obole od KSB
nego osobe mlađe od 50 g
Model Summary
39
KSB : Pušenje
40
Primer 2 u SPSS-u
p OR
OR = e1,986 = 7,286
Pušači imaju 7,29 puta veću verovatnoću da obole od KSB nego
nepušači
Model Summary
41
KSB : Gojaznost
42
Primer 2 u SPSS-u
p OR
OR = e1,176 = 3,241
Gojazne osobe imaju 3,24 puta veću verovatnoću da obole od KSB
nego negojazne osobe
Model Summary
43
Primer 2 u SPSS-u
p OR
OR = e0,696 = 2,005
Kada se holesterol poveća za jednu jedinicu (1 mmol/L), verovatnoća da
osoba oboli od KSB povećava se za 2,005 puta
Model Summary
44
Example 2
In the menu, click on Options
Check
CI for exp(B)
Hosmer-Lemeshow goodness-
of-fit
and Continue
Then click OK
45
Example 2
46
Example 2 in SPSS - Output
The -2 Log Likelihood statistic has dropped to 55.86, indicating
that our expanded model is doing a better job at predicting CHD
than was one-predictor model
The R2 statistics have also increased
Model Summary
47
Example 2 in SPSS - Output
one-predictor four-predictors
model model
OR p OR p
48
Example 2 in SPSS – Method
Forward:Wald
49
Example 2 in SPSS – Method Forward:Wald -
Output
Variables in the Equation
Model Summary
Variables not in the Equation -2 Log Cox & Snell Nagelkerke
Step likelihood R Square R Square
Score df Sig.
1 69,463 ,190 ,255
Step Variables OBESITY 3,769 1 ,052
1 2 60,020 ,308 ,413
AGE 9,234 1 ,002
CHOLESTE 6,060 1 ,014
Overall Statistics 12,654 3 ,005
Step Variables OBESITY 3,247 1 ,072
2 CHOLESTE 1,262 1 ,261
Overall Statistics 4,106 2 ,128 Hosmer and Lemeshow Test
50
Primer 3 – Faktori rizika za pojavu KSB
Pokazati da li su starost, pušenje, gojaznost i holesterol faktori
rizika za KSB
Ako su faktori rizika kolika je “jačina” njihovog delovanja
Varijable:
KSB: 0 – KSB odsutna; 1 – KSB prisutna
zavisna varijabla, nominalna skala (binarna)
Starost: kontinuirane vrednosti
prediktor, skala odnosa
Pušenje: 0 – nepušač; 1 – pušač
prediktor, kategorička varijabla, nominalna skala (binarna)
Gojaznost (BMI): kontinuirane vrednosti
prediktor, skala odnosa
Holesterol: kontinuirane vrednosti
prediktor, skala odnosa
51
Primer 3 – Faktori rizika za pojavu KSB
Model Summary
Hosmer and Lemeshow Test
-2 Log Cox & Snell Nagelkerke
Step likelihood R Square R Square Step Chi-square df Sig.
1 43,255 ,477 ,639 1 6,370 8 ,606
52
Primer 3 – Faktori rizika za pojavu KSB
Model Summary
Hosmer and Lemeshow Test
-2 Log Cox & Snell Nagelkerke
Step Chi-square df Sig.
Step likelihood R Square R Square
1 2,687 8 ,952
1 64,361 ,256 ,343
2 4,078 8 ,850
2 50,473 ,410 ,550
3 6,346 8 ,609
3 43,261 ,477 ,639
Step
c
SMOKING 2,558 ,854 8,973 1 ,003 12,910 2,421 68,831
3 BMI ,298 ,125 5,681 1 ,017 1,347 1,054 1,720
YEARS ,104 ,034 9,515 1 ,002 1,110 1,039 1,186
Constant -14,739 4,365 11,402 1 ,001 ,000
a. Variable(s) entered on step 1: YEARS.
b. Variable(s) entered on step 2: SMOKING.
c. Variable(s) entered on step 3: BMI.
53
54
55
Logistička regresija u SPSS
p OR
56
KSB : (Godine + Pušenje)
70
60
50
40
%
30
20
10
0 KSB -
pušači KSB +
> 50 g nepušači
pušači
< 50 g nepušači
KSB + KSB -
57
Logistička regresija u SPSS
p OR
70
60
50
40
30
20
10
0 KSB -
gojazni KSB +
negojazni
> 50 g gojazni
< 50 g negojazni
KSB + KSB -
59
Logistička regresija u SPSS
p OR
log (odds) = −1,565 + 1,987× pušenje+ 1,177× gojaznost
60
50
40
% 30
20
10
0 KSB -
gojazni KSB +
pušači negojazni
gojazni
nepušači negojazni
KSB + KSB -
61
Logistička regresija u SPSS
p OR
log (odds ) = −7,587 + 0,106 × godine + 2,615 × pušenje + 1,271× gojaznost
ORgodine = e0,106 = 1,112
ORpuš 2,615 = 13,666
pušenje = e
Artritis
dani: dužina lečenja u danima
tretman: 1 – lek ; 0 – placebo
pol: 0 – muškarci : 1 – žene
godine: godine starosti
poboljšanje: 0 – nema poboljšanja ; 1 - poboljšanje
65