Download as pdf or txt
Download as pdf or txt
You are on page 1of 11

MODELE: LOGIT, PROBIT I TOBIT

(fragmenty 16 rozdziau ksiki pt. Basic econometrics, Regresja


ze zmienn zalen typu dummy: modele LMP, logit, probit i tobit)
Damodar N. Gujarati
W rozdziale 15, w ktrym rozwaalimy modele regresyjne ze zmienn typu dummy,
zakadalimy, e zmienna zalena Y jest zmienn ilociow (na skali interwaowej przyp.
tum.) podczas gdy zmienne wyjaniajce byy albo ilociowe, albo jakociowe (nominalne
przyp. tum.), albo byy ich mieszank. W tym rozdziale rozwaamy modele regresji, w
ktrych zmienna zalena czy te zmienna-reakcja sama moe by z natury zmienn
dwuwartociow, przyjmujc warto 1 lub 0 i skupiamy uwag na paru interesujcych
problemach estymacyjnych zwizanych z tymi modelami.
16.1 ZMIENNA ZALENA TYPU DUMMY
Przypumy, e chcemy zaj si badaniem uczestnictwa w rynku pracy dorosych mczyzn
jako funkcji wskanika bezrobocia, przecitnego wskanika zarobkw, dochodw w rodzinie,
wyksztacenia itd. czowiek albo jest na rynku pracy, albo nie jest. Zatem zmienna zalena,
uczestnictwo w rynku pracy, moe przyjmowa jedynie dwie wartoci: 1 jeli jednostka jest
na rynku pracy i 0 jeli nie jest.
Rozwamy inny przykad dotyczcy wyborw prezydenckich w USA. Zamy, e mamy
do czynienia z dwoma partiami politycznymi, Demokratyczn i Republikask. Zmienn
zalen jest w tej sytuacji gosowanie stanowice wybr midzy tymi dwoma partiami
politycznymi. Przyjmijmy, e Y=1, jeli gos jest oddawany na kandydata Partii
Demokratycznej i Y=0, jeli gos jest na kandydata Partii Republikaskiej. Ray Fair,
ekonomista z Uniwersytetu Yale oraz kilku politologw przeprowadzio sporo bada na ten
temat.
2)
Zmiennymi wykorzystywanymi w gosowaniu wyborczym byy: tempo wzrostu
PKB, stopa bezrobocia i stopa inflacji, czy kandydat ubiega si o reelekcj itd. Dla naszych
obecnych celw wane jest zauwaenie, e zmienna zalena jest zmienn jakociow.
*

Istnieje szereg takich przykadw, w ktrych zmienna zalena jest zmienn
dwuwartociow. Tak wic, rodzina albo posiada dom, albo nie, posiada si ubezpieczenie od
kalectwa albo si nie posiada, zarwno m, jak i ona maj prac, albo ma tylko jedna osoba.
Podobnie pewien lek jest skuteczny w leczeniu jakiej choroby albo nie jest. Firma decyduje
si na ogoszenie wypacania dywidendy albo nie, senator decyduje si poprze Poprawk o
rwnoci praw lub te nie, prezydent postanawia zawetowa ustaw lub nie itd.
Szczegln cech wszystkich tych przykadw jest to, e zmienna zalena wywouje
odpowied tak lub nie; innymi sowy jest z natury dychotomiczna.
1

Jak bdziemy radzi sobie z modelami zawierajcymi dychotomiczne zmienne zalene
(typu zmienna-reakcja)? To jest, jak mamy je estymowa? Czy istniej jakie zwizane z tymi
modelami szczeglne problemy estymacyjne oraz/lub problemy zwizane z wnioskowaniem?

2)
Patrz: Ray Fair, Econometrics and Presidential Elections, Journal of Economic Perspective, lato 1996: 89-
102, oraz Michael S. Lewis-Beck, Economics and Elections: The major Western Democracies, University of
Michigan Press, Ann Arbor, 1980.
*
Ten akapit pochodzi z kolejnego, czwartego wydania ksiki, z 2003 r. Std osobna, zgodna z tym wydaniem,
numeracja przypisw. Akapit ten zosta dodany aby zwikszy czytelno caoci tekstu. przyp. tum.
1
Zmienna dychotomiczna jest szczeglnym przypadkiem politomicznej czy te wielowartociowej kategorii
zmiennej zalenej, np. przynaleno partyjna (demokrata, republikanin, niezaleny). Rozwaania w tym
rozdziale s jednake ograniczone do zmiennych dychotomicznych. By bliej zapozna si z modelami
politomicznymi, patrz Ben-Akiva Moshe i Steven R. Lehrman. 1985. Discrete Choice Analysis. Cambridge,
Mass. The MIT Press. rozdzia 5.
1
Albo, czy mona je stosowa przy zwyczajnych zaoeniach MNK (podstawowa wersja
metody najmniejszych kwadratw, ang. ordinary least squares przyp. tum.)? By
odpowiedzie na te i zwizane z nimi pytania, rozwaamy w niniejszym rozdziale cztery
najpowszechniej stosowane podejcia do estymacji nastpujcych modeli:
1. Liniowy model prawdopodobiestwa (LMP)
2. Model logitowy
3. Model probitowy
4. Model tobitowy (ograniczonej regresji)
16.2 LINIOWY MODEL PRAWDOPODOBIESTWA (LMP)
W celu przygotowania koncepcji, rozwamy nastpujcy prosty model:
Y
i
=
1
+
2
X
i
+ u
i
(16.2.1)
gdzie X = dochd rodziny
Y = 1 jeli rodzina posiada dom
= 0 jeli rodzina nie posiada domu
Modele takie jak (16.2.1), ktre wyraaj dychotomiczn Y
i
jako liniow funkcj zmiennej
(zmiennych) wyjaniajcej X
i
, nazywane s liniowymi modelami prawdopodobiestwa (LMP)
poniewa E(Y
i
| X
i
), warunkowa warto oczekiwana Y
i
przy danej X
i
moe by
interpretowana jako warunkowe prawdopodobiestwo, e przy danym X
i
zajdzie zdarzenie, to
znaczy P(Y
i
= 1 | X
i
). Zatem, w powyszym przykadzie, E(Y
i
| X
i
) wyraa
prawdopodobiestwo posiadania domu przez rodzin, ktrej dochd wyraa warto dana
przez X
i
. Uzasadnienie okrelenia LMP dla modeli takich jak (16.2.1) moe by
przedstawione nastpujco.
Zakadajc jak zwykle E(u
i
) = 0 (by otrzyma estymatory nieobcione), otrzymujemy
E(Y
i
| X
i
) =
1
+
2
X
i
(16.2.2)
Teraz, przyjmujc P
i
= prawdopodobiestwo, e Y
i
= 1 (to jest, e zaszo zdarzenie) oraz
(1 P
i
) = prawdopodobiestwo, e Y
i
= 0 (to jest, e zdarzenie nie zaszo), zmienna Y
i
ma
nastpujcy rozkad:
Y
i
Prawdopodobiestwo
0 1 P
i

1 P
i

Razem 1
Dlatego te, korzystajc z definicji wartoci oczekiwanej, otrzymujemy
E(Y
i
) = 0(1 P
i
) + 1(P
i
)= P
i
(16.2.3)
Porwnujc wyraenie (16.2.2) z (16.2.3) moemy przyrwna
E(Y
i
| X
i
) =
1
+
2
X
i
= P
i
(16.2.4)
co znaczy, e warunkowa warto oczekiwana w modelu (16.2.1) moe by w istocie
interpretowana jako warunkowe prawdopodobiestwo Y
i
.
Poniewa prawdopodobiestwo P
i
musi znajdowa si pomidzy 0 i 1, mamy ograniczenie
0 < E(Y
i
| X
i
) < 1 (16.2.5)
co oznacza, e warunkowa warto oczekiwana, czy te warunkowe prawdopodobiestwo,
musi przyjmowa wartoci midzy 0 i 1.
2
16.7 MODEL LOGITOWY
Nasze rozwaania bdziemy kontynuowa posugujc si dalej naszym przykadem z
wasnoci domu. Przy jego pomocy bdziemy wyjania podstawowe zaoenia tkwice u
podstaw modelu logitowego. Przypomnijmy, e w wyjanianiu relacji posiadania domu do
dochodu, w modelu LMP
*
mielimy
P
i
= E(Y = 1 | X
i
) =
1
+
2
X
i
(16.7.1)
gdzie zmienna X jest dochodem, za Y = 1 oznacza, e rodzina posiada dom na wasno.
Jednake teraz rozwaamy nastpujc reprezentacj posiadania domu:
) (
2 1
1
1
) | 1 (
i
X
i i
e
X Y E P
+
+
= = = (16.7.2)
Dla uatwienia prezentacji wyraenie (16.7.2) zapiszemy jako
Z
Z
Z i
e
e
e
P
i
+
=
+
=

1 1
1
(16.7.3)
gdzie Z
i
=
1
+
2
X
i
.
Rwnanie (16.7.3) reprezentuje to co znane jest jako logistyczna funkcja dystrybuanty
(ang. cumulative logistic distribution function).
1

atwo sprawdzi, e jeli Z
i
przyjmuje wartoci od - do +, wwczas P
i
przyjmuje
wartoci od 0 do 1 oraz, e P
i
nieliniowo zaley od Z
i
(tj. X
i
), w ten sposb speniajc dwa
wczeniej rozwaane wymagania.
2
Wydaje si jednak, e speniajc te wymagania,
stwarzamy problem estymacji, poniewa P
i
jest nieliniowe nie tylko wzgldem X ale take
wzgldem jak wida to w wyraeniu (16.7.2). Oznacza to, e przy estymacji parametrw nie
moemy korzysta ze znanej procedury MNK.
3
Jednake problem ten jest raczej pozorny
poniewa wyraenie (16.7.2) mona uliniowi, co da si pokaza nastpujco.
Jeli P
i
, prawdopodobiestwo posiadania domu, jest dane przez (16.7.3), wwczas (1-P
i
)
jest prawdopodobiestwem nie posiadania domu:
i
Z
i
e
P
+
=
1
1
1 (16.7.4)
Tak wic moemy zapisa
i
i
i
Z
Z
Z
i
i
e
e
e
P
P
=
+
+
=


1
1
1
(16.7.5)
Tak wic P
i
/(1P
i
) jest po prostu ilorazem szans na korzy tego, e posiada si dom
stosunkiem prawdopodobiestwa, e rodzina bdzie posiadaa dom do prawdopodobiestwa,
e nie bdzie posiadaa domu. Tak wic, jeli P
i
= 0.8, oznacza to, e szanse s jak 4 do 1 na
korzy tego, e rodzina posiada dom.
Teraz, jeli wyznaczymy logarytm naturalny wyraenia (16.7.5), wwczas otrzymamy
bardzo interesujcy wynik, a mianowicie,

*
Model ten bardziej szczegowo omawiany by w poprzednich sekcjach tego rozdziau przyp. tum.
1
Model logistyczny zosta wykorzystany powszechnie do analiz wzrostu takich zjawisk jak populacja, PKB,
poda pienidza itd. Aby dotrze do teoretycznych i praktycznych szczegw modeli logitowych i probitowych,
patrz: Kramer J.S. 1991. The Logit Model for Economists. Edward Arnold Publishers. London. oraz Maddala
G.S. 1983. Limited Dependent and Qualitative Variables in Econometrics. Cambridge University Press. New
York.
2
Zauwamy, e jeli Z
i
+, wwczas e
-Zi
zbiega do zera oraz gdy Z
i
-, wwczas e
-Zi
ronie
nieskoczenie. Przypomnijmy, e e = 2.71828
3
Oczywicie, mona uy technik estymacji nieliniowej, ale te zagadnienia wykraczaj poza ramy tego tekstu.
3
i i
i
i
i
X Z
P
P
L
2 1
1
ln + = =
|
|
.
|

\
|

= (16.7.6)
co znaczy, e L, logarytm ilorazu szans, jest nie tylko liniowe wzgldem X, lecz rwnie (z
punktu widzenia estymacji) liniowy ze wzgldu na parametry.
4
L nazywane jest logitem i std
modele takie jak (16.7.6) okrela si mianem modeli logitowych.
Przyjrzyjmy si cechom modelu logitowego.
1. Jeli P przebiega wartoci od 0 do 1 (tj. Z zmienia si od - do +), logit L przebiega
wartoci od - do +. To znaczy, wprawdzie prawdopodobiestwa le midzy 0 i 1,
logity nie s ograniczone.
2. Wprawdzie L jest liniowe wzgldem X, prawdopodobiestwa jako takie nie s. Wasno
ta kontrastuje z modelem LMP (16.7.1), w ktrym prawdopodobiestwo ronie liniowo z
X.
5

3. Wprawdzie wprowadzilimy w przedstawionym modelu tylko pojedyncz zmienn
niezalen X, mona doda do modelu tyle zmiennych niezalenych ile wymaga teoria,
do ktrej si odwoujemy.
4. Dodatnia warto logitu L oznacza, e wraz ze wzrostem wartoci zmiennej(-ych)
niezalenej(-ych) ronie szansa, e zmienna zalena przyjmie warto 1 (przyjcie przez
zmienn zalen wartoci 1 oznacza, e dzieje si interesujce nas zdarzenie). Jeli L ma
ujemn warto, przy wzrocie wartoci X, maleje szansa, e zmienna zalena przyjmie
warto 1. Mwic inaczej, logit staje si ujemny i ronie jego warto bezwzgldna jeli
iloraz szans maleje od 1 do 0 oraz przyjmuje rosnce wartoci dodatnie dla wzrostu
wartoci ilorazu szans od 1 do nieskoczonoci.
5. Bardziej formalnie, interpretacja modelu logitowego jest nastpujca:
2
, wspczynnik
nachylenia okrela zmian wartoci L jeli X zmieni si o jednostk, to znaczy mwi nam
jak logarytm szans posiadania domu zmienia si jeli dochd zmieni si o jednostk,
powiedzmy 1000$. Wspczynnik przecicia
1
jest wartoci logarytmu szans posiadania
domu dla zerowego dochodu. Jak wikszo interpretacji wspczynnikw przecicia, ta
interpretacja moe nie mie jakiegokolwiek realnego znaczenia.
6. Jeli, przy danym dochodzie, powiedzmy X
*
, chcemy naprawd oszacowa nie iloraz
szans posiadania domu lecz prawdopodobiestwo posiadania domu jako takiego, moemy
to zrobi bezporednio z (16.7.3) o ile tylko dostpne s oszacowania
1
+
2
. To jednak
rodzi najwaniejsze pytanie: jak przede wszystkim estymowa
1
i
2
. odpowied
przedstawiona jest w nastpnej sekcji.
7. Podczas gdy LMP zakada liniowy zwizek P
i
z X
i
, model logitowy zakada liniowy
zwizek logarytmu ilorazu szans z X
i
.

4
Przypomnijmy, e zaoenie liniowoci z MNK nie wymaga aby zmienna X bya koniecznie liniowa. Tak wic
moemy mie X
2
, X
3
itd. jako zmienne niezalene w modelu. Dla naszych celw liniowo ze wzgldu na
parametry jest kluczowa.
5
Korzystajc z rachunku rniczkowego mona pokaza, e dP/dX =
2
P(1-P), co pokazuje, e tempo zmiany
prawdopodobiestwa ze wzgldu na X odwouje si nie tylko do
2
lecz rwnie do poziomu
prawdopodobiestwa, od ktrego mierzona jest zmiana (wicej na ten temat mona znale w sekcji 16.9). Przy
okazji, zwrmy uwag, e zmiana X
i
o jednostk wpywa na P najbardziej gdy P=0.5 i najmniej kiedy P jest
bliskie 0 lub 1.
4

16.8 ESTYMACJA MODELU LOGITOWEGO
Dla celw estymacji wyraenie (16.7.6) zapiszemy nastpujco:
i i
i
i
i
u X
P
P
L + + =
|
|
.
|

\
|

=
2 1
1
ln (16.8.1)
Krtko omwimy wasnoci skadnika losowego u
i
.
Aby przeprowadzi estymacj modelu potrzebujemy, niezalenie od X
i
, wartoci zmiennej
zalenej, logitu L
i
. Jednak w tym momencie napotykamy kilka trudnoci. Jeli posiadamy
dane o poszczeglnych rodzinach, P
i
=1 w sytuacji, gdy rodzina posiada dom oraz P
i
=0, gdy
nie ma domu na wasno. Jednake, jeli wprost podstawimy te wartoci do logitu L
i
,
otrzymamy
|
.
|

\
|
=
0
1
ln
i
L , jeli rodzina posiada dom na wasno
|
.
|

\
|
=
1
0
ln
i
L , jeli rodzina nie posiada domu na wasno
Oczywicie, te analizy s pozbawione wikszego znaczenia. Dlatego, jeli dysponujemy
danymi na poziomie mikro czy te indywidualnym nie moemy rutynowo estymowa
(16.8.1) za pomoc standardowej metody MNK. W tej sytuacji przy estymacji parametrw
moe si zdarzy, e trzeba by uciec si do metody najwyszej wiarygodnoci (MNW).
Jednake, e wzgldu na jej matematyczn zoono w tym miejscu nie zajmiemy si ni,
cho w dalszej czci tekstu zostanie przedstawiony przykad odwoujcy si do niej.
6

Przypumy teraz, e dysponujemy danymi przedstawionymi w tabeli 16.4. Kada warto
dochodu X
i
opisuje N
i
rodzin, spord ktrych n
i
posiada na wasno dom (n
i
<N
i
). Dlatego,
jeli teraz wyznaczymy
i
i
i
N
n
P =

(16.8.2)
czyli czsto, moemy wykorzystywa t warto jako estymator prawdziwej wartoci P
i

przyporzdkowan kadej z wartoci X
i
. Jeli N
i
jest odpowiednio due, bdzie dobrym
estymatorem P
i
P

i
.
7
Korzystajc z oszacowanego P
i
otrzymujemy oszacowanie logitu jako
i
i
i
i
X
P
P
L
2 1

ln

+ =
|
|
.
|

\
|

=
(16.8.3)

6
Rozwaania MNW w odniesieniu do modelu logitowego na porwnywalnie prostym poziomie dostpne s w
pracy Johna Aldricha i Forresta Nelsona, op. cit. Ss. 49-54. Patrz take Alfred Demaris, Logit Modeling:
Practical Applications, Sage Publications, Newbury Park, California, 1992.
7
Bazujc na podstawowym kursie statystyki, przypomnijmy, e prawdopodobiestwo zdarzenia jest granic
czstoci dla liczebnoci prby zmierzajcej do nieskoczonoci.
5
Tabela 16.4
Hipotetyczne dane z X
i
(dochd), N
i
(liczba rodzin o dochodzie X
i
) oraz n
i
(liczba rodzin
posiadajcych wasny dom)
X
(w tysicach dolarw)
N
i
n
i

6
8
10
13
15
20
25
30
35
40
40
50
60
80
100
70
65
50
40
25
8
12
18
28
45
36
39
33
30
20

co bdzie do dobrym estymatorem prawdziwego logitu L
i
jeli liczba obserwacji N
i
dla
kadego X
i
bdzie wystarczajco dua.
Krtko mwic, na podstawie pewnych pogrupowanych lub replikowanych (powtrzone
obserwacje) danych, takich jak w tabeli 16.4, mona uzyska wartoci zmiennej zalenej,
logitu, do estymacji modelu (16.8.1). Czy moemy zastosowa MNK do (16.8.3) i zwykym
sposobem estymowa parametry? Odpowied brzmi: niezupenie, poniewa nie
powiedzielimy jeszcze niczego o wasnociach skadnika losowego. Mona pokaza, e jeli
N
i
jest odpowiednio due oraz jeli kada obserwacja w danej klasie dochodowej X
i
jest
zmienn o niezalenym rozkadzie dwumianowym, wwczas
(

) 1 (
1
, 0 ~
i i i
i
P P N
N u
(16.8.4)
czyli u
i
ma rozkad normalny o redniej rwnej zero i wariancji rwnej 1/(N
i
P
i
(1-P
i
).
8

Zatem, tak jak w przypadku LMP, skadnik losowy w modelu logitowym jest
heteroscedastyczny. Tak wic, zamiast korzysta z MNK bdziemy zmuszeni do korzystania
z metody waonych najmniejszych kwadratw (WNK). Dla celw empirycznych, jednake,
nieznan warto P
i
bdziemy zastpowa przez i jako estymator
i
P

2
bdziemy
wykorzystywa
)

1 (

2
i i i
P P N
= (16.8.5)
Teraz opiszemy kolejne etapy estymacji regresji logitowej (16.8.1):
1. Dla kadego poziomu dochodu X, oszacuj prawdopodobiestwo posiadania domu jako
i i i
N n P =

.
2. dla kadego X
i
otrzymasz warto logitu jako
9


8
Jak pokazano w elementarnej teorii prawdopodobiestwa, , czsto sukcesw (tutaj: posiadania domu), ma
rozkad dwumianowy ze rednia rwna prawdziwej wartoci P
i
i wariancj rwn P
i
(1-P
i
)/N
i
; i wraz ze
wzrostem N
i
do nieskoczonoci, rozkad dwumianowy zbiega do rozkadu normalnego. Wasnoci rozkadu u
i

dane w (16.8.4) wynikaj z podstawowej teorii. Wicej szczegw znale mona w pracy Henry Theila, On
the relationships involving qualitative variables, American Journal of Sociology, vol. 76, lipiec 1970: 103-154.
i
P

6
( ) )

ln

i i i
P P L = 1 .
3. Aby rozwiza problem heteroscedastycznoci, przeksztamy (16.8.1) w nastpujcy
sposb:
10

i i i i i i i
u w X w w L w + + =
2 1
(16.8.6)
co zapiszemy jako
i i i i
v X w L + + =
*
2 1
*
(16.8.7)
gdzie wystpuj wagi ; = przeksztacony czy te przewaony L )

1 (

i i i i
P P N w =
*
i
L
i
; =
przeksztacony czy te przewaony X
*
i
X
i
; oraz v
i
= przeksztacony skadnik losowy. atwo
mona sprawdzi, e przeksztacony skadnik losowy v
i
jest homoscedastyczny, pamitajc,
e wariancja oryginalnego skadnika losowego jest rwna | | )

1 (

1
2
i i i u
P P N = .
4. Oszacuj (16.8.6) za pomoc MNK pamitajc, e WNK jest MNK dla danych
przewaonych. Zauwa, e w (16.8.6) nie ma bezporednio wprowadzonej, jawnej staej
(dlaczego?). Tak wic, do estymacji (16.8.6) bdzie trzeba wykorzysta pierwotne
rutynowe postpowanie.
5. Wyznacz przedziay ufnoci i/lub przeprowad weryfikacj hipotez odwoujc si do
standardowej MNK, pamitajc jednak, e, ujmujc rzecz cile, wszystkie wnioski bd
znaczce jeli prba bdzie odpowiednio dua (dlaczego?). Zatem, dla maych prb,
wyniki estymacji powinno si interpretowa z ostronoci.

i
P

( )
9
Poniewa =n
i
/N
i
, L
i
moe by alternatywnie przedstawione jako . Przy okazji
naley zwrci uwag, e po to by unikn przyjmowania przez wartoci 0 lub 1, w praktyce jest
mierzone jako . Jako regu
kciuka zaleca si, by N
i
byo dla kadego X
i
rwne co najmniej 5. Czytelnikw zainteresowanych szczegami
tego zagadnienia zachcam do lektury pracy D.R. Coxa, Analysis of Binary Data, Methuen, London, 1970: 33.
( )
i i i i
n N n L = ln

i
P

i
L

|
.
|

\
|
|
.
|

\
|
+
|
.
|

\
|
+ = |
.
|

\
|
|
.
|

\
|
+
|
.
|

\
|
+ =
i i i i i i i i
N P N P n N n L
2
1
1
2
1
2
1
2
1

ln ln

10
Jeli estymujemy (16.8.1) nie zwaajc na heteroscedastyczno, estymatory, wprawdzie nieobcione, nie
bd efektywne, co pokazano w rozdziale 11.
7
16.11 MODEL PROBITOWY
Jak zauwaylimy, aby przedstawi zachowanie dychotomicznej zmiennej zalenej potrzeba wykorzysta
odpowiednio wybran funkcj dystrybuanty (ang. cumulative distribution function - CDF). Model
logitowy wykorzystuje logistyczna funkcj dystrybuanty (LFD) jak zostao to zapisane w (16.7.2). Nie jest
to jednake jedyna funkcja dystrybuanty, ktr mona wykorzysta. W pewnych zastosowaniach
uyteczn moe okaza si normalna funkcja dystrybuanty (NFD). Model estymacyjny wyaniajcy si z
tej NFD
11
jest popularnie zwany modelem probitowym, cho znany czasem jako model normitowy. W
zasadzie mona by zastpi LFD z (16.7.2) przez NFD i postpowa w taki sposb jak opisano to w sekcji
(16.7). jednake zamiast i t drog, przedstawimy model probitowy odwoujc si za McFaddenem
12
do
teorii uytecznoci, czy te perspektywy racjonalnego wyboru wobec zachowa.
Jako uzasadnienie modelu probitowego zamy, e w naszym przykadzie z wasnoci domu decyzja
i-tej rodziny o nabyciu (lub nie) domu zaley od nieobserwowalnego wskanika uytecznoci W
i

(znanego take jako zmienna ukryta), ktry okrela jedna lub wicej zmiennych wyjaniajcych,
powiedzmy dochd X
i
, w ten sposb, e im wiksza warto wskanika W
i
, tym wiksze
prawdopodobiestwo, e rodzina posiada dom na wasno. Przedstawimy wskanik W
i
jako
W
i
=
1
+
2
X
i
(16.11.1)
gdzie X
i
oznacza dochd i-tej rodziny.
Jak si ma (nieobserwowalny) W
i
do faktycznej decyzji o nabyciu domu? Tak jak poprzednio, niech
Y=1 jeli rodzina posiada dom i Y=0, jeli nie posiada. Teraz sensownym byoby przyj, e dla kadej
rodziny istnieje pewien krytyczny, czy te progowy poziom wskanika, zapiszmy j jako W
i
*
,
charakteryzujaca si tym, e jeli W
i
przekroczy warto W
i
*
wwczas rodzina posiada dom, w
przeciwnym za wypadku nie. Podobnie jak W
i
, prg W
i
*
jest zmienn nieobserwowaln, jednake jeli
zaoymy, e ma rozkad normalny z t sam redni i wariancj, moliwe okae si nie tylko oszacowanie
parametrw wskanika danego w (16.11.1), ale rwnie uzyskanie pewnych informacji na temat
nieobserwowalnego wskanika jako takiego. Odpowiednie przeksztacenia przedstawione s poniej.
Przyjwszy zaoenie o normalnoci, prawdopodobiestwo, e W
i
*
jest mniejsze bd
rwne W
i
moe by wyliczone z dystrybuanty standaryzowanego rozkadu normalnego jako
13

( ) ( ) ( )

+




= = = = = =
i i
X
t
I
t
i i i i
dt e dt e W F W W Y P
2 1
2 2
2 2
2
1
2
1
1


*
Pr Pr (16.11.2)
gdzie t jest standaryzowan zmienn normaln, tj. ~ N(0,1).
Poniewa P
i
reprezentuje prawdopodobiestwo, e zajdzie pewne zdarzenie, w tym
przypadku prawdopodobiestwo posiadania domu, jego miar jest powierzchnia pod
standaryzowana krzywa normaln od - do W
i
, jak przedstawia to rysunek 16.4a.
Teraz aby uzyska informacj o W
i
, wskaniku uytecznoci, jak rwnie o
1
i
2
,
uyjemy funkcj odwrotn do (16.11.2)
14
:

11
W skrcie, jeli zmienna Z ma rozkad normalny o redniej
Z

i wariancji
2
, wwczas jej funkcja gstoci
prawdopodobiestwa dana jest jako
2 2
2
2
1

) (
) (
Z
Z
e Z f

= za jej dystrybuanta (NFD) jako



=
0
2 2
2
2
1
Z
Z
Z
e Z F

) (
) ( , gdzie Z
0
jest pewn ustalona wartoci zmiennej Z.
12
D. McFadden, Conditional Logit Analysis of Qualitative Choice Behavior, w: P. Zarembka (red.), Frontiers
in Econometrics, Academic Press, New York, 1973.
13
Rozkad normalny o zerowej redniej i jednostkowej (=1) wariancji nazywany jest standardow czy te
standaryzowan zmienn normaln.
14
Zauwamy, e (16.11.2) jest skrajnie nieliniowa, jednak tak samo byo z logistyczn funkcj dystrybuanty
(16.7.2). I tak jak wyznaczanie logarytmu szans umoliwiao nam odwoywanie si do liniowoci w modelu
logistycznym, odwrotno NFD take pozwala nam na posugiwanie si liniowocia w estymowanym
(probitowym) modelu.
8
W
i
= F
-1
(F(W
i
)) = F
-1
(P
i
) =
1
+
2
X
i
(16.11.3)
gdzie F
-1
oznacza funkcj odwrotn do dystrybuanty standaryzowanej zmiennej normalnej.
Rysunek 16.4 suy wyjanieniu znaczenia powyszych rozwaa. W czci a) rysunku
odczytujemy (z osi rzdnych pionowej) warto dystrybuanty posiadania domu P(W
i
*
< W
i
),
za w czci b) moemy odczyta (z osi odcitych poziomej) warto W
i
przyporzdkowan
wartoci P
i
, co jest czynnoci odwrotn w stosunku do poprzedniej.

)
0
1
P(W
i
*
< W
i
) P
i
W
i
=
1
+
2
X
i
P
i
(F (W
i
P
i
= F(W
i
)











(a)













)
0
1
P
i
W
i
= F
-1
(P
i
)
P
i
(F (W
i
P
i
= F(W
i
)
(b)
Rysunek 16.4
Model probitowy: (a) Dla danego W
i
odczytujemy P
i
z osi rzdnych; (b) Dla danego P
i
odczytujemy W
i
z osi
odcitych.

Jak w rzeczywistoci postpowa by zarwno otrzyma wskanik W
i
jak i oszacowa
1
i

2
, dysponujc jedynie danymi na temat wielkoci dochodu X
i
oraz wartoci Y = 1 lub 0, w
zalenoci od tego, czy rodzina ma dom, czy te nie? Zamy, e dysponujemy danymi
pogrupowanymi takimi jak te, ktre przedstawia tabela 16.5 i chcemy do tych danych
9
dopasowa model probitowy traktujc go jako alternatywne rozwizanie wobec modelu
logitowego. Poniewa dysponujemy ju , czstoci (estymator prawdopodobiestwa),
moemy j wykorzysta do wyznaczenia W
i
P

i
z dystrybuanty standaryzowanego rozkadu
normalnego (NFD) w sposb przedstawiony w tabeli 16.7 oraz na rysunku 16.5. Kiedy tylko
mamy oszacowane W
i
, oszacowanie
1
i
2
jest, jak zaraz pokaemy, wzgldnie prost
spraw. W jzyku analizy probitowej, nieobserwowany wskanik uytecznoci W
i
znany jest
jako normit. Poniewa w normalny rwnowanik odchylenia czy te W
i
bdzie dla P
i
< 0,5
ujemny, w praktyce do normitu dodaje si liczb 5, za wynik nazywa si probitem.
15

Tabela 16.7
Estymacja wskanika W
i
na podstawie rozkadu normalnego standaryzowanego
i
P

W
i
= F
-1
( )
i
P

0,20 -0,84
0,24 -0,70
0,30 -0,52
0,35 -0,38
0,45 -0,12
0,51 0,03
0,60 0,25
0,66 0,40
0,75 0,67
0,80 0,84
Uwaga: pochodzi z tabeli 16.5
i
P














P
i
(F (W
i
)
0
1

0,66
0,4
Rysunek 16.5
Dystrybuanta rozkadu normalnego standaryzowanego

15
Jeli przyjrze si wasnociom rozkadowi normalnemu standaryzowanemu, to okazuje si, e dodanie liczby
5 do zmiennej o tym rozkadzie w praktyce zawsze da wartoci dodatnie n.r.o. (dlaczego?)
10
W skrcie,
Probit = normit + 5 = W
i
+ 5 (16.11.4)
Teraz, w celu estymacji
1
i
2
, wyraenie (16.11.1) zapiszemy jako
W
i
=
1
+
2
X
i
+ u
i
(16.11.5)
gdzie u jest skadnikiem losowym.
Podczas estymacji modelu probitowego wymagane s nastpujce kroki:
1. Na podstawie danych pogrupowanych, takich jak w tabeli 16.5, oszacuj P
i
tak jak dla
modelu logitowego.
2. Majc , wyznacz normit (= W
i
P

i
) z dystrybuanty standaryzowanego rozkadu
normalnego.
3. Wykorzystaj oszacowany w poprzednim kroku W
i
= W jako zmienn zalen w regresji
(16.11.5).
i

4. Jeli chcesz, dodaj 5 do oszacowanych wartoci W


i
by przeksztaci w probity i
wykorzystaj tak otrzyman zmienn (patrz: 16.11.4) jako zmienn zalen w regresji
(16.11.5). Czy posuymy si normitem, czy probitem, wyniki regresji bd
porwnywalne w tym sensie, e wspczynnik nachylenia
2
oraz R
2
bd w obu
modelach identyczne (dlaczego?), cho stae bd rne (dlaczego?).
5. Skadnik losowy w (16.11.5) jest heteroscedastyczny. Zatem, aby uzyska efektywne
estymatory parametrw bdziemy musieli przeksztaci dane w taki sposb, e zmienna
resztowa w przeksztaconym modelu bdzie homoscedastyczna. Sugerowane
przeksztacenie podane jest w wiczeniu 16.10.
6. Jeli kto chce przeprowadzi weryfikacje hipotez, itd., powinien pamita, e
wyznaczane statystyki bd zbiene do prawdziwych wartoci asymptotycznie, to jest dla
duych prb.
7. Z powodw ju wspominanych, R
2
otrzymywane w takich modelach ma wtpliw
warto jako miara dopasowania modelu (patrz wiczenie 16.11).

11

You might also like