Ekonometri, L5

You might also like

Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 53

Ekonometri

Leksioni 6
Tema:Regresioni me ndryshore të varur cilësorë
Regresi logjistik
Viti akademik 2022-2023
Çështjet që do trajtohen:
• Modele me variabla të varur të limituar (Models with limited
dependent variables)
• Modeli logit dhe probit
• Zbatime në eviews

Gujarati: Basic Econometrics, fourth edition, kapitulli 15


Variabla të varur të limituar
Në shumë aplikime, ndryshoret për të cilat jemi të interesuar(e varur)
janë të natyrës diskrete ose mix diskrete-e vazhduar.
Për këto ndryshore, shpjegimi duke përdorur modelin e regresit linear
është në shumicën e rasteve i papërshtatshëm.
Në këto kushte është e rëndësishme të gjenden rrugë alternative që
mund të përdoren për të modeluar ndryshoret e varura diskrete ose
diskrete/e vazhduar.
Modelet me ndryshore të varur binare
Ka shumë zbatime ku ndryshorja e varur është cilësore dhe merr vetëm
dy vlera.Psh rasti kur një bankë mund të aprovojë ose jo kërkesën për
kartë krediti;një konsumator bën apo jo blerje ose një individ është apo
jo në punë.

Në këto raste, vlerat e ndryshores së varur mund të kodohen:


=1 nëse banka aprovon kërkesën për kartë
=0 nëse banka nuk aprovon kërkesën për kartë
Multi-response models
Ka raste kur ndryshorja e varur diskrete merr një numër të fundëm
vlerash të cilat në disa raste ka kuptim të rradhiten kurse në disa raste
të tjera jo.
Psh, =2 nëse një familje ka më shumë se një makinë; =1 nëse familja ka
vetëm një makinë dhe =0 nëse familja nuk ka makinë.
(këtu ka kuptim rradhitja)
Një rast kur rradhitja nuk ka rëndësi:
=2 nëse një individ blen produktin C
=1 nëse një individ blen produktin B dhe =0 nëse një individ blen
produktin A
Modelet me të dhëna të numërueshme për y
dhe Modeli Tobit
Ka raste kur ndryshorja e varur mund të marrë vlera të numërueshme si
psh numri i konsumatorëve të një supermarket në muaj, numri i
klientëve në sportelin e bankës në ditë etj.

Ka raste kur ndryshorja e varur është zero për një pjesë të popullimit
dhe pozitive (me disa outcomes) për pjesën tjetër të popullimit.
Në këto raste përdoret Modeli Tobit.
Modeli Binar
Mendojmë se jemi të interesuar të shpjegojmë nëse një familje ka ose
jo makinë. Ndryshorja e varur merr dy vlera: familja ka makinë ose
familja nuk ka makinë (ndryshore binare).

Në këto raste, ndryshoren e varur mund ta kodojmë kështu:

y=
Modeli binar
Në rastet kur ndryshorja e varur y është cilësore, objektivi ynë është të
gjejmë probabilitetin që të ndodhë njëra nga ngjarjet, përgjithësisht për
ngjarjen për të cilën jemi të interesuar, psh që banka të aprovojë
kërkesën për kartë, që një individ të jetë i punësuar etj.

Për këtë arsye, modelet me ndryshore të varur cilësore quhen modele


probabilitare.
Modeli binar
Ne do fokusohemi në rastin kur ndryshorja e varur është binare.
Do shohim 3 qasje për të zhvilluar një model probabilitar me ndryshore
të varur binare:
1.Modeli i probabilitetit linear
2.Modeli logit
3.Modeli probit
Modeli i probabilitetit linear
Në rastin e Modelit të Probabilitetit Linear, E() , interpretohet si

probabilitet që të ndodhë një ngjarje (ajo për të cilën jemi të


interesuar), në kushtet kur jepet , pra:

P() = E() =
Modeli i probabilitetit linear
Pse ndodh kështu?
Ndryshorja e varur, mund të shihet si një ndryshore rasti me
shpërndarje Bernoulli, me vlera 1 dhe 0.

Prej këtu, kemi që:

E(|) = 1*P(y=1) + 0*P(y=) =P(y=1)=


Modeli i probabilitetit linear
Në analizën e regresit të shumëfishtë, kur plotësohet kushti
E[kemi:

E(|)= =

Pra: P(y=1)=E(|)=+ (1)

Modeli (1) quhet Modeli i Probabilitetit Linear


Modeli i probabilitetit linear
Në modelin e probabilitetit linear:
P(y=1)=E(|)=

p shihet si funksion linear i vlerave të k ndryshoreve të pavarura.

Prej ekuacionit të vlerësuar, bëhet interpretimi i vlerësimeve të


parametrave njësoj si tek regresi linear, me dallimin e vetëm se ata
japin ndikimin e ndryshoreve të pavarura mbi p dhe jo mbi ndryshoren
e varur.
Modeli i probabilitetit linear
Këtu dalin probleme të natyrës:
• Ana e djathtë mund të marrë vlera nga në +, ndërkohë që ana e
majtë [0,1]
• Probleme të cënimit të supozimeve të modelit të regresit të
shumëfishtë (shpërndarja normale e termit të gabimit dhe
homoskedasticiteti).
Problemet:
Psh, mendoj se ekuacioni është: p= - 1.7 + 0.064 mosha
Nëse x=35, p=0.54
Nëse x=25, p=-0.09
Nëse x=45, p=1.2

Gjithashtu, shpërndarja e termave të gabimit, është ajo Bernoulli:


Kur =1 me probabilitet

Kur = me probabilitet
Problemet:
Kjo do të thotë se termat e gabimit ndjekin shpërndarjen bernuli dhe jo
atë normale.
Duke ditur se varianca e termit të gabimit është:

Var () = ) dhe se P() = E() =

Del se varianca e termit të gabimit nuk është konstante.


Regresi logjistik
Për të zgjidhur këtë problem, propozohet që ana e djathtë të
zëvendësohet me një funksion të =

• Ky funksion duhet të jetë i tillë që vlerat e veta ti marrë vetëm në [0,1].

• Duket natyrale zgjedhja e këtij funksioni si funksion shpërndarje i


variablit të vazhduar(cumulative distribution function).

• Zgjedhjet e bëra janë ato të shpërndarjes normale standarde ose


shpërndarjes logjistike standarde.
Regresi logjistik
Nëse ky funksion është i tipit: F()= Ʌ(

atëherë ekuacioni:
P(y=1) = Ʌ( +

quhet Ekuacioni i Modelit Logit


Regresi logjistik
Pra, Ekuacioni i Modelit Logit është:

P(y=1)=E(y)=

Ekuacioni i vlerësuar i Modelit Logit është:

=vlerësim i P(y=1)=
Modeli Probit

Nëse funksioni F()=F(), është i tipit:

F()= + = φ()+

atëherë ekuacioni quhet ekuacion i Modelit Probit.


Modeli probit
Pra, në modelin probit kemi:
P(y=1)=E(y)==φ()
Ekuacioni i vlerësuar i Modelit Probit është:
=vlerësim i P(y=1)=, ku f(t) është funksioni i densitetit
të shpërndarjes normale standarde.

Në të dy rastet vlerësimi i parametrave bëhet me metodën e


përgjasisë maksimale.
Regresi Logjistik
Në modelin logit, meqë:

P(y=1)=E(y)=

del se:
= ose

ln()=++……= (Odds)
Dallimet mes modeleve
• Të dy modelet vlerësohen duke përdorur Metodën e Përgjasisë
Maksimale (Method of maximum likelihood) .

• Ndryshimet midis dy modelve nuk janë të mprehta.

• Praktikisht, vendimin për të përdorur njërin nga modelet e merr vetë


studiuesi.
Regresi Logjistik
• Lidhja që ekziston mes vlerësimeve të modeleve të ndryshme është:

• përveç pikëprerjes
• +0.5 për pikëprerjen

Regresi Logjistik
• Nëse , atëherë themi se kur rritet rritet probabiliteti që y=1
• Nëse , atëherë themi se kur rritet zvogëlohet probabiliteti që y=1
• (kujdes! Bëni diferencën me regresin linear)
• Në të dy rastet, nuk bëhet interpretimi i vlerës absolute meqë efektet
marxhinale nuk janë konstante.
Interpretimi i parametrave
Nëse ndryshorja është e vazhduar, atëherë efekti i pjesshëm i saj jepet
si derivat i pjesshëm i probabilitetit që y=1.Pra:

=)

Meqë ) është positive, efekti marxhinal i ndryshores së pavarur


mbi p ka gjithmonë shenjën e .
Interpretimi i parametrave
• Efekti relativ për çdo dy ndryshore të vazhduara të pavarura nuk varet
nga x: sepse raporti i efekteve marxhinale për dhe është

Nëse ndryshorja e pavarur është binare, psh atëherë efekti marxhinal


i saj kur vlera ndryshon nga zero në 1 dhe ndryshoret e tjera të
pavarura nuk ndryshojnë, është:

F() – F() (1)


Interpretimi i parametrave
Ne mund të përdorim shprehjen (1) edhe për rastet e ndryshoreve të
tjera diskrete si psh numrin e fëmijëve.Nëse shënojmë me këtë
ndryshore, atëherë ndikimi mbi p i saj kur vlera shkon nga te +1
është:

F() – F()
Kontrollet e rëndësisë
Kontrolli i rëndësisë së modelit:

janë të barabarta me zero

Testi i rëndësisë së modelit bazohet në vlerën e testit LR statistic (likelihood


ratio statistic), e cila ka shpërndarje chi-square me df sa nr i ndryshoreve të
pavarura
Kriteri:
nëse p, hedhim poshtë hipotezën bazë
nëse p, nuk e hedhim dot poshtë hipotezën bazë
Kontrollet e rëndësisë së lidhjeve individuale

Kontrollet individuale:

Pasi një test LR tregon rëndësinë statistikore të modelit, mund të


përdoret një test z për të treguar se cila nga ndryshoret e pavarura jep
kontribut domethënës në model.
Kontrollet e rëndësisë së lidhjeve individuale

Hipotezat janë:

Kriteri:
nëse p, hedhim poshtë hipotezën bazë
nëse p, nuk e hedhim dot poshtë hipotezën bazë
Shembull
Një kompani zotëron një rrjet kombëtar dyqanesh me veshje për
femra.Është prodhuar një katalog mjaft i shtrenjtë që përmban një
kupon për 50$ zbritje për çdo blerje prej 200 ose më shumë $.Katalogët
janë të shtrenjtë dhe menaxherët mendojnë t’jua dërgojnë klientëve që
kanë probabilitet të madh për ta përdorur kuponin.
Shembull
Drejtuesit mendojnë që shpenzimet vjetore në këtë rrjet dhe të pasurit
e një karte krediti janë dy ndryshore që do ndihmojnë për të
parashikuar nëse një klient që merr katalogun do të përdorë kuponin.
Shembull
Bazuar në një zgjedhje rasti prej 100 klientësh (50 me kartë dhe 50 pa kartë) dhe
duke shënuar me:

y=

• - shpenzimet vjetore në këtë rrjet (000$)

•=
Shembull
Gjejmë ekuacionin e vlerësuar të regresit logjistik:

=vlerësim i P(y=1)=

Nëse dhe = 0, kemi =0.1880

Nëse dhe = 1, kemi =0.4099

Shihet se probabiliteti i përdorimit të kuponit është më i lartë për klientët


me kartë krediti.
Kontrollet e domethënies

janë të barabarta me zero

P=0.001< 0.05 hipoteza bazë hidhet poshtë


Kontrollet individuale

0 0

=0.008 dhe =0.013, të dyja më të vogla se 0.05, pra dy ndryshoret janë


të rëndësishme.
Shembull

Referuar shembullit të përdorimit të kartës, më poshtë është paraqitur


dalja nga eviews.

Kujdes:
Nëse d(/dX është negative (pozitive),
atëherë dProb(Y)/dX është gjithashtu negative (pozitive).
Shembull
Dependent Variable: KUPONI    
Method: ML - Binary Logit (Quadratic hill climbing)
Date: 11/23/16 Time: 14:37    
Sample: 1 100      
Included observations: 100    
Convergence achieved after 3 iterations  
Covariance matrix computed using second derivatives
         
         
Variable Coefficient Std. Error z-Statistic Prob.  
         
         
C -2.146373 0.577245 -3.718304 0.0002
SHPENZIME 0.341643 0.128673 2.655138 0.0079
KARTA 1.098732 0.444696 2.470747 0.0135
         
         
McFadden R-squared 0.101250    Mean dependent var 0.400000
S.D. dependent var 0.492366    S.E. of regression 0.462621
Akaike info criterion 1.269739    Sum squared resid 20.75972
Schwarz criterion 1.347894    Log likelihood -60.48695
Hannan-Quinn criter. 1.301370    Restr. log likelihood -67.30117
LR statistic 13.62844    Avg. log likelihood -0.604869
Prob(LR statistic) 0.001098      
         
         
Obs with Dep=0 60     Total obs 100
Obs with Dep=1 40      
         
         
Shembull
Nga outputi kemi:

Z = -2.1464+0.3416shpenzime+1.0987karta

Një rritje prej 1 njësi në shpenzime do të rrisë E(z) me 0.3416 njësi

Për personat me kartë, E(z) rritet me 1.0987 njësi


(në të dy rastet duke mbajtur konstante ndryshoren tjetër)
Shembull
Ajo që vlen për tu theksuar është:

Në dallim nga regresi linear që rritja me një njësi e ndryshores së


pavarur e ndryshon y me të njëjtën madhësi pavarësisht vlerës fillestare
të x, në modelet logit dhe probit nuk ndodh kështu.Këtu rezultati varet
nga vlera fillestare e ndryshoreve të pavarura.
Diskutim mbi mënyrën se si ndryshon probabiliteti për vlera
fillestare të ndryshme

Shpenzimet vjetore
1000$ 2000$ 3000$ 4000$ 5000$ 6000$ 7000$
Kartë po 0.3305 0.4099 0.4943 0.579 0.6593 0.7314 0.7931
Kartë jo 0.1413 0.188 0.2457 0.3143 0.3921 0.4758 0.5609
Ekuacioni i vlerësuar i modelit të probabilitetit linear
Vlerësim P(y=1| xi) = 0.03 + 0.08 shpenzimet + 0.24 karta

Dependent Variable: KUPONI    


Method: Least Squares    
Date: 01/22/21 Time: 19:57    
Sample: 1 100      
Included observations: 100    
         
         
Variable Coefficient Std. Error t-Statistic Prob.  
         
         
C 0.031137 0.110329 0.282220 0.7784
SHPENZIMET 0.075103 0.026772 2.805265 0.0061
KARTA 0.236970 0.092769 2.554404 0.0122
         
         
R-squared 0.130539    Mean dependent var 0.400000
Adjusted R-squared 0.112612    S.D. dependent var 0.492366
S.E. of regression 0.463815    Akaike info criterion 1.330879
Sum squared resid 20.86707    Schwarz criterion 1.409035
Log likelihood -63.54397    Hannan-Quinn criter. 1.362510
F-statistic 7.281656    Durbin-Watson stat 2.009267
Prob(F-statistic) 0.001131      
         
         
Ekuacioni i vlerësuar i modelit Probit
Dependent Variable: KUPONI    
Method: ML - Binary Probit (Newton-Raphson / Marquardt steps)
Date: 01/22/21 Time: 20:20    
Sample: 1 100      
Included observations: 100    
Convergence achieved after 2 iterations  
Coefficient covariance computed using observed Hessian
         
         
Variable Coefficient Std. Error z-Statistic Prob.  
         
         
C -1.300668 0.333729 -3.897379 0.0001
SHPENZIMET 0.209680 0.077798 2.695177 0.0070
KARTA 0.661187 0.265985 2.485802 0.0129
         
         
McFadden R-squared 0.100648    Mean dependent var 0.400000
S.D. dependent var 0.492366    S.E. of regression 0.462972
Akaike info criterion 1.270549    Sum squared resid 20.79129
Schwarz criterion 1.348704    Log likelihood -60.52745
Hannan-Quinn criter. 1.302180    Deviance 121.0549
Restr. deviance 134.6023    Restr. log likelihood -67.30117
LR statistic 13.54743    Avg. log likelihood -0.605275
Prob(LR statistic) 0.001143      
         
         
Obs with Dep=0 60     Total obs 100
Obs with Dep=1 40      
         
         
=vlerësim i P(y=1)==
=Φ(

Psh, nëse Shpenzimet = 2000 $ dhe klienti ka kartë, atëherë:

=vlerësim i P(y=1)==
=Φ(0.66*1) =
=Φ(-1.3+0.42+0.66)=Φ(-1.3+1.08) = Φ( -0.22) = 0.41 = 41%
Vlera e fundit gjendet nga tabela e shpërndarjes normale standarte.
Shembull
We study the factors influencing the purchase of health insurance.
Using data set from the Health and Retirement Study (HRS), wave 5
(2002) collected by the National Institute of Aging.
Dependent variable: whether or not a person has health insurance (0 or
1).
Independent variables: retired, age, good health status, household
income, education years, married, Hispanic.
Shembull
Estimating regression model, logit, and probit models.

Independent Regression Logit Probit


variables coefficients coefficients coefficients
Retired 0.04 0.19 0.11
Age -0.002 -0.01 -0.008
Good health status 0.06 0.31 0.19
Income 0.0004 0.002 0.001
Education years 0.02 0.11 0.07
Married 0.12 0.57 0.36
Hispanic -0.12 -0.81 -0.46
Shembull
Diskutoni:
Krahasoni shenjën e koeficientëve në modelet logit e probit.Çfarë vini re?
• Cilat janë ndryshoret që ndikojnë pozitivisht në shanset e të pasurit një
sigurim shëndeti?
• Cilat janë ndryshoret që ndikojnë negativisht në shanset e të pasurit një
sigurim shëndeti?
Shembull 2
• Me të dhënat e mëposhtme për n=17, gjeni ekuacionin e vlerësuar të
modelit logit, ku:
• Y- vendimi për pranimin ose jo të një studenti në universitet
• - pikët mesatare në shkollën e mesme (GPA)
• - pikët në testin para universitar
Shembull
Regresi logjistik
• Në regresin logjistik është e vështirë të interpretohet marrëdhënia
ndërmjet variablave sepse ekuacioni nuk është linear. Në një rast të
tillë, jepet koncepti i odds ratio.
• Odds në favor të ndodhjes së një ngjarje, përcaktohet si raporti i
probabilitetit që ngjarja të ndodhë me probabilitetin që ngjarja të
mos ndodhë.
• Pra, Odds në favor të ndodhjes së një ngjarje është:

• Odds = =
• Ka raste kur ka vlerë të llogaritet raporti i Odds:

Raporti i odds =
Raporti i Odds
Supozojmë se duam të krahasojmë odds e ngjarjes së blerjes prej
200$ për klientët që shpenzojnë 2000$ në vit dhe kanë kartë
krediti me odds të ngjarjes së blerjes prej 200$ për klientët të cilët
shpenzojnë 2000$ në vit por nuk kanë kartë krediti.
• Vlerësojmë odds për ngjarjen e parë = = 0.6946

• Vlerësojmë odds për ngjarjen e dytë = = 0.2315

• Bëjmë raportin e odds = = 3

You might also like