Download as pdf or txt
Download as pdf or txt
You are on page 1of 13

Bài giảng PTDLKD 25/07/2023

4.4 Hồi quy tuyến tính đa biến với biến giả


4.4.1 Khái niệm
4.4.2 Biến giả là biến giải thích
4.4.3 Các dạng hàm hồi quy tuyến tính đa biến
4.4.4 Biến giả là biến phụ thuộc (Mô hình ra quyết định - Mô
hình Logit)

4.4.1 Khái niệm


Biến giả (Dummy variable) là biến được sử dụng trong mô hình hồi
quy để lượng hóa các biến định tính (categorical varibales)
Một biến định tính gồm k tính chất sẽ được lượng hóa (code) thành k – 1
biến giả
Lưu ý. Biến giả sẽ có giá trị là số tự nhiên tượng trưng cho k – 1 tính
chất của biến định tính
Ví dụ 4.6 Xem sheet Vidu4.6 trong file Data_practice_Ch4.xlsx
a) Xác định Categorical variables
b) Chuyển đổi các Categorical variables thành Dummy variables
c) Có ý kiến cho rằng có sự bất bình đẳng về tiền lương giữa nhân viên
Nam và Nữ. Mô hình đề xuất như sau

Mr U_Giảng viên PTDLKD 1


Bài giảng PTDLKD 25/07/2023

Sample WAGE AGE EDUC EXPER SEX MARRIED

1 3942 33 17 8 MALE YES

2 2700 32 10 11 FEMALE YES

3 2765 37 12 18 FEMALE YES

4 2789 30 12 9 FEMALE YES

5 2825 29 12 11 FEMALE YES

… … … … … … …

Sample WAGE AGE EDUC EXPER SEX MARRIED MALE YES


1 3942 33 17 8 MALE YES 1 1
2 2700 32 10 11 FEMALE YES 0 1
3 2765 37 12 18 FEMALE YES 0 1
4 2789 30 12 9 FEMALE YES 0 1
5 2825 29 12 11 FEMALE YES 0 1

Ví dụ 4.6 (tt) c) Có ý kiến cho rằng có sự bất bình đẳng về tiền lương
giữa nhân viên Nam và Nữ. Mô hình được đề xuất để kiểm định như sau
Wage = f(SEX) + ε
- Bạn hãy cho biết bất bình đẳng về lương có xảy ra giữa Nam và Nữ
không? Với mức nghĩa 5%.
- Giải thích ý nghĩa của các hệ số trong hàm hồi quy f (SEX).

Mr U_Giảng viên PTDLKD 2


Bài giảng PTDLKD 25/07/2023

. reg wage male

Source SS df MS Number of obs = 935


F(1, 933) = 1190.45
Model 85615718.9 1 85615718.9 Prob > F = 0.0000
Residual 67100449.3 933 71919.0239 R-squared = 0.5606
Adj R-squared = 0.5601
Total 152716168 934 163507.675 Root MSE = 268.18

wage Coef. Std. Err. t P>|t| [95% Conf. Interval] male có ý ngha

male 611.6115 17.72641 34.50 0.000 576.8233 646.3998


_cons 3196.293 11.59431 275.68 0.000 3173.54 3219.047

Vì male ch là bin dummy nên ta không th gii thích male theo ngha khi male tng thêm 1 n v c

Bn cht ca bin male ( bin dummy) c dùng phân bit có hay không s khác bit ca các phn t trên nhóm
tính cht ca bin dummy c code (trong ví d này bin dummy là male)

Khi mt ngi có gii tính là Male thì mc lng trung bình ca h cao hn ngi có gii tính là n 611.611

HOMEWORK
4.4 Với biến giới tính (SEX) nếu thay vì chuyển thành biến Dummy là
Male, bạn hãy chuyển thành biến Dummy là Female. Từ đó chạy mô
hình sau
Wage = f(Female) + ε
a) Tìm mối liên hệ giữa các hệ số giữa hai mô hình Wage = f(Male) + ε
và Wage = f(Female) + ε
b) Giải thích ý nghĩa của các hệ số trong hàm hồi quy f(Female)

Mr U_Giảng viên PTDLKD 3


Bài giảng PTDLKD 25/07/2023

Ví dụ 4.6 (tt)
d) Số năm đi học (EDU) cũng là một yếu tố quan trọng ảnh hưởng đến
tiền lương. Mô hình được mở rộng như sau
Wage = f(SEX, EDU) + ε
- Mô hình này có phù hợp không ? Với mức ý nghĩa 5%
- Các hệ số trong hàm hồi quy tuyến tính f(SEX, EDU) có ý nghĩa
không ? Giải thích ý nghĩa các hệ số này.
- Có một số ý kiến bổ sung thêm rằng một người có giới tính là
Nam nếu cứ đi học thêm 1 năm thì mức lương trung bình tăng
lên sẽ khác biệt so với một người là Nữ đi học thêm 1 năm. Mô
hình họ đề xuất như sau
Wage = f(SEX, EDU, SEX*EDU) + ε

. reg wage edu male

Source SS df MS Number of obs = 935


F(2, 932) = 659.46
Model 89483642.9 2 44741821.5 Prob > F = 0.0000
Residual 63232525.3 932 67846.0572 R-squared = 0.5859
Adj R-squared = 0.5851
Total 152716168 934 163507.675 Root MSE = 260.47

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

edu 30.10292 3.986869 7.55 0.000 22.27864 37.9272


male 580.8848 17.69155 32.83 0.000 546.1649 615.6047
_cons 2803.999 53.16238 52.74 0.000 2699.667 2908.331

Mr U_Giảng viên PTDLKD 4


Bài giảng PTDLKD 25/07/2023

• Biến tương tác là sự kết hợp giữa một biến Categorical Variable và
một biến Numerical Variable

. gen edu_male= male*edu

. reg wage edu male edu_male

Source SS df MS Number of obs = 935


F(3, 931) = 455.08
Model 90798076 3 30266025.3 Prob > F = 0.0000
Residual 61918092.2 931 66507.0808 R-squared = 0.5946
Adj R-squared = 0.5932
Total 152716168 934 163507.675 Root MSE = 257.89

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

edu 14.02481 5.353612 2.62 0.009 3.518265 24.53136


male 102.2072 109.0887 0.94 0.349 -111.881 316.2954
edu_male 35.23137 7.924908 4.45 0.000 19.67862 50.78413
_cons 3013.525 70.65237 42.65 0.000 2874.869 3152.182

HOMEWORK
4.5 Với mô hình đề xuất như sau
Wage = f(EXPER, EXPER*MALE) + ε
a) Kiểm định sự phù hợp của mô hình với mức ý nghĩa 5%
b) Giải thích ý nghĩa các hệ số trong hàm hồi quy tuyến tính f(EXPER,
EXPER*MALE)
c) Với mô hình mở rộng như sau:
Wage = f(AGE, EDU, EXPER, SEX, MARRIED) + ε
c1. Kiểm định sự phù hợp của mô hình với mức ý nghĩa 5%
c2. Sử dụng kiểm định Wald test, bạn có thể loại bỏ được các biến nào với
mức ý nghĩa 5% ? Nếu có biến được loại theo Wald test, hãy đưa ra giải thích cho phù
hợp.
c3. Với mô hình có được sau kiểm định Wald test trong câu c2. hãy giải thích ý
nghĩa các hệ số trong hàm hồi quy tuyến tính tìm được.

Mr U_Giảng viên PTDLKD 5


Bài giảng PTDLKD 25/07/2023

HOMEWORK (tt)
c4. Theo bạn mô hình trong câu c3. có nên xuất hiện biến tương tác không ?
Nếu có hãy giải thích ý nghĩa các hệ số trong hàm hồi quy tìm được.

Trong thc t, ta có th gp rt nhiu dng hàm hi quy tuyn tính a bin ngoài dng hàm hi quy tuyn tính a bin va hc là f(x2,...,xk) =
B1 + B2X2 +...+BkXk thì các dng hàm hi quy khác cng thng gp là:

4.4.3 Các dạng hàm hồi quy đa biến thường gặp

Mô hình Dạng hàm Diễn giải


1. Tuyến tính Y = α + βX+ ε Khi X thay đổi 1 đơn vị thì Y thay
đổi trung bình β đơn vị
2. Log – Lin Ln(Y) = α + βX+ ε Khi X thay đổi 1 đơn vị thì Y thay i vi các dng
hàm t s 2 tr
i thì ý ngha
đổi (β*100) % ca bin ph
thuc chu
3. Lin – Log Y= α + βln(X)+ ε Khi X thay đổi 1% thì Y thay đổi nh hng ca
bin gii thích
có hay
(β/100) đơn vị không dng
logarit

4. Log – Log lnY = α + βln(X) + ε Khi X thay đổi 1% thì Y thay đổi
(β) %

5) Y = B1 + B2.X2 + B3.lnX3 + e
Khi X2 thay i 1 v trong k các bin khác kh i thì Y s thay i 1 lng B2 v
Khi X3 thay i 1% trong k các bin khác không i thì Y thay i 1 lng là B3/100 v

6) lnY = B1 B2.X2 + B3.lnX3 + e


khi X2 thay i 1 v trong k X3 không i thì lnY thay i 1 lng B2.100 v
Mr U_Giảng viên PTDLKD Khi X3 thay i 1% trong k không i thì Y3 thay i 1 lng B3/100 v
6
Bài giảng PTDLKD 25/07/2023

Ví dụ 4.6 (tt) Xem sheet Vidu4.6 trong file Data_practice_Ch4.xlsx


Để tìm ra mô hình phù hợp, một số dạng mô hình sau được đề xuất
(1) Wage = f(AGE, EDU, EXPER) + ε
(2) Ln(Wage) = f(AGE, EDU, EXPER) + ε
(3) Wage = f(ln(AGE), ln(EDU), ln(EXPER)) + ε
(4) ln(Wage) = f(ln(AGE), ln(EDU), ln(EXPER)) + ε

. gen ln_wage=log( wage)

. gen ln_age=log(age)

. gen ln_edu=log(edu)

. gen ln_exper=log( exper)

. reg wage age edu exper

Source SS df MS Number of obs = 935


F(3, 931) = 51.50
Model 21737956.1 3 7245985.36 Prob > F = 0.0000
Residual 130978212 931 140685.512 R-squared = 0.1423
Adj R-squared = 0.1396
Total 152716168 934 163507.675 Root MSE = 375.08

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

age 12.55229 4.729612 2.65 0.008 3.270354 21.83423


edu 71.43399 6.529846 10.94 0.000 58.61907 84.24891
exper 12.12668 3.77418 3.21 0.001 4.719789 19.53356
_cons 1940.379 152.0949 12.76 0.000 1641.891 2238.868

Mr U_Giảng viên PTDLKD 7


Bài giảng PTDLKD 25/07/2023

. reg ln_wage wage age edu exper

Source SS df MS Number of obs = 935


F(4, 930) = 27970.76
Model 11.5378172 4 2.88445431 Prob > F = 0.0000
Residual .09590523 930 .000103124 R-squared = 0.9918
Adj R-squared = 0.9917
Total 11.6337225 934 .012455806 Root MSE = .01015

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

wage .0002742 8.87e-07 309.07 0.000 .0002725 .000276


age 3.39e-06 .0001285 0.03 0.979 -.0002489 .0002556
edu .000338 .0001878 1.80 0.072 -.0000306 .0007065
exper .0002129 .0001027 2.07 0.039 .0000112 .0004145
_cons 7.186574 .0044633 1610.15 0.000 7.177815 7.195334

. reg wage ln_age ln_edu ln_exper

Source SS df MS Number of obs = 935


F(3, 931) = 51.48
Model 21729082.5 3 7243027.51 Prob > F = 0.0000
Residual 130987086 931 140695.044 R-squared = 0.1423
Adj R-squared = 0.1395
Total 152716168 934 163507.675 Root MSE = 375.09

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

ln_age 541.745 142.6729 3.80 0.000 261.7472 821.7428


ln_edu 942.8253 84.58724 11.15 0.000 776.8216 1108.829
ln_exper 90.67396 30.38493 2.98 0.003 31.04307 150.3048
_cons -1088.331 504.0715 -2.16 0.031 -2077.579 -99.08274

Mr U_Giảng viên PTDLKD 8


Bài giảng PTDLKD 25/07/2023

. reg ln_wage ln_age ln_edu ln_exper

Source SS df MS Number of obs = 935


F(3, 931) = 52.62
Model 1.68656141 3 .562187135 Prob > F = 0.0000
Residual 9.94716106 931 .010684384 R-squared = 0.1450
Adj R-squared = 0.1422
Total 11.6337225 934 .012455806 Root MSE = .10337

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

ln_age .1509647 .0393167 3.84 0.000 .0738051 .2281243


ln_edu .2625484 .0233099 11.26 0.000 .2168024 .3082944
ln_exper .0262779 .0083732 3.14 0.002 .0098453 .0427105
_cons 6.873242 .1389081 49.48 0.000 6.600632 7.145851

. reg ln_wage age ln_edu ln_exper

Source SS df MS Number of obs = 935


F(3, 931) = 52.63
Model 1.6868893 3 .562296432 Prob > F = 0.0000
Residual 9.94683317 931 .010684031 R-squared = 0.1450
Adj R-squared = 0.1422
Total 11.6337225 934 .012455806 Root MSE = .10336

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

age .0045691 .0011887 3.84 0.000 .0022363 .006902


ln_edu .2628715 .0232969 11.28 0.000 .2171511 .3085919
ln_exper .0262865 .0083708 3.14 0.002 .0098587 .0427143
_cons 7.248787 .0725354 99.93 0.000 7.106436 7.391139

Mr U_Giảng viên PTDLKD 9


Bài giảng PTDLKD 25/07/2023

4.4.4 Mô hình Logit (Mô hình ra quyết định)


Problem: Trong thực tế có thể gặp phải trường hợp mô hình hồi quy là
mô hình có biến phụ thuộc là biến định tính, chẳng hạn như:
- Những yếu tố ảnh hưởng đến việc ra quyết định mua hay không mua
một sản phẩm ?
- Những yếu tố ảnh hưởng đến việc ra quyết định mua hay không mua
cổ phiếu A?

4.4.4 Mô hình ra quyết định


Là mô hình mà chúng ta phải trả lời câu hỏi “có hay không” dựa trên
những cân nhắc được/mất của việc ra quyết định, cụ thể đó là xác suất
xảy ra khả năng “có” và xác suất xảy ra khả năng “không” dựa trên
những yếu tố có thể ảnh hưởng đến việc ra quyết định.
Notes:
- Mô hình ra quyết định là mô hình mà biến phụ thuộc là biến định tính
- Biến phụ thuộc (Y) nếu chỉ nhận 02 tính chất thì mô hình được gọi là mô hình nhị
nguyên (Model Probit, Model Logit)
- Biến phụ thuộc (Y) nếu có từ 03 tính chất trở lên thì mô hình được gọi là mô hình
thứ bậc (Model Order Probit, Model Order Logit) (tự đọc)

Mr U_Giảng viên PTDLKD 10


Bài giảng PTDLKD 25/07/2023

Ví dụ 4.7 Những yếu tố ảnh hưởng đến quyết định mua hay không một
căn hộ: quyt nh

- Những yếu tố tác động đến giá căn hộ ?


- Với những yếu tố (biến giải thích) tác động đến quyết định của chúng
ta là mua/không mua căn hộ thì xác suất “mua” là bao nhiêu và
Y = 1 quyt nh mua
“không mua” la bao nhiêu? Y = 0 quyt nh không mua

Giả sử Y= 1 tương ứng với quyết định là “mua” và ngược lại, ta có mô


hình đề xuất sẽ có dạng sau
1 2 X2 3X3 ...k X k
e e X
p  Pr ob(Y  1/ X2 ,X3 ,..., X k )   2 X2 3X3 ... k X k

1 e 1 1  e X

Model Logit
 2 X2 3X3 ...k X k
e1 e X
p  Pr ob(Y  1/ X2 , X3 ,..., X k )  1 2 X2 3X3 ...k X k

1 e 1  e X
1
 1 p 
1  e X
p 1  eZ
 Odds    e X ;  Z  X 
1  p 1  e Z
 p 
 Ln    Z  1  2 X2  3 X3  ...   k X k  Model Logit
 1 p 

Y X2 X3 ... Xk

ln ( p/(1-p) ) = B1 + B2.X2 + ... + Bk.Xk = 0.6

Mr U_Giảng viên PTDLKD 11


Bài giảng PTDLKD 25/07/2023

. logit highbp height weight

Iteration 0: log likelihood = -3979.2332


Iteration 1: log likelihood = -3702.3936
Iteration 2: log likelihood = -3670.7899
Iteration 3: log likelihood = -3670.738
Iteration 4: log likelihood = -3670.738

Logistic regression Number of obs = 10,351


LR chi2(2) = 616.99
Prob > chi2 = 0.0000
Log likelihood = -3670.738 Pseudo R2 = 0.0775

highbp Coef. Std. Err. z P>|z| [95% Conf. Interval]

height -.0394918 .0034501 -11.45 0.000 -.046254 -.0327297


weight .0497986 .0020526 24.26 0.000 .0457756 .0538216
_cons .9662929 .5285325 1.83 0.068 -.0696117 2.002198

ln( (highbp=1)/(1-highbp=1) ) = 0.966 - 0.039*height + 0.049*weight

Mr U_Giảng viên PTDLKD 12


Bài giảng PTDLKD 25/07/2023

sampl height weight highbp p_logit


1400 174.598 62.48 0 0.056386
1401 152.297 48.76 0 0.067861
1402 164.098 67.25 0 0.102912
1404 162.598 94.46 0 0.320597
ln( (highbp=1)/(1-highbp=1) ) = 0.9662929 - 0.0394918*156 .199 +
1405 163.098 74.28 0 0.144834 0.0497986*76.77 => p = 0
1406 147.098 66 0 0.174197 21128

1407 153.898 54.55 0 0.083562


1408 160 58.97 0 0.081977
1410 164 68.95 0 0.111377
1411 176.598 65.43 0 0.060111
1412 156.199 76.77 1 0.201128
1413 170.098 58.4 0 0.055047
1414 151.797 65.77 0 0.147644
1415 154.199 48.54 0 0.062615
1417 171.098 73.03 0 0.103968
1418 169.297 68.72 0 0.091339
1419 151.398 88.11 1 0.348659
1420 162 68.04 0 0.114753
1421 171.797 61.58 0 0.059991
1423 170.098 52.5 0 0.041616
1424 153.297 68.38 1 0.15677

Mr U_Giảng viên PTDLKD 13

You might also like