Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

ÔN TẬP CHƯƠNG 4+5

KIỂM ĐỊNH KHUYẾT TẬT CỦA MÔ HÌNH HỒI QUY TUYẾN TÍNH
Giảng viên: TS Đinh Thị Thanh Bình (binhdtt@ftu.edu.vn)

Trong các bài trước, chúng ta đã biết mô hình hồi quy tuyến tính được sử dụng phù hợp
nhất để ước lượng hệ số hồi quy trong trường hợp: số liệu chéo và biến Y là biến liên tục.
Với mô hình này, 3 khuyết tật/ lỗi thường được kiểm định là: đa cộng tuyến, phương sai
sai số thay đổi và tự tương quan.

- Nếu dữ liệu chéo không phải là dữ liệu chéo gộp, nghĩa là không có yếu tố chuỗi
thời gian, chúng ta chỉ kiểm định 2 lỗi về: đa cộng tuyến; phương sai sai số thay
đổi.
- Nếu dữ liệu là dữ liệu chéo gộp, nghĩa là có yếu tố chuỗi thời gian, chúng ta chỉ
kiểm định lỗi về: đa cộng tuyến; phương sai sai số thay đổi và tự tương quan.

Nhắc lại, dữ liệu chéo đơn là bộ dữ liệu chéo được điều tra ở 1 thời điểm trong quá khứ.
Dữ liệu dữ liệu chéo gộp là bộ dữ liệu được gộp lại từ 2 hoặc nhiều hơn 2 bộ dữ liệu chéo
đơn được điều tra ở các thời điểm khác nhau trong quá khứ.

Trong phạm vi khóa học, cô chỉ yêu cầu các em tập trung học mô hình hồi quy tuyến tính
với dữ liệu chéo đơn (không phải là dữ liệu chéo gộp)

I. ĐA CỘNG TUYẾN

Tóm tắt lý thuyết

- Hiện tượng: Đa cộng tuyến xảy ra khi các biến độc lập trong mô hình tương quan
mạnh với nhau
Ví dụ: Có mô hình với 2 biến độc lập như sau:
Wage = βo + β1educ + β2iq + u
R2=0.3
Để xem 2 biến độc lập educ và iq có tương quan mạnh với nhau hay không, có 2 cách:
(1) Chạy mô hình hồi quy phụ được kết quả

1
Educ = a0+ a1iq + u Nếu hệ số xác định của mô hình này, ký hiệu là Rj2, lớn
hơn 0.8 2 biến độc lập educ và iq có tương quan mạnh với nhau mô hình có đa
cộng tuyến.
Chú ý: R2 khác với Rj2. R2 thể hiện mối quan hệ tương quan giữa biến phụ
thuộc và các biến độc lập. Rj2 thể hiện mối quan hệ tương quan giữa các biến
độc lập với nhau.

(2) Chạy bảng ma trận tương quan thể hiện mối quan hệ tương quan giữa 2 biến
educ và iq. Nếu hệ số tương quan |r(educ,iq)|> 0.8 2 biến độc lập educ và iq có
tương quan mạnh với nhau mô hình có đa cộng tuyến.

- Hậu quả của ĐCT:


Từ công thức tính phương sai của hệ số hồi quy:

Trong đó như giải thích ở phần trên: Rj2 là hệ số xác định thể hiện mối quan hệ tương
quan giữa các biến độc lập. Rj2 nằm trong khoảng (0,1). Nếu Rj2 > 0.8 mô hình có đa
cộng tuyến.
- Như vậy khi mô hình có đa cộng tuyến Rj2 sẽ lớn gần 1 (1- Rj2) rất nhỏ phương
sai của hệ số hồi quy lớn => ước lượng thiếu chính xác (đọc lại chương 2 về tính
chính xác của hàm hồi quy dựa vào phương sai của hệ số hồi quy)
- Ta cũng có công thức tính sai số chuẩn của hệ số hồi quy như sau:

Để kiểm định giả thuyết thống kê với phương pháp kiểm định t, ta phải tính:

2
Khi có đa cộng tuyến Rj2 sẽ lớn gần 1 se lớn ts nhỏ kiểm định giả thuyết thiếu chính
xác.
Nghĩa là: nếu không có đa cộng tuyến, ts có thể đủ lớn để bác bỏ giả thuyết Ho, nhưng vì
có đa cộng tuyến nên ts bị nhỏ không thể bác bỏ giả thuyết Ho kết luận sai.

- Cách phát hiện ĐCT


Với phần mềm STATA, có 2 cách phát hiện đa cộng tuyến
Cách 1: Dùng bảng ma trận tương quan (correlation matrix)
|r(Xj,Xk| >= 0.8 có ĐCT
Thực hành với file Wage.dta
Sau khi chạy lệnh hồi quy:
reg wage educ exper nonwhite female married south
Chạy bảng ma trận tương quan với lệnh corr:
corr wage educ exper nonwhite female married south
. corr wage educ exper nonwhite female married south
(obs=526)
| wage educ exper nonwhite female married south
-------------+---------------------------------------------------------------
wage | 1.0000
educ | 0.4059 1.0000
exper | 0.1129 -0.2995 1.0000
nonwhite | -0.0385 -0.0847 0.0144 1.0000
female | -0.3401 -0.0850 -0.0416 -0.0109 1.0000
married | 0.2288 0.0689 0.3170 -0.0623 -0.1661 1.0000
south | -0.1025 -0.1166 0.0503 0.1021 -0.0444 0.0751 1.0000

Từ cột số thứ 2 cho biết mối quan hệ tương quan giữa các biến X.
Ví dụ |r(educ,exper)| = 0.2995 2 biến số educ và exper không có quan hệ tương quan
mạnh với nhau.
Tương tự với các cặp biến độc lập khác, giá trị tuyệt đối của hệ số tương quan đều < 0.8
⇨ Mô hình hồi quy tuyến tính với bộ dữ liệu wage.dta không có hiện tượng đa cộng
tuyến.

Cách 2: Sử dụng lệnh vif (variance inflation factor):


Vif = 1/(1-Rj2)

3
Nếu mean vif > 10 hoặc vif > 10 có đa cộng tuyến
Thực hành với file Wage.dta
Sau khi chạy lệnh hồi quy:
reg wage educ exper nonwhite female married south
chạy lệnh vif

. vif

Variable | VIF 1/VIF


-------------+----------------------
exper | 1.26 0.795311
married | 1.19 0.842630
educ | 1.16 0.858830
female | 1.04 0.964487x
south | 1.03 0.968182
nonwhite | 1.02 0.979380
-------------+----------------------
Mean VIF | 1.12

⇨ Có thể thấy mean vif > 10 và từng vif > 10 Mô hình hồi quy tuyến tính với bộ dữ
liệu wage.dta không có hiện tượng đa cộng tuyến.

+ Cách khắc phục hậu quả hiện tượng ĐCT:


- Bỏ bớt biến có tương quan mạnh ra khỏi mô hình

- Nếu ko muốn bỏ bớt biến thì có thể tăng qui mô mẫu lớn

nhỏ
Điều này có nghĩa là: nếu chúng ta có một mẫu lớn thì không phải lo ngại về vấn đề đa
cộng tuyến.

II. PHƯƠNG SAI SAI SỐ THAY ĐỔI


(HETEROSKEDASTICITY)

4
- Hiện tượng: Var(u|X) = ϭ2 thay đổi vi phạm giả thiết của mô hình hồi quy tuyến tính
về phương sai sai số thuần nhất (homoskedasticity)
- Hậu quả:
Ta nhắc lại công thức:

Nếu Var(u|X) = ϭ2 thay đổi ^ thay đổi không thể tính được 1 giá trị cụ
thể của thống kê ts
Không kiểm định được giả thuyết thống kê

- Cách phát hiện:


Có một số cách để phát hiện hiện tượng psss thay đổi, nhưng phương pháp thông dụng
nhất là kiểm định White.
Thực hành với STATA kiểm định White

Chạy hồi quy với lệnh:


reg wage educ exper nonwhite female married south
. reg wage educ exper nonwhite female married south

Source | SS df MS Number of obs = 526


-------------+------------------------------ F( 6, 519) = 41.18
Model | 2309.32588 6 384.887647 Prob > F = 0.0000
Residual | 4851.08841 519 9.34699115 R-squared = 0.3225
-------------+------------------------------ Adj R-squared = 0.3147
Total | 7160.41429 525 13.6388844 Root MSE = 3.0573

------------------------------------------------------------------------------
wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
educ | .5694223 .0519968 10.95 0.000 .4672723 .6715723
exper | .0552699 .011024 5.01 0.000 .0336127 .076927

5
nonwhite | .0729731 .4437979 0.16 0.869 -.7988879 .9448342
female | -2.092037 .2717096 -7.70 0.000 -2.625823 -1.558251
married | .7150305 .2975101 2.40 0.017 .1305585 1.299503
south | -.6416218 .2830282 -2.27 0.024 -1.197644 -.0856001
_cons | -1.410051 .7743316 -1.82 0.069 -2.93126 .1111587
------------------------------------------------------------------------------

sau đó chạy lệnh:


imtest, white

White's test for Ho: homoskedasticity


against Ha: unrestricted heteroskedasticity
chi2(23) = 74.79
Prob > chi2 = 0.0000
Cameron & Trivedi's decomposition of IM-test
---------------------------------------------------
Source | chi2 df p
---------------------+-----------------------------
Heteroskedasticity | 74.79 23 0.0000
Skewness | 33.54 6 0.0000
Kurtosis | 9.80 1 0.0017
---------------------+-----------------------------
Total | 118.12 30 0.0000
---------------------------------------------------

Sử dụng phương pháp kiểm định p-value để đọc kết quả (xem lại slides chương 3 về
phương pháp kiểm định p-value).
Nếu (Prob > chi2) < 0.05 bác bỏ giả thuyết H0 tại mức ý nghĩa α =5%
Trong trường hợp này Prob > chi2 = 0.0000 < 0.05 bác bỏ giả thuyết H0 tại
mức ý nghĩa α =5%.
mô hình có hiện tượng PSSS thay đổi.

- Cách khắc phục


Nếu mô hình có hiện tượng PSSS thay đổi chạy lại mô hình hồi qui với lệnh robust.
reg wage educ exper nonwhite female married south, robust

. reg wage educ exper nonwhite female married south, robust

Linear regression Number of obs = 526


F( 6, 519) = 26.91

6
Prob > F = 0.0000
R-squared = 0.3225
Root MSE = 3.0573

------------------------------------------------------------------------------
| Robust
wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
educ | .5694223 .0657564 8.66 0.000 .4402409 .6986037
exper | .0552699 .0103954 5.32 0.000 .0348477 .075692
nonwhite | .0729731 .3861896 0.19 0.850 -.6857137 .83166
female | -2.092037 .2538627 -8.24 0.000 -2.590762 -1.593312
married | .7150305 .2672913 2.68 0.008 .1899247 1.240136
south | -.6416218 .2715594 -2.36 0.019 -1.175113 -.108131
_cons | -1.410051 .8691299 -1.62 0.105 -3.117496 .2973942
------------------------------------------------------------------------------

Chúng ta thấy, khi chạy lại hồi quy với lệnh robust, sai số chuẩn của hồi quy
thay đổi các kết quả kiểm định sẽ thay đổi, trở nên chính xác hơn.

You might also like