Ch4 2023-2024

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 55

Bài giảng PTDLKD 15/10/2023

Các nội dung chính:


4.1 Hệ số tương quan tuyến tính
4.2 Hồi quy tuyến tính đơn biến
4.3 Hồi quy tuyến tính đa biến
4.4 Hồi quy tuyến tính với biến giả
4.5 Mô hình ra quyết định - Mô hình Logit

Mr U_Giảng viên PTDLKD 1


Bài giảng PTDLKD 15/10/2023

Ý tưởng. Khi một chủ đề nghiên cứu xuất hiện ít nhất từ 2 biến trở lên
thì việc tìm hiểu mối liên hệ giữa các biến bao gồm các vấn đề sau:
- Giữa các biến có hay không sự phụ thuộc
- Biến nào đóng vai trò là dependent variable
- Biến nào đóng vai trò là independent variable
- Biến nào là variable ?, latent variable ?
- Các giả thuyết được giải thích dựa trên các lý thuyết nào?
- Conceptualization của chủ đề là gì ? Kiểm chứng bằng cách nào.

4.1 Hệ số tương quan tuyến tính


4.1.1 Hiệp phương sai (Cov)
Đo lường sự phụ thuộc giữa hai biến định lượng X và Y, chẳng hạn như có ý
kiến cho rằng Tuổi (X) và Thời gian sử dụng mạng xã hội (Y) có sự phụ thuộc. Nếu
giả định này có tính nhất quán và khẳng định là đúng thì các công ty, nhãn hàng có thể
tham khảo để sử dụng mạng xã hội như là một kênh quảng cáo các mặt hàng liên quan
đến giới trẻ.

Khuyết điểm. Cov(X,Y) thay đổi theo đơn vị đo lường của X và Y


4.1.2 Scatter diagram
Biểu hiện sự phụ thuộc giữa hai biến định lượng X và Y bằng đồ thị
4.1.3 Hệ số tương quan (rXY )
Đo lường sự phụ thuộc giữa hai biến định lượng X và Y
Ưu điểm. rXY không thay đổi theo đơn vị đo lường của X và Y

Mr U_Giảng viên PTDLKD 2


Bài giảng PTDLKD 15/10/2023

Khuyết điểm. rXY chỉ đo lường mối quan hệ nhân quả giữa X và Y,
không chỉ ra được Y phụ thuộc vào X hay X phụ thuộc vào Y
Giá trị rXY Mức độ phụ thuộc
0.81 – 1.00 Rất mạnh
0.61 – 0.8 Mạnh
0.41 – 0.6 Bình thường
0.21 – 0.4 Yếu
0.0 – 0.2 Rất yếu hoặc không có phụ thuộc

 (x  X )  y  Y 
n

i i
Cov ( X , Y )
Cov ( X , Y )  i 1
; rXY 
n 1 s X  sY
n n

 ( xi  X )2 (y Y) i
2

s X  s X2  i 1
; sY  sY2  i 1

n 1 n 1

Ví dụ 4.0 Khi xem xét mối liên hệ giữa Thu nhập (Y) và Chi tiêu (X).
Bạn hãy
a) Vẽ đồ thị scatter plot và nhận xét gì về mối liên hệ giữa X và Y
b) Tính hệ số tương quan tuyến tính giữa X và Y. Bạn có nhận xét gì
giữa hệ số tương quan tuyến tính và scatter plot.
200
150
Y (Chi tiêu)
100
50

Mr U_Giảng viên PTDLKD 3


Bài giảng PTDLKD 15/10/2023

4.2 Hồi quy tuyến tính đơn biến


4.2.1 Nguồn dữ liệu
4.2.2 Phương pháp bình phương tối thiểu (OLS)
4.2.2.1 Tính chất
4.2.2.2 Đo lường mức độ phù hợp
4.2.2.3 Ước lượng và Kiểm định tham số
4.2.2.4 Kiểm định sự phù hợp của mô hình
4.2.2.5 Dự báo
4.2.3 Tỉ lệ và đơn vị đo lường

4.2 Hồi quy tuyến tính đơn biến


Ví dụ 4.1 Phân tích mối liên hệ giữa Chi tiêu (Y) và Thu nhập (X) của
các hộ gia đình.
- Lý thuyết tổng quát (General Theory) của Keynes chỉ ra rằng khi thu
nhập (X) tăng thì chi tiêu (Y) tăng (X tăng thì Y tăng và ngược lại).
- Mối liên hệ giữa Y và X theo General Theory cho thấy Y phụ thuộc
vào X hay Y là một hàm số theo biến X (Y = f(X))
- Y không chỉ phụ thuộc vào X mà còn phụ thuộc vào các yếu tố khác
như trình độ học vấn (Edu), khu vực sống (Urban), …
Y  f  X, Edu, Urban,...

Mr U_Giảng viên PTDLKD 4


Bài giảng PTDLKD 15/10/2023

Nhận xét. Nếu chỉ xem xét mối liên hệ giữa Y và X mà tạm thời bỏ qua
các yếu tố khác (Edu, Urban, …) thì mối liên hệ này được minh họa như
thế nào ?
Y  f  X  + Edu,
 Urban,
 
.

- Giả sử f(X) là một hàm tuyến tính nghĩa là f(X) = β1 + β2X
- Chứng minh sự tồn tại của f(X) là chứng minh các hệ số β1 , β2 tồn
tại.
- Thu thập dữ liệu để tìm các hệ số β1 , β2 trên mẫu đgl ước lượng các
hệ số β1 , β2 , kí hiệu là 1 , 2  1  2 X  Y

- Kiểm định sự đúng đắn của học thuyết Keynes bằng cách khẳng định
tính có ý nghĩa của các hệ số β1 , β2

Hồi quy tuyến tính đơn biến là phân tích sự phụ thuộc của một biến
phụ thuộc (Y) vào một biến độc lập (biến giải thích – X) với mục đích là
)
dự đoán giá trị của biến phụ thuộc ( Y
Y  f  X  + Edu,
 Urban,
 .

  X  Y
1 2
 Y  is estimate of f (X)
      X  
Y  f  X  +  Y 1 2
Mô hình hồi quy tuyến tính đơn biến là mô hình chỉ ra Y ngoài phụ
thuộc vào biến quan trọng nhất là X còn phụ thuộc vào các biến khác (ε)
Y  f  X  +
Hàm hồi quy tuyến tính đơn biến là hàm tuyến tính cho thấy Y phụ
thuộc vào X
f(X) = β1 + β2X

Mr U_Giảng viên PTDLKD 5


Bài giảng PTDLKD 15/10/2023

Hồi quy là quá trình sử dụng dữ liệu khảo sát của biến phụ thuộc (Y) và
biến độc lập (X) để tìm các hệ số (tham số) β1 , β2 với mục đích khẳng
định Y phụ thuộc vào X.

Lưu ý. Nếu ta thu thập dữ liệu của Y và X trên một mẫu khảo sát thì hàm
hồi quy tuyến tính đơn biến tìm được đgl hàm hồi quy tuyến tính đơn
biến trên mẫu (hàm hồi quy mẫu), kí hiệu là
    X
Y 1 2

Trong đó
- Y là hàm hồi quy mẫu, cũng có thể gọi là giá trị dự đoán của biến phụ

thuộc Y.
- 1 , 2 lần lượt là tung độ gốc và hệ số góc của hàm hồi quy mẫu.

4.2.1 Nguồn dữ liệu


Dữ liệu chéo: Là dữ liệu được thu thập tại một thời điểm nhưng trên nhiều đối tượng
khác nhau.
Ví dụ. Chi tiêu (Y) và Thu nhập (X) thu thập trên 60 hộ gia đình tại cùng một thời
điểm (time) t (t=2023) được gọi là dữ liệu chéo
Dữ liệu chuỗi thời gian: Là dữ liệu được thu thập trên 1 đối tượng nhưng các thời điểm
khác nhau
Ví dụ. Chi tiêu (Y) và Thu nhập (X) của một hộ gia đình trong vòng 10 năm (t =1,
2, …,10) hoặc chỉ số giá chứng khoán của một công ty từ năm 2010 đến 2016, mỗi
năm thu thập 12 tháng đgl một bộ dữ liệu chuỗi thời gian
Dữ liệu bảng: Là dữ liệu được thu thập trên nhiều đối tượng khác nhau và tại các thời
điểm khác nhau.
Ví dụ. Chi tiêu (Y) và Thu nhập (X) thu thập trên 60 hộ gia đình, mỗi hộ gia đình
thu thập trong vòng 10 năm đgl một bộ dữ liệu bảng.

Mr U_Giảng viên PTDLKD 6


Bài giảng PTDLKD 15/10/2023

4.2.2 Phương pháp Bình phương tối thiểu (OLS)


    X thì hàm hồi quy mẫu này
Ý tưởng. Với hàm hồi quy mẫu Y 1 2
      X   có ε nhỏ nhất nghĩa là
tốt nhất khi và chỉ khi Y  Y 1 2

 
  Y -Y  min
Nhận xét. Do ε sẽ tạo ra các giá trị sai lệch +, - nên để tránh hiện tượng
các sai lệch này triệt tiêu nhau thay vì để ε nhỏ nhất thì trong tính toán ta

    Y -  X 
2 2
sẽ thay thế bằng  2  Y -Y 1 2 . Đây là một hàm số
min
theo 2 biến 1 , 2 , kí hiệu là
min

     
n
f  ,   Y -  X   yi  1  2 x i
2 2
1 2 1 2  min
min
i 1
Step 1. Thu thập dữ liệu trên mẫu khảo sát (n) giá trị của Y, X
Step 2. Lấy đạo hàm riêng phần của hàm số f  ,  lần lượt theo 2 biến  1 2 

 f
 
 1
 f 
'
1
 0
 n
 i 1
 

  2 yi  1  2 x i  1  0  1
  n
 f  f '  0
 2  2 
i 1
i 
 2 y     x   x   0
1 2 i i   2

   x   1  0  y  n
n n
  n n n
  x  0
  i  1  2 i 
2 y    i
 i1
1 2 i  
  i i 1 i 1   n i1
 n n
   
n n n
  
2
 yi  1  2 xi   xi   0 
yi xi 1 xi 2  xi   0  
2

  i  i1
i 1 i 1  i1 i1

   n n
n 
 1 2

  
i 1
x i  
i 1
yi
 n n n
  x    x 2  y x
 1 i 1
i 2
i 1
i 
i 1
i i

Mr U_Giảng viên PTDLKD 7


Bài giảng PTDLKD 15/10/2023

1  y  2 . x
1  y  2 .x
n

 x iy  n .x .y
x y  x .y
2 
i
Hoặc
2  i1

 
 
2
 
n 2


i1
x 2
i   n. x

x2  x

 1  n 
s 
s
 XY   
n 1  i1

xi  x yi  y  
2  XY trong ñoù  
s2X
 
n
s2  1 2

 X 
n 1 i1
xi  x

Ví dụ 4.2 Quay lại Ví dụ 4.1, với bộ dữ liệu mẫu khảo sát trên 60 hộ gia
đình về Y (Chi tiêu) và X( Thu nhập), bạn hãy tìm hồi quy mẫu:
a) Tính toán bằng tay
b) Tính toán trên phần mềm Stata

a) Xem các bước tính trong file “Ch4.xlsx”, chọn Sheet “Vidu4.1”

1  y  2 .x  121.2  173.667  17


xy  x.y 23020.333  173.667 *121.2
2    0.6
  33446.667  173.667 
2 2
x2  x
Y     X  17  0.6X
1 2
b) Tính toán trên phần mềm Stata

Mr U_Giảng viên PTDLKD 8


Bài giảng PTDLKD 15/10/2023

Ý nghĩa các hệ số (tham số) trong hàm hồi quy mẫu


    X
Y 1 2
 là giá trị trung bình của Y khi X= 0. Khi X = 0 thì giá trị trung
- 1

bình của Y là 1

- Khi X thay đổi 1 đơn vị từ X thành X + 1 thì Y thay đổi một lượng

trung bình là  2

c) Giải thích ý nghĩa các hệ số trong hàm hồi quy mẫu Ví dụ 4.2
    X  17  0.6X
Y 1 2

- 17 cho biết khi một hộ gia đình thất nghiệp thì số tiền chi tiêu tối
thiểu trung bình là 17
- 0.6 cho biết khi Thu nhập tăng thêm 1 đơn vị thì 1 hộ gia đình trung
bình sẽ bỏ ra 0.6 cho Chi tiêu

HOMEWORK
4.1 Quan sát mẫu số liệu về chi phí chào hàng và doanh số bán hàng của
12 doanh nghiệp:
X 100 106 60 160 70 170 140 120 116 120 140 150

Y 1270 1490 1060 1626 1020 1800 1610 1280 1390 1440 1590 1380

- X: chi phí chào hàng (triệu đồng/năm)


- Y: doanh số bán hàng (triệu đồng/năm)
a) Giả sử X, Y có mối quan hệ tuyến tính, hãy tìm hàm hồi quy tuyến
tính mẫu của doanh số bán hàng phụ thuộc chi phí chào hàng ?
- Làm bằng tay
- Thực hiện trên phần mềm Stata
b) Giải thích ý nghĩa của các tham số tìm được trong hàm hồi quy ?

Mr U_Giảng viên PTDLKD 9


Bài giảng PTDLKD 15/10/2023

4.2.2.1 Các tính chất của phương pháp OLS


 ; 
Đối với các tham số 1 2
Tính chất 1. Ứng với một mẫu quan sát gồm n cặp giá trị (xi, yi) thì các
tham số này tìm được là duy nhất.
 ;  là các ước lượng điểm của các tham số
Tính chất 2. Các tham số 1 2

1; 2 trên đường hồi quy tổng thể và các tham số này là các Biến ngẫu
nhiên, giá trị của chúng thay đổi từ mẫu này sang mẫu khác

   X
Đối với hàm hồi quy mẫu (SRF): Y 1 2

 
Tính chất 1. SRF luôn đi qua điểm trung bình mẫu x, y , nghĩa là:
y  1  2 .x
Tính chất 2. Giá trị trung bình ước lượng bằng giá trị trung bình thực tế,
nghĩa là:

1 n  
 yi  y i  y
n i 1
Tính chất 3. Giá trị trung bình của phần dư (sai số ngẫu nhiên) bằng 0,
nghĩa là: 1 n
e   ei  0
n i 1
Tính chất 4. Các phần dư (sai số ngẫu nhiên) không tương quan tuyến
tính với các giá trị xi , nghĩa là:
n
se X   ei .x i 0
i 1

Tính chất 5. Các phần dư (sai số ngẫu nhiên) không tương quan tuyến
 , nghĩa là:
tính với các giá trị y i n
seY   yi .ei 0
i 1

Mr U_Giảng viên PTDLKD 10


Bài giảng PTDLKD 15/10/2023

4.2.2.2 Đo lường mức độ phù hợp


Ý tưởng. Hàm hồi quy mẫu đgl phù hợp khi giải thích được sự thay đổi của Y
qua biến giải thích X hay hàm hồi quy mẫu phải tồn tại.
     X
Y 1 2

yi
 y  y 
 y  y
i i
i

y
 y  y 
i

x xi

     X
Y 1 2

yi
 
n
RSS   yi  yi
2

TSS    y  y 
n 2
i 1
i

ESS    y  y 
n 2
i 1
i
y i 1

x xi

Mr U_Giảng viên PTDLKD 11


Bài giảng PTDLKD 15/10/2023

yi  y  yi  yi  yi  y

    
yi  yi  yi  y 
2 2
 yi  y 

     y  y     y  y    
n n n n
 2 yi  yi yi  y
2 2 2
  yi  y i i i
i i 1 i 1 i 1 

ei
 

  
 
 
n n n n
maø 2 y i  yi yi  y  2 ei yi  y  2   ei yi  y  e i 
i 1 
  i 1  
i 1 i 1 
ei  0 (tính chaát 5)  0 (tính chaá t 3) 
     
n n n
  yi  y   yi  yi   yi  y
2 2 2


i 1
  i 1

i 1

T SS RSS ESS

  
n 2 n 2
TSS  Total sum of square    yi  y   y i2  n. y
i 1 i 1

TSS là tổng bình phương sự thay đổi (biến động) của tất cả các giá trị
Y so với giá trị trung bình của Y

 
n
RSS  Residual sum of square    y i  yi
2

i 1
RSS tổng bình phương sự thay đổi (biến động) của tất cả các giá trị của Y
so với các giá trị nằm trên đường hồi quy mẫu đgl sự biến động của các
nguyên nhân khác.

       x
2 
 
n n
ESS  Explained sum of square    yi  y
2 2
2
2
i  n. x 
i 1 i 1 
ESS tổng bình phương sự thay đổi (biến động) của tất cả các giá trị của
hàm hồi quy mẫu so với giá trị trung bình của Y đgl sự biến động của X

Mr U_Giảng viên PTDLKD 12


Bài giảng PTDLKD 15/10/2023

TSS = ESS + RSS


Sự biến động của Y = Sự biến động của X + Sự biến động của các nguyên nhân khác

ESS RSS
1 
TSS TSS
100% Sự biến động của Y = … % Sự biến động của X + ... %Sự biến
động của các nguyên nhân khác

ESS RSS
R2  1 ; 0  R2 1
TSS TSS
- R2 : hệ số xác định, cho biết sự thay đổi của Y có bao nhiêu % là thay
đổi do biến X ( bao nhiêu % còn lại là do các nguyên nhân khác)
- R2 còn được gọi là hệ số đo lường mức độ phù hợp của hàm hồi quy

Ý nghĩa của R2
- R2 = 1 nghĩa là biến X giải thích được 100% sự thay đổi của biến Y
- R2 = a ( 0 < a < 1) nghĩa là biến X giải thích được a% sự thay đổi của
biến Y
- R2 = 0, nghĩa là X và Y không có quan hệ tuyến tính

Mr U_Giảng viên PTDLKD 13


Bài giảng PTDLKD 15/10/2023

Y Y

R 2  .........
R 2  .............

X X

Y Y

R 2  ...........
R 2  ..........

X X

Mối liên hệ giữa R2 và hệ số tương quan rXY

 
2 n 2 
2   x i2  n. x      n 2 2
R2 
ESS
  i 1 
 
2   x i  n. x
 s XY  .  i1 
 
n
TSS 2  
 y  y   R 2

 s X   yi  y
i

 
2 n 2
2
i 1 
s 
2  XY
i 1
2
sX 

s XY
rXY 
s X .s Y
 s XY  s 2X  s XY 
2 2

R 
2
. 2  2 2  rXY  R 2
 s2X  sY  sX .sY 
2

Mr U_Giảng viên PTDLKD 14


Bài giảng PTDLKD 15/10/2023

d) Tìm TSS, RSS, ESS và R-squared, rXY trong Ví dụ 4.2. Giải thích ý
nghĩa của R-squared

HOMEWORK
4.2 Rất nhiều nghiên cứu đã chỉ ra rằng Giá của căn hộ (Price) và Diện tích căn hộ
(Total_area) có sự phụ thuộc vào nhau.
a) Nếu phải sử dụng một mẫu khảo sát bạn sẽ kiểm chứng ý kiến trên bằng cách nào ? Nêu
rõ các bước thực hiện.
b) Viết mô hình hồi quy tuyến tính đơn biến, hàm hồi quy tuyến tính đơn biến mô tả sự phụ
thuộc này? Bạn hãy cho biết ε trong mô hình đại diện cho các biến giải thích khác nào
không được đưa vào mô hình ? Liệt kê ít nhất 4 biến giải thích khác không đưa vào mô
hình.
c) Với file “Ch4.xlsx”, sheet “Baitap4.2” bạn hãy kiểm chứng lại các bước thực hiện ở câu
a). Từ đó tìm hàm hồi quy mẫu và giải thích ý nghĩa các tham số tìm được
d) Tìm TSS, RSS, ESS và R-squared trong hàm hồi quy mẫu. Giải thích ý nghĩa của R-
squared
e) Nếu bạn chọn một giá trị bất kỳ của biến giải thích và biến đổi thành một giá trị khác thì
hàm hồi quy mẫu bạn tìm được có giống hàm hồi quy mẫu trong câu c) không ? Tại sao ?

Mr U_Giảng viên PTDLKD 15


Bài giảng PTDLKD 15/10/2023

4.2.2.3 Ước lượng và Kiểm định tham số


Ý tưởng. Hàm hồi quy mẫu với các hệ số 1; 2 tìm được có thể sử dụng
để ước lượng hoặc kiểm định các tham số β1 ; β2 của tổng thể.
Option 1. Ước lượng các tham số β1 ; β2

  
1  1  t n / 22 .se 1

     t .se    
2 2
n2
 /2 2

x 2

    2
    2
i
se 1  Var 1  i 1
. ;se 2  Var 2 
x  x 
n n 2 n 2

i
x i
x
i 1 i 1

y  = RSS
n
 yi
2

 i
2  2  i 1
n2 n2

Quay lại Ví dụ 4.2


d) Hãy ước lượng các tham số (β1, β2 ) với độ tin cậy 95%.
Để tìm khoảng ước lượng của tham số β2 ta cần biết 2 , t n/22 , se 2  
2  0.6; t n / 22  t df0,025
 58
 2,002

 
se 2  Var 2    2

128.138
 0.025
x 
n 2
197193.333
i
x
i 1

  = RSS  7432  128.138


n
y i  yi
2


 2  2  i 1
n2 n2 58


 2  2  t n/ 22 .se 2     0.549 ; 0.651

Mr U_Giảng viên PTDLKD 16


Bài giảng PTDLKD 15/10/2023

 n 2 
Để tìm khoảng ước lượng của tham số β1 ta cần biết 1 , t  / 2 , se 1  
  17;
1
t n 2  t 58  2.002
 /2 0,025

x 2

    2 2006800 128.138
i
se 1  Var 1  i 1
.  .  4.662
x 
n n 2 60 197193.333
i
x
i 1

     7.668
 1  1  t n /22 .se 1 ; 26.332 

Mr U_Giảng viên PTDLKD 17


Bài giảng PTDLKD 15/10/2023

Option 2. Kiểm định các tham số


Kiểm định hai bên Kiểm định bên trái Kiểm định bên phải

 H 0 : i  *i  H 0 : i  *i  H 0 : i  *i


  
 H1 : i  i  H1 : i  i  H1 : i  i
* * *

   
T0  i  *i / se i

1- 1- 1 -
1-
/2 /2  

 t n /22 t n /22  t n  2 t n  2

Bác bỏ H0 khi và chỉ Bác bỏ H0 khi và chỉ Bác bỏ H0 khi và chỉ



n  2 n 2
khi T0   t  /2 ; t  /2  khi T0   t n 2 khi T0  t n  2

Option 2. Kiểm định các tham số β1 ; β2 (tt)


Kiểm định hai bên Kiểm định bên trái Kiểm định bên phải

 H 0 : i  *i  H 0 : i  *i  H 0 : i  *i


  
 H1 : i  i  H1 : i  i  H1 : i  i
* * *

Bác bỏ H0 khi và chỉ Bác bỏ H0 khi và chỉ Bác bỏ H0 khi và chỉ


khi p_value < α khi p_value < α khi p_value < α

Lưu ý. Các phần mềm chỉ kiểm định tính có ý nghĩa của hệ số βi (βi = 0 )
không kiểm định các trường hợp khác

Mr U_Giảng viên PTDLKD 18


Bài giảng PTDLKD 15/10/2023

Dùng p_value (đọc thêm)


 H 0 : i  *i

 H1 : i  i
*

p _ value / 2  P(T  T0 ) p _ value / 2  P(T  T0 )

/2 /2

 t n /22 -T0 T0 t n /22

* Dùng p_value (đọc thêm)

 H 0 : i  *i
  p _ value  2* P(T  T0 )  2*  0, 5    T0  
H
 1 i :   *
i

Kết luận:
- Chấp nhận H0 : p_value > α
- Bác bỏ H0 : p_value < α
Lưu ý: Khi sử dụng bảng tra (Student hay Laplace hay…) thì p_value sẽ
phải tìm trên bảng tra đó

Mr U_Giảng viên PTDLKD 19


Bài giảng PTDLKD 15/10/2023

e) Có ý kiến cho rằng thu nhập không ảnh hưởng đến chi tiêu. Hãy kiểm
định ý kiến trên với mức ý nghĩa 5%.
H 0 : 2  0
Cách 1. Ứng với cặp giả thiết cần kiểm định là: 
 H1 : 2  0


Khoảng tin cậy cho tham số 2  0.549 ; 0.651
Ta thấy β2* = 0 không thuộc vào khoảng này. Bác bỏ H0, vậy hệ số β2
thực sự có ý nghĩa trong mô hình hồi quy
 H 0 : 2  0
Cách 2. Ứng với cặp giả thiết cần kiểm định là: 
 H1 : 2  0
2  *2 0.6  0
T0 


se( ) 0,025
 
 23.54  t n/22 ;t n/22   2.002; 2.002 
2

Bác bỏ H0, vậy hệ số β2 thực sự có ý nghĩa trong mô hình hồi quy

H 0 : 2  0
Cách 3. Ứng với cặp giả thiết cần kiểm định là: 
 H1 : 2  0
2  *2
T0   23.54
se( )
2

 p _ value  2 * P(T  23.54)  2 *  0,5  0,5   0    0,05


Bác bỏ H0, vậy hệ số β2 thực sự có ý nghĩa trong mô hình hồi quy
f) Có ý kiến khác cho rằng khi thu nhập tăng thêm một đồng thi chi tiêu
tăng thêm trung bình là 0.8. Bạn hãy kiểm chứng ý kiến trên với mức ý
nghĩa 5%.
H 0 : 2  0.8

 H1 : 2  0.8
  *2 0.6  0.8
T0  2   8

se(2 ) 0.025

Mr U_Giảng viên PTDLKD 20


Bài giảng PTDLKD 15/10/2023

4.2.2.4 Kiểm định sự phù hợp của mô hình (R2)


Ý tưởng. Hàm hồi quy mẫu tìm được là phù hợp khi và chỉ khi R-
squared có ý nghĩa (R-squared ≠ 0) .

H 0 :R  0 H 0 :2  0
2
Cặp giả thiết cần kiểm định:  
 H1:R  0  H1:2  0
2

ESS / (k  1) R2 nk
Bước 1. Tính giá trị kiểm định F   
RSS / ( n  k ) 1  R k  1
2

R2  n  2
F
1  R2
Lưu ý: Tra bảng Fisher tìm giá trị F;k 1;n k  F;1;n2
Bước 2. Bác bỏ H0 nếu F  F;1;n2

Quay lại Ví dụ 4.2 (tt)


f) Với độ tin cậy 95%, hãy kiểm định sự phù hợp của mô hình hồi quy
tìm được
H 0 :R  0
2

Cặp giả thiết cần kiểm định: 


 H1:R  0
2

Bước 1. Tính giá trị kiểm định và tìm giá trị tra bảng Fisher
R 2  n  2  0.9052   60  2 
F   554.01; F;1;n 2  F0,05;1,58  4.007
1  R2 1  0.9052

Bước 2. Vì F  F;1;n2 nên bác bỏ H0. Kết luận mô hình hồi quy phù
hợp với mô hình hồi quy tổng thể.
Lưu ý. Ta có thể sử dụng p_value trong các phần mềm của kiểm định F
với p_value < α thì bác bỏ H0

Mr U_Giảng viên PTDLKD 21


Bài giảng PTDLKD 15/10/2023

HOMEWORK
4.3 Với file “Ch4.xlsx”, sheet “Baitap4.2” trong Homework 4.2 bạn hãy
trả lời các câu hỏi sau:
a) Ước lượng các tham số của hàm hồi quy tổng thể với độ tin cậy 95%.
b) Kiểm định tính có ý nghĩa của các tham số với mức ý nghĩa 5%
c) Mô hình hồi quy mô tả sự phụ thuộc giữa Price và Total_area có phù
hợp không ở mức ý nghĩa 1%
d) Có ý kiến cho rằng để kiểm định sự phù hợp của mô hình trong câu
d) chỉ cần kiểm định xem hệ số đứng trước biến giải thích có hay
không ý nghĩa? Tại sao ?

Mr U_Giảng viên PTDLKD 22


Bài giảng PTDLKD 15/10/2023

4.2.2.4 Dự báo (Predict)


Ý tưởng. Dựa trên hàm hồi quy mẫu ta có thể sử dụng để dự báo giá trị
của biến phụ thuộc trên tổng thể với 03 dạng dự báo cụ thể sau:
- Dự báo điểm cho giá trị trung bình của biến phụ thuộc (Y)
- Dự báo khoảng cho giá trị trung bình của biến phụ thuộc (Y) với độ
tin cậy γ.
- Dự báo khoảng cho giá trị cụ thể của biến phụ thuộc (Y) với độ tin
cậy γ.
Lưu ý. Giá trị của biến giải thích X dùng để dự báo có thể là một giá trị
không thuộc các giá trị đã khảo sát trên mẫu

Option 1. Dự báo điểm cho giá trị trung bình của biến phụ thuộc (Y)
Nhận xét. Hàm hồi quy mẫu tìm được chính là giá trị dự báo điểm của
biến phụ thuộc Y, do đó ta chỉ cần X= xi vào hàm hồi quy mẫu là tìm
được giá trị dự báo điểm của Y
    X
Step 1. Tìm hàm hồi quy mẫu Y 1 2

Step 2. Tại X = xi thay vào hàm hồi quy mẫu ta tìm được giá trị dự báo
của (Y=yi)
X  x i  yi  1  2 x i  yi  yi

g) Với mức thu nhập là:


- 180 hãy dự báo mức chi tiêu trung bình của 1 hộ gia đình.
- 170 hãy dự báo mức chi tiêu trung bình của 1 hộ gia đình

Mr U_Giảng viên PTDLKD 23


Bài giảng PTDLKD 15/10/2023

  17  0.6X
Y
X  180  y180  y 180  17  0.6 180  125
X  170  y170  y 170  17  0.6 170  119

Mr U_Giảng viên PTDLKD 24


Bài giảng PTDLKD 15/10/2023

Option 2. Dự báo khoảng cho giá trị trung bình của biến phụ thuộc
(Y) với độ tin cậy γ
  
y i  yi  t n /22 .se yi
    X
Step 1. Tìm hàm hồi quy mẫu Y 1 2

Step 2. Tại X = xi thay vào hàm hồi quy mẫu ta tìm được giá trị dự báo
của (Y=yi)
X  x i  yi  1  2 x i
  = RSS
n
y i  yi
2

  
2
xi  x
 

Var yi   
1
 n SXX   
i i  
 . 2  se y  Var y ; 2  i 1
n2 n2
 
h) Với mức thu nhập là 180 hãy dự báo mức chi tiêu trung bình của 1 hộ
gia đình với độ tin cậy 95%.

Mr U_Giảng viên PTDLKD 25


Bài giảng PTDLKD 15/10/2023

Option 2. Dự báo khoảng cho giá trị cụ thể của biến phụ thuộc (Y)
với độ tin cậy γ
 
y i  yi  t n/22 .se y i  yi 
    X
Step 1. Tìm hàm hồi quy mẫu Y 1 2

Step 2. Tại X = xi thay vào hàm hồi quy mẫu ta tìm được giá trị dự báo
của (Y=yi)
X  x i  yi  1  2 x i


  
2
xi  x
 

Var y i  yi  1  
 n
1
SXX
  
 .2  se y  y  Var y  y
 i i i i 
 
 
n

2

 i i RSS
y  y
; 2  i1 =
n2 n2

k) Với mức thu nhập là 180 hãy dự báo mức chi tiêu cụ thể của 1 hộ gia
đình với độ tin cậy 95%.

Mr U_Giảng viên PTDLKD 26


Bài giảng PTDLKD 15/10/2023

HOMEWORK
4.4 Với file “Ch4.xlsx”, sheet “Baitap4.2” trong Homework 4.2 bạn hãy
trả lời các câu hỏi sau:
a) Dự báo điểm cho Price với Total_area lần lượt là 200; 100; và 350
(m2). Giải thích các giá trị này
b) Dự báo khoảng cho giá trị trung bình của Price với Total_area lần
lượt là 200; 100; và 350 (m2) với độ tin cậy 95% . Giải thích
c) Dự báo khoảng cho giá trị của Price với Total_area lần lượt là 200;
100; và 350 (m2) với độ tin cậy 95%. Giải thích
Yêu cầu chung:
- Chọn lựa một Total_area bất kỳ và tính bằng tay.
- Các giá trị Total_area khác tính bằng phần mềm Stata

4.2.3 Tỉ lệ và đơn vị đo lường


Ý tưởng. Trong nhiều trường hợp khi đơn vị đo lường của biến giải thích
hoặc biến phụ thuộc thay đổi sẽ dẫn đến giá trị của các hệ số βi thay đổi.
Do đó việc tìm ra các hệ số βi* mới sẽ đảm bảo việc giải thích ý nghĩa
chính xác hơn.
Y  1  2 X  
Option 1. Khi X thay đổi đơn vị đo lường từ X → X*
Step 1. Tìm mối liên hệ giữa X và X* theo công thức X* = k1X
Step 2. Biến đổi mô hình hồi quy như sau
k1   
Y  1  2 X    Y  1   *2  2  X*    Y  1  *2 X*  
k1  k1 

Mr U_Giảng viên PTDLKD 27


Bài giảng PTDLKD 15/10/2023

Option 2. Khi Y thay đổi đơn vị đo lường từ Y → Y*


Step 1. Tìm mối liên hệ giữa Y và Y* theo công thức Y* = k2Y
Step 2. Biến đổi mô hình hồi quy như sau
k 2 Y  k 21  k 22 X    Y*  *1  *2 X  
Option 3. Khi cả Y và X thay đổi đơn vị đo lường từ Y → Y* và X →
X*
Step 1. Tìm mối liên hệ giữa Y và Y* ; X và X* theo công thức
Y* = k2Y ; X* = k1X
Step 2. Biến đổi mô hình hồi quy như sau
k 22
k 2 Y  k 21  k1X    Y*  *1  *2 X*  
k1

Ví dụ 4.4 Hàm hồi quy tuyến tính của lượng cam (tấn/tháng) theo giá
  15, 245  1,345.X
cam (ngàn đồng/kg): Y
a) Nếu lượng cam tính theo đơn vị (kg/tuần) thì hàm hồi quy thay đổi
như thế nào ?
1 tấn/tháng= 250 kg/tuần  k1= 250
b) Nếu giá cam tính theo đơn vị (triệu đồng/tấn) thì hàm hồi quy thay đổi
như thế nào ?
1 ngàn đồng/kg=1 trđồng/tấn  k2=1
c) Nếu lượng cam tính theo đơn vị (tấn/năm) và giá cam tính theo đơn vị
(triệu đồng/tấn) thì hàm hồi quy thay đổi như thế nào
1 tấn/tháng=12 tấn/ năm k1=12
1 ngàn đồng/kg=1 trđồng/tấn  k2=1

Mr U_Giảng viên PTDLKD 28


Bài giảng PTDLKD 15/10/2023

HOMEWORK
4.5 Với file “Ch4.xlsx”, sheet “Baitap4.2” trong Homework 4.2 bạn hãy trả lời
các câu hỏi sau:
a) Nếu đơn vị đo lường của Total_area (m2) được đổi thành đơn vị là (cm2) thì
hệ số đứng trước Total_area sẽ thay đổi như thế nào. Giải thích ý nghĩa hệ
số này
b) Nếu Price (triệu đồng) được đổi thành đơn vị là (tỉ đồng) thì hệ số đứng
trước Total_area sẽ thay đổi như thế nào. Giải thích ý nghĩa hệ số này.
c) Nếu đơn vị đo lường của Total_area (m2) được đổi thành đơn vị là (cm2) và
Price (triệu đồng) được đổi thành đơn vị là (tỉ đồng) thì hệ số đứng trước
Total_area sẽ thay đổi như thế nào. Giải thích ý nghĩa hệ số này.

4.3 Hồi quy tuyến tính đa biến


4.3.1 Khái niệm
4.3.2 Phương pháp bình phương tối thiểu (OLS)
4.3.2.1 Đo lường mức độ phù hợp
4.3.2.2 Ước lượng và Kiểm định các tham số
4.3.2.3 Kiểm định sự phù hợp của mô hình
4.3.2.4 Kiểm định hồi quy đa biến có điều kiện (Wald-test)
4.3.3 Tỉ lệ và đơn vị đo lường (Xem lại 4.2.3)
4.3.4 Các dạng hàm hồi quy tuyến tính đa biến

Mr U_Giảng viên PTDLKD 29


Bài giảng PTDLKD 15/10/2023

4.3.1 Khái niệm


Hồi quy tuyến tính đa biến là phân tích sự phụ thuộc giữa một biến phụ
thuộc (Y) và ít nhất 02 biến giải thích Xi (i= 2, 3,….k).
Mô hình hồi quy tuyến tính đa biến là mô hình cho thấy Y ngoài phụ
thuộc vào X2 , …,Xk còn phụ thuộc vào các yếu tố khác (ε)

Y  1  2 X 2  ...  k X k    f (X 2 ,..., X k )  

f (X 2 ,...,X k )

Hàm hồi quy tuyến tính đa biến là hàm hồi quy cho biết Y phụ thuộc
vào X2 , …,Xk , kí hiệu là f(X2 , …,Xk).
ε là sai số ngẫu nhiên, phản ánh sự phụ thuộc của Y vào các biến khác.

Ví dụ 4.5 Với chủ đề nghiên cứu “Các yếu tố ảnh hưởng đến giá căn hộ
(Price)” thì các yếu tố sau đây có thể ảnh hưởng đến Price gồm:
- Diện tích căn hộ (SQFT)
- Số phòng ngủ (BEDRMS)
- Số phòng tắm (BATHS)
Y = f (SQFT, BEDRMS, BATHS) + ε
Tìm f (SQFT, BEDRMS, BATHS)
Xem sheet “Vidu4.5” trong file “Ch4.xlsx”
Lưu ý. Nếu ta thu thập dữ liệu của Y và SQFT, BEDRMS, BATHS trên
một mẫu khảo sát thì hàm hồi quy tuyến tính đa biến tìm được đgl hàm
hồi quy tuyến tính đơn biến trên mẫu (hàm hồi quy mẫu), kí hiệu là
      SQFT    BEDRMS    BATHS
Y 1 2 3 4

Mr U_Giảng viên PTDLKD 30


Bài giảng PTDLKD 15/10/2023

Lưu ý. Nếu ta thu thập dữ liệu của Y và SQFT, BEDRMS, BATHS trên
một mẫu khảo sát thì hàm hồi quy tuyến tính đa biến tìm được đgl hàm
hồi quy tuyến tính đa biến trên mẫu (hàm hồi quy mẫu), kí hiệu là
      SQFT    BEDRMS    BATHS
Y 1 2 3 4

Trong đó
 là hàm hồi quy mẫu, cũng có thể gọi là giá trị dự đoán của biến phụ
- Y
thuộc Y.
- 1 , 2 , 3 , 4 lần lượt là tung độ gốc và hệ số góc của hàm hồi quy
mẫu đứng trước các biến giải thích SQFT, BEDRMS, BATHS .

4.3.2 Phương pháp Bình phương tối thiểu (OLS)


Ý tưởng. Về cơ bản phương pháp OLS áp dụng trên hàm hồi quy đa
biến vẫn có ý tưởng giống phương pháp OLS dành cho hàm hồi quy đơn
biến, nghĩa là do ε sẽ tạo ra các giá trị sai lệch +, - nên để tránh hiện
tượng các sai lệch này triệt tiêu nhau thay vì để ε nhỏ nhất thì trong tính
toán ta sẽ thay thế bằng
 2   Y  f (X 2 , X 3 ,..., X k )    Y  1  2 X 2  ...  k X k   min
2 2

n n

    Yi  f (X 2  x 2i , X 3  x 3i ,..., X k  x ki )   min  i  1,..., n 


2 2
i
i 1 i 1 .
Đây là một hàm số theo k- 1 biến X2 , …,Xk , kí hiệu là f(X2 , …,Xk)

Mr U_Giảng viên PTDLKD 31


Bài giảng PTDLKD 15/10/2023

Step 1. Thu thập dữ liệu trên mẫu khảo sát (n) giá trị của Y; X2 , …,Xk
Step 2. Lấy đạo hàm riêng phần của hàm số

 Y  ˆ  ˆ X 
2
1 2 2  ...  ˆ k X k  min
theo các tham số ˆ ,  j  1, k 
j

   0;
 j
( j  1,..., k) (4.1)
j

Step 3. Giải hệ phương trình (4.1) ta sẽ tìm được các ˆ j , j  1, k  


(Tham khảo các bước giải hệ phương trình 4.1 trong Giáo trình Kinh tế lượng

Quay lại Ví dụ 4.5 thực hiện các yêu cầu sau:


a) Tìm hàm hồi quy đa biến mẫu. Từ đó giải thích ý nghĩa các hệ số
đứng trước các biến giải thích. Bạn có nhận xét gì về dấu các hệ số
này ?
b) Tìm R-squared và cho biết R-squared có ý nghĩa hay không ? Với
mức ý nghĩa 5%. Giải thích ý nghĩa của R-squared.
c) Theo bạn R-squared có được dùng để đo lường sự phù hợp của mô
hình hồi quy đa biến như hồi quy đơn biến không ? Vì sao ?

Mr U_Giảng viên PTDLKD 32


Bài giảng PTDLKD 15/10/2023

. reg price sqft bedrms baths

Source SS df MS Number of obs = 14


F(3, 10) = 16.99
Model 85114.942 3 28371.6473 Prob > F = 0.0003
Residual 16700.0687 10 1670.00687 R-squared = 0.8360
Adj R-squared = 0.7868
Total 101815.011 13 7831.9239 Root MSE = 40.866

price Coef. Std. Err. t P>|t| [95% Conf. Interval]

sqft .1547999 .0319404 4.85 0.001 .0836321 .2259676


bedrms -21.58752 27.02933 -0.80 0.443 -81.81261 38.63758
baths -12.19276 43.25 -0.28 0.784 -108.5598 84.17425
_cons 129.0616 88.30326 1.46 0.175 -67.6903 325.8136

  129.062  0.155  SQFT  21.588  BEDRMS  12.193  BATHS


Y

4.3.2.2 Đo lường mức độ phù hợp

   
n n
ESS 
2 2
R 
2
; ESS   Yi  Y ;TSS   Yi  Y
TSS i 1 i 1

Nhận xét. Khi thêm biến giải thích vào mô hình thì ESS tăng nhưng TSS
không đổi dẫn đến R2 tăng, đặc biệt khi số lượng biến giải thích thêm vào
nhiều (có những biến không có ý nghĩa) sẽ dẫn đến mô hình hồi quy đa
biến bị “loãng”
Kết luận. Khác với hồi quy đơn biến, hồi quy đa biến không thể sử dụng
R2 để đo lường mức độ phù hợp của mô hình mà chỉ có thể sử dụng để
giải thích % sự thay đổi của Y khi mô hình được chọn đã phù hợp (đã
kiểm định sự phù hợp)
Quay lại Ví dụ 4.5 ta có một số hàm hồi quy mẫu như sau

Mr U_Giảng viên PTDLKD 33


Bài giảng PTDLKD 15/10/2023

Hệ số đo lường (xác định) điều chỉnh – Adjust R-squared

n 1 RSS /  n  k 
R 2  1  1  R 2   1
nk TSS /  n  1
Nhận xét:
• Khi thêm biến giải thích vào mô hình thì k (số tham số cần ước lượng)
tăng
• TSS và (n – 1) không bị ảnh hưởng bởi k
• (n – k) giảm
• Khi thêm biến có ý nghĩa vào mô hình thì RSS (sai số) giảm
• Khi thêm biến không có ý nghĩa vào mô hình thì RSS (sai số) không
giảm hoặc giảm ít

Mr U_Giảng viên PTDLKD 34


Bài giảng PTDLKD 15/10/2023

• Vậy khi thêm biến vào mô hình, nếu biến này có ý nghĩa thì Adjust
R-squared tăng, ngược lại Adjust R-squared không tăng. Do đó ta
chỉ thêm biến vào mô hình khi nào Adjust R-squared còn tăng.
• Adjust R-squared < R-squared
• Nếu R-squared đủ nhỏ thì Adjust R-squared có thể mang giá trị âm
Kết luận.
Trong hồi quy đa biến hệ số Adjust R-squared được sử dụng để đo
lường sự phù hợp của mô hình, còn R-squared được dùng để giải thích %
sự thay đổi của Y theo các biến giải thích khi đã chọn lựa được mô hình
phù hợp (kiểm định sự phù hợp).

Quay lại Ví dụ 4.5, mô hình phù hợp là mô hình sau

Mr U_Giảng viên PTDLKD 35


Bài giảng PTDLKD 15/10/2023

4.3.2.2 Ước lượng và Kiểm định các tham số


Option 1. Ước lượng các tham số


i  i  t n/2k .se i  
Quay lại Ví dụ 4.5, hãy ước lượng các tham số
. reg price sqft bedrms baths

Source SS df MS Number of obs = 14


F(3, 10) = 16.99
Model 85114.942 3 28371.6473 Prob > F = 0.0003
Residual 16700.0687 10 1670.00687 R-squared = 0.8360
Adj R-squared = 0.7868
Total 101815.011 13 7831.9239 Root MSE = 40.866

price Coef. Std. Err. t P>|t| [95% Conf. Interval]

sqft .1547999 .0319404 4.85 0.001 .0836321 .2259676


bedrms -21.58752 27.02933 -0.80 0.443 -81.81261 38.63758
baths -12.19276 43.25 -0.28 0.784 -108.5598 84.17425
_cons 129.0616 88.30326 1.46 0.175 -67.6903 325.8136

Option 2. Kiểm định các tham số


Kiểm định hai bên Kiểm định bên trái Kiểm định bên phải

 H 0 : i  *i  H 0 : i  *i  H 0 : i  *i


  
 H1 : i  i  H1 : i  i  H1 : i  i
* * *

   
T0  i  *i / se i

1- 1- 1 -
1-
/2 /2  

 t n /22 t n /22  t n  2 t n  2

Bác bỏ H0 khi và chỉ Bác bỏ H0 khi và chỉ Bác bỏ H0 khi và chỉ



n  2 n 2
khi T0   t  /2 ; t  /2  n 2
khi T0   t 
n 2
khi T0  t 

Mr U_Giảng viên PTDLKD 36


Bài giảng PTDLKD 15/10/2023

Option 2. Kiểm định các tham số (tt)


Kiểm định hai bên Kiểm định bên trái Kiểm định bên phải

 H 0 : i  *i  H 0 : i  *i  H 0 : i  *i


  
 H1 : i  i  H1 : i  i  H1 : i  i
* * *

Bác bỏ H0 khi và chỉ Bác bỏ H0 khi và chỉ Bác bỏ H0 khi và chỉ


khi p_value < α khi p_value < α khi p_value < α

Lưu ý. Các phần mềm chỉ kiểm định tính có ý nghĩa của hệ số βi (βi = 0 )
không kiểm định các trường hợp khác

Quay lại Ví dụ 4.5 Hãy kiểm định tính có ý nghĩa của các tham số, với
mức ý nghĩa 5%.
. reg price sqft bedrms baths

Source SS df MS Number of obs = 14


F(3, 10) = 16.99
Model 85114.942 3 28371.6473 Prob > F = 0.0003
Residual 16700.0687 10 1670.00687 R-squared = 0.8360
Adj R-squared = 0.7868
Total 101815.011 13 7831.9239 Root MSE = 40.866

price Coef. Std. Err. t P>|t| [95% Conf. Interval]

sqft .1547999 .0319404 4.85 0.001 .0836321 .2259676


bedrms -21.58752 27.02933 -0.80 0.443 -81.81261 38.63758
baths -12.19276 43.25 -0.28 0.784 -108.5598 84.17425
_cons 129.0616 88.30326 1.46 0.175 -67.6903 325.8136

Mr U_Giảng viên PTDLKD 37


Bài giảng PTDLKD 15/10/2023

4.3.2.3 Kiểm định sự phù hợp của mô hình (R-squared)


Ý tưởng. Khi mô hình hồi quy đa biến được chọn đã phù hợp qua Adjust
R-squared thì ta mới sử dụng R-squared trong mô hình được chọn để
kiểm định sự phù hợp của mô hình.

H 0 :R 2  0 H0 :1  2  ...  k  0


Cặp giả thiết cần kiểm định: 
H :R 0  H1 :i  0
2
 1 
ESS/  k  1
Bước 1. Tính giá trị kiểm định F0 
RSS /  n  k 
Lưu ý: Tra bảng Fisher tìm giá trị F;k 1;n  k
Bước 2. Bác bỏ H0 nếu F0  F;k 1;n  k

Quay lại Ví dụ 4.5 Có ý kiến cho rằng Giá căn hộ (Price) không phụ
thuộc vào Diện tích căn hộ (SQFT), Số phòng ngủ (BEDRMS) và Số
phòng tắm (BATHS). Hãy kiểm định ý kiến này với mức ý nghĩa 5%.
 H 0 :R 2  0 H0 :1  2  ...  k  0
Cặp giả thiết cần kiểm định:  
 H1:R  0  H1 :i  0
2

. reg price sqft bedrms baths

Source SS df MS Number of obs = 14


F(3, 10) = 16.99
Model 85114.942 3 28371.6473 Prob > F = 0.0003
Residual 16700.0687 10 1670.00687 R-squared = 0.8360
Adj R-squared = 0.7868
Total 101815.011 13 7831.9239 Root MSE = 40.866

price Coef. Std. Err. t P>|t| [95% Conf. Interval]

sqft .1547999 .0319404 4.85 0.001 .0836321 .2259676


bedrms -21.58752 27.02933 -0.80 0.443 -81.81261 38.63758
baths -12.19276 43.25 -0.28 0.784 -108.5598 84.17425
_cons 129.0616 88.30326 1.46 0.175 -67.6903 325.8136

Mr U_Giảng viên PTDLKD 38


Bài giảng PTDLKD 15/10/2023

4.3.2.4 Kiểm định hồi quy có điều kiện (Wald - test)


Ý tưởng. Với hồi quy đa biến việc loại đồng thời các biến giải thích
khỏi mô hình là một việc khá quan trọng để chọn lựa được mô hình tốt
nhất.

* Mô hình (1) gồm k biến giải thích

Y  1  2 X 2  3X 3  ...  k X k   (1)

* Mô hình (2) gồm (k-m) biến giải thích

Y  1  2 X 2  3X 3  ...  k m X k m   (2)

Nhận xét. Mô hình (2) có được từ mô hình (1) bằng cách bỏ bớt m biến.
Vậy mô hình nào sẽ tốt hơn?

Bước 1: Xây dựng cặp giả thiết cần kiểm định


 H0 :k  k1  ...  km  0

H1:k i  0  i  1,...,m 
Bước 2: Tính giá trị kiểm định

F 
 RSS   RSS   . n  k   R    R    . n  k
2 1
2
1
2
2

1  R    m
0
RSS  1
m 2
1

Lưu ý: Tra bảng Fisher tìm giá trị Fα; m; n-k


Bước 3: Bác bỏ H0 nếu F0  F;m;n  k

Mr U_Giảng viên PTDLKD 39


Bài giảng PTDLKD 15/10/2023

Quay lại Ví dụ 4.5 Theo bạn khi phân tích các yếu tố ảnh hưởng đến giá
căn hộ (Price) thì trong 2 mô hình sau, mô hình nào phù hợp ?
Model 1. Price = f(SQFT, BEDRMS, BATHS) + ε
Model 2. Price = f(SQFT) + ε
Nhận xét. Nếu chọn lựa model 2 đồng nghĩa với việc ta muốn loại bỏ
đồng thời 2 biến BERDMS, BATSHS ra khỏi model. Đây là kiểm định
hồi quy có điều kiện (Wald –test)

. reg price sqft bedrms baths

Source SS df MS Number of obs = 14


F(3, 10) = 16.99
Model 85114.942 3 28371.6473 Prob > F = 0.0003
Residual 16700.0687 10 1670.00687 R-squared = 0.8360
Adj R-squared = 0.7868
Total 101815.011 13 7831.9239 Root MSE = 40.866

price Coef. Std. Err. t P>|t| [95% Conf. Interval]

sqft .1547999 .0319404 4.85 0.001 .0836321 .2259676


bedrms -21.58752 27.02933 -0.80 0.443 -81.81261 38.63758
baths -12.19276 43.25 -0.28 0.784 -108.5598 84.17425
_cons 129.0616 88.30326 1.46 0.175 -67.6903 325.8136

. test bedrms baths

( 1) bedrms = 0
( 2) baths = 0

F( 2, 10) = 0.47
Prob > F = 0.6375

Mr U_Giảng viên PTDLKD 40


Bài giảng PTDLKD 15/10/2023

HOMEWORK
4.5 Với file “Ch4.xlsx”, sheet “Baitap4.5” với mô hình hồi quy đa biến
Price = f(Total_area, Duration, No_of_bedroom, No_of_bathroom
,Travel_time, Distance, Popu_density ) + ε
a) Hãy tìm hàm hồi quy mẫu.
b) Ước lượng các tham số với độ tin cậy 95%
c) Kiểm định tính có ý nghĩa của các tham số với mức ý nghĩa 5%.
d) Sử dụng Adjust R-squared để chọn lựa được mô hình phù hợp. Giải thích
R-squared với mô hình đã được chọn lựa phù hợp.
e) Sự khác biệt giữa R-squared và Adjust R-squared là gì trong hồi quy đa
biến.
f) Kiểm định Wald – test là gì ? Hãy sử dụng kiểm định Wald –test để chọn
lựa mô hình tốt nhất với mức ý nghĩa 5%.

4.4 Hồi quy tuyến tính đa biến với biến giả


Ý tưởng. Trong thực tế rất nhiều mô hình hồi quy xuất hiện các biến
định tính đóng vai trò là biến giải thích hoặc biến phụ thuộc. Do
categorical vars chỉ đơn thuần là các tính chất nên cần phải được convert
thành number.
4.4.1 Khái niệm
4.4.2 Biến giả là biến giải thích
4.4.3 Các dạng hàm hồi quy tuyến tính đa biến
4.5 Biến giả là biến phụ thuộc (Mô hình ra quyết định - Mô hình
Logit)

Mr U_Giảng viên PTDLKD 41


Bài giảng PTDLKD 15/10/2023

4.4.1 Khái niệm


Biến giả (Dummy variable) là biến được sử dụng trong mô hình hồi
quy để lượng hóa các biến định tính (categorical varibales) thành các
con số.
Quy tắc lượng hóa biến định tính
Một biến định tính gồm k tính chất sẽ được lượng hóa (code) thành k – 1
biến giả
Lưu ý. Biến giả sẽ có giá trị là số tự nhiên tượng trưng cho k – 1 tính
chất của biến định tính
Ví dụ 4.6 Xem sheet Vidu4.6 trong file Ch4.xlsx
a) Xác định Categorical variables
b) Chuyển đổi các Categorical variables thành Dummy variables

Sample WAGE AGE EDUC EXPER SEX MARRIED

1 3942 33 17 8 MALE YES

2 2700 32 10 11 FEMALE YES

3 2765 37 12 18 FEMALE YES

4 2789 30 12 9 FEMALE YES

5 2825 29 12 11 FEMALE YES

… … … … … … …

Sample WAGE AGE EDUC EXPER SEX MARRIED MALE YES


1 3942 33 17 8 MALE YES 1 1
2 2700 32 10 11 FEMALE YES 0 1
3 2765 37 12 18 FEMALE YES 0 1
4 2789 30 12 9 FEMALE YES 0 1
5 2825 29 12 11 FEMALE YES 0 1

Mr U_Giảng viên PTDLKD 42


Bài giảng PTDLKD 15/10/2023

Ví dụ 4.6 Xem sheet Vidu4.6 trong file Ch4.xlsx


c) Có ý kiến cho rằng có sự bất bình đẳng về tiền lương giữa nhân viên
Nam và Nữ. Mô hình đề xuất như sau
Wage = f(Sex) + ε
- Do biến Sex là categorical variable, bạn hãy chuyển biến Sex thành
biến Dummy variables.
- Bạn hãy cho biết bất bình đẳng về lương có xảy ra giữa Nam và Nữ
không? Với mức nghĩa 5%.
- Giải thích ý nghĩa của các hệ số trong hàm hồi quy f (SEX).

Mr U_Giảng viên PTDLKD 43


Bài giảng PTDLKD 15/10/2023

. reg wage male

Source SS df MS Number of obs = 935


F(1, 933) = 1190.45
Model 85615718.9 1 85615718.9 Prob > F = 0.0000
Residual 67100449.3 933 71919.0239 R-squared = 0.5606
Adj R-squared = 0.5601
Total 152716168 934 163507.675 Root MSE = 268.18

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

male 611.6115 17.72641 34.50 0.000 576.8233 646.3998


_cons 3196.293 11.59431 275.68 0.000 3173.54 3219.047

  3196.293  611.611  MALE


Wage

Mr U_Giảng viên PTDLKD 44


Bài giảng PTDLKD 15/10/2023

HOMEWORK
4.6 Với sheet Vidu4.6 trong Ch4.xlsx , ta có mô hình
Wage = f(Sex) + ε
a) Do biến Sex là categorical variable, bạn hãy chuyển biến Sex thành
biến Dummy variables. Bạn hãy cho biết có bao nhiêu biến Dummy
variable được tạo ra ? Vì sao?
b) Nếu biến Dummy variable được tạo ra là Female. Tìm mối liên hệ
giữa các hệ số giữa hai mô hình Wage = f(Male) + ε và Wage =
f(Female) + ε.
c) Giải thích ý nghĩa của các hệ số trong hàm hồi quy f(Female)

Ví dụ 4.6 (tt) Số năm đi học (EDU) cũng là một yếu tố quan trọng ảnh
hưởng đến tiền lương. Mô hình được mở rộng như sau
Wage = f(Male, EDU) + ε
- Mô hình này có phù hợp không ? Với mức ý nghĩa 5%
- Các hệ số trong hàm hồi quy tuyến tính f(SEX, EDU) có ý nghĩa
không ? Giải thích ý nghĩa các hệ số này.
- Có một số ý kiến bổ sung thêm rằng một người có giới tính là
Nam nếu cứ đi học thêm 1 năm thì mức lương trung bình tăng
lên sẽ khác biệt so với một người là Nữ đi học thêm 1 năm. Mô
hình họ đề xuất như sau
Wage = f(Male, EDU, Male*EDU) + ε

Mr U_Giảng viên PTDLKD 45


Bài giảng PTDLKD 15/10/2023

. reg wage edu male

Source SS df MS Number of obs = 935


F(2, 932) = 659.46
Model 89483642.9 2 44741821.5 Prob > F = 0.0000
Residual 63232525.3 932 67846.0572 R-squared = 0.5859
Adj R-squared = 0.5851
Total 152716168 934 163507.675 Root MSE = 260.47

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

edu 30.10292 3.986869 7.55 0.000 22.27864 37.9272


male 580.8848 17.69155 32.83 0.000 546.1649 615.6047
_cons 2803.999 53.16238 52.74 0.000 2699.667 2908.331

• Biến tương tác là sự kết hợp giữa một biến Categorical Variable và
một biến Numerical Variable

. gen edu_male= male*edu

. reg wage edu male edu_male

Source SS df MS Number of obs = 935


F(3, 931) = 455.08
Model 90798076 3 30266025.3 Prob > F = 0.0000
Residual 61918092.2 931 66507.0808 R-squared = 0.5946
Adj R-squared = 0.5932
Total 152716168 934 163507.675 Root MSE = 257.89

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

edu 14.02481 5.353612 2.62 0.009 3.518265 24.53136


male 102.2072 109.0887 0.94 0.349 -111.881 316.2954
edu_male 35.23137 7.924908 4.45 0.000 19.67862 50.78413
_cons 3013.525 70.65237 42.65 0.000 2874.869 3152.182

Mr U_Giảng viên PTDLKD 46


Bài giảng PTDLKD 15/10/2023

HOMEWORK
4.7 Với sheet Vidu4.6 trong Ch4.xlsx , ta có mô hình
Wage = f(EXPER, SEX, EXPER*SEX) + ε
a) Kiểm định sự phù hợp của mô hình với mức ý nghĩa 5%
b) Giải thích ý nghĩa các hệ số trong hàm hồi quy tuyến tính
c) Với mô hình mở rộng như sau:
Wage = f(AGE, EDU, EXPER, SEX, MARRIED) + ε
c1. Kiểm định sự phù hợp của mô hình với mức ý nghĩa 5%
c2. Sử dụng kiểm định Wald test, bạn có thể loại bỏ được các biến nào với mức ý
nghĩa 5% ?
c3. Với mô hình có được sau kiểm định Wald test trong câu c2. hãy giải thích ý
nghĩa các hệ số trong hàm hồi quy tuyến tính tìm được.

4.4.3 Các dạng hàm hồi quy đa biến thường gặp


Ý tưởng. Trong thực tế dạng hàm hồi quy ở các chủ đề nghiên cứu có
thể thay đổi với biến giải thích X ở dạng log(X) hoặc biến phụ thuộc Y ở
dạng log(Y) để các biến X, Y thuận lợi trong giả định tuân theo phân
phối chuẩn – là một giả định bắt buộc khi sử dụng phương pháp bình
phương tối thiểu (OLS)
Lưu ý. Các dạng biến X hoặc Y ở các dạng biến đổi chỉ áp dụng với biến
định lượng (numerical variable)

Mr U_Giảng viên PTDLKD 47


Bài giảng PTDLKD 15/10/2023

Mô hình Dạng hàm Diễn giải


1. Tuyến tính Y = α + βX+ ε Khi X thay đổi 1 đơn vị thì Y thay
đổi trung bình β đơn vị
2. Log – Lin Ln(Y) = α + βX+ ε Khi X thay đổi 1 đơn vị thì Y thay
đổi (β*100) %
3. Lin – Log Y= α + βln(X)+ ε Khi X thay đổi 1% thì Y thay đổi
(β/100) đơn vị
4. Log – Log lnY = α + βln(X) + ε Khi X thay đổi 1% thì Y thay đổi
(β) %

Ví dụ 4.6 (tt) Xem sheet Vidu4.6 trong file Ch4.xlsx


Để tìm ra mô hình phù hợp, một số dạng mô hình sau được đề xuất
(1) Wage = f(AGE, EDU, EXPER) + ε
(2) Ln(Wage) = f(AGE, EDU, EXPER) + ε
(3) Wage = f(ln(AGE), ln(EDU), ln(EXPER)) + ε
(4) ln(Wage) = f(ln(AGE), ln(EDU), ln(EXPER)) + ε

Mr U_Giảng viên PTDLKD 48


Bài giảng PTDLKD 15/10/2023

. gen ln_wage=log( wage)

. gen ln_age=log(age)

. gen ln_edu=log(edu)

. gen ln_exper=log( exper)

. reg wage age edu exper

Source SS df MS Number of obs = 935


F(3, 931) = 51.50
Model 21737956.1 3 7245985.36 Prob > F = 0.0000
Residual 130978212 931 140685.512 R-squared = 0.1423
Adj R-squared = 0.1396
Total 152716168 934 163507.675 Root MSE = 375.08

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

age 12.55229 4.729612 2.65 0.008 3.270354 21.83423


edu 71.43399 6.529846 10.94 0.000 58.61907 84.24891
exper 12.12668 3.77418 3.21 0.001 4.719789 19.53356
_cons 1940.379 152.0949 12.76 0.000 1641.891 2238.868

. reg ln_wage wage age edu exper

Source SS df MS Number of obs = 935


F(4, 930) = 27970.76
Model 11.5378172 4 2.88445431 Prob > F = 0.0000
Residual .09590523 930 .000103124 R-squared = 0.9918
Adj R-squared = 0.9917
Total 11.6337225 934 .012455806 Root MSE = .01015

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

wage .0002742 8.87e-07 309.07 0.000 .0002725 .000276


age 3.39e-06 .0001285 0.03 0.979 -.0002489 .0002556
edu .000338 .0001878 1.80 0.072 -.0000306 .0007065
exper .0002129 .0001027 2.07 0.039 .0000112 .0004145
_cons 7.186574 .0044633 1610.15 0.000 7.177815 7.195334

Mr U_Giảng viên PTDLKD 49


Bài giảng PTDLKD 15/10/2023

. reg wage ln_age ln_edu ln_exper

Source SS df MS Number of obs = 935


F(3, 931) = 51.48
Model 21729082.5 3 7243027.51 Prob > F = 0.0000
Residual 130987086 931 140695.044 R-squared = 0.1423
Adj R-squared = 0.1395
Total 152716168 934 163507.675 Root MSE = 375.09

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

ln_age 541.745 142.6729 3.80 0.000 261.7472 821.7428


ln_edu 942.8253 84.58724 11.15 0.000 776.8216 1108.829
ln_exper 90.67396 30.38493 2.98 0.003 31.04307 150.3048
_cons -1088.331 504.0715 -2.16 0.031 -2077.579 -99.08274

. reg ln_wage ln_age ln_edu ln_exper

Source SS df MS Number of obs = 935


F(3, 931) = 52.62
Model 1.68656141 3 .562187135 Prob > F = 0.0000
Residual 9.94716106 931 .010684384 R-squared = 0.1450
Adj R-squared = 0.1422
Total 11.6337225 934 .012455806 Root MSE = .10337

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

ln_age .1509647 .0393167 3.84 0.000 .0738051 .2281243


ln_edu .2625484 .0233099 11.26 0.000 .2168024 .3082944
ln_exper .0262779 .0083732 3.14 0.002 .0098453 .0427105
_cons 6.873242 .1389081 49.48 0.000 6.600632 7.145851

Mr U_Giảng viên PTDLKD 50


Bài giảng PTDLKD 15/10/2023

. reg ln_wage age ln_edu ln_exper

Source SS df MS Number of obs = 935


F(3, 931) = 52.63
Model 1.6868893 3 .562296432 Prob > F = 0.0000
Residual 9.94683317 931 .010684031 R-squared = 0.1450
Adj R-squared = 0.1422
Total 11.6337225 934 .012455806 Root MSE = .10336

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

age .0045691 .0011887 3.84 0.000 .0022363 .006902


ln_edu .2628715 .0232969 11.28 0.000 .2171511 .3085919
ln_exper .0262865 .0083708 3.14 0.002 .0098587 .0427143
_cons 7.248787 .0725354 99.93 0.000 7.106436 7.391139

HOMEWORK
4.8 Với sheet Baitap4.8 trong Ch4.xlsx , ta có 02 mô hình được đề xuất như sau
Price = f(Total_area, Duration, No_of_bedroom, No_of_bathroom ,Travel_time,
Distance, Popu_density ) + ε (1)
Ln_Price = f(Ln_Total_area, Duration, No_of_bedroom, No_of_bathroom
,Travel_time, Ln _Distance, Ln_Popu_density ) + ε (2)
a) Tìm hàm hồi quy mẫu trong model (1) và (2) . Giải thích ý nghĩa các hệ số trong
model (2)
b) Model nào có dạng hàm phù hợp hơn ? Vì sao

Mr U_Giảng viên PTDLKD 51


Bài giảng PTDLKD 15/10/2023

4.5 Mô hình Logit (Mô hình ra quyết định)


Problem: Trong thực tế có thể gặp phải trường hợp mô hình hồi quy là
mô hình có biến phụ thuộc là biến định tính, chẳng hạn như:
- Những yếu tố ảnh hưởng đến việc ra quyết định mua hay không mua
một sản phẩm ?
- Những yếu tố ảnh hưởng đến việc ra quyết định mua hay không mua
cổ phiếu A?

4.5.1 Khái niệm


Là mô hình mà chúng ta phải trả lời câu hỏi “có hay không” dựa trên
những cân nhắc được/mất của việc ra quyết định, cụ thể đó là xác suất
xảy ra khả năng “Có” và xác suất xảy ra khả năng “Không” dựa trên
những yếu tố có thể ảnh hưởng đến việc ra quyết định.
Notes:
- Mô hình ra quyết định là mô hình mà biến phụ thuộc là biến định tính
- Biến phụ thuộc (Y) nếu chỉ nhận 02 tính chất thì mô hình được gọi là mô hình nhị
nguyên (Model Probit, Model Logit)
- Biến phụ thuộc (Y) nếu có từ 03 tính chất trở lên thì mô hình được gọi là mô hình
thứ bậc (Model Order Probit, Model Order Logit) (tự đọc)

Mr U_Giảng viên PTDLKD 52


Bài giảng PTDLKD 15/10/2023

Ví dụ 4.7 Những yếu tố ảnh hưởng đến quyết định mua hay không một
căn hộ:
- Những yếu tố tác động đến giá căn hộ ?
- Với những yếu tố (biến giải thích) tác động đến quyết định của chúng
ta là mua/không mua căn hộ thì xác suất “mua” là bao nhiêu và
“không mua” la bao nhiêu?
Giả sử Y= 1 tương ứng với quyết định là “mua” và ngược lại, ta có mô
hình đề xuất sẽ có dạng sau
1 2 X2 3X3 ...k X k
e e X
p  Pr ob(Y  1/ X2 ,X3 ,..., X k )   2 X2 3X3 ... k X k

1 e 1 1  e X

4.5.2 Model Logit


 2 X2 3X3 ...k X k
e1 e X
p  Pr ob(Y  1/ X2 , X3 ,..., X k )  1 2 X2 3X3 ...k X k

1 e 1  e X
1
 1 p 
1  e X
p 1  eZ
 Odds    e X ;  Z  X 
1  p 1  e Z
 p 
 Ln    Z  1  2 X2  3 X3  ...   k X k  Model Logit
 1 p 

Mr U_Giảng viên PTDLKD 53


Bài giảng PTDLKD 15/10/2023

Ví dụ 4.8 Những yếu tố ảnh hưởng đến trọng lượng của trẻ sơ sinh bị
suy dinh dưỡng (birthweight<2500gram) được thể hiện trong sheet
Vidu4.8 của Ch4.xlsx với

 2 X2 3X3 ... k Xk


e1 e X
p  Pr ob(Y  1/ X2 , X3 ,..., X k )   2 X2 3X3 ... k X k

1 e 1 1  e X
 p 
Ln    Z  1  2 X2  3 X3  ...  k X k  Model Logit
 1 p 

Mr U_Giảng viên PTDLKD 54


Bài giảng PTDLKD 15/10/2023

low age_01 low_hat


0 28 0.2596669
0 14 0.4178613
0 28 0.2596669
0 25 0.2902353
0 16 0.3932037
0 20 0.3455909
0 26 0.2798119
0 21 0.3341154
0 22 0.322833
0 25 0.2902353
0 31 0.2312691
0 35 0.1969019
0 19 0.3572491
0 24 0.3008847
0 45 0.1281629
1 28 0.2596669
1 29 0.2499548
1 34 0.2051164
1 25 0.2902353

HOMEWORK
4.9 Với sheet Baitap4.9 trong Ch4.xlsx , ta có 02 model logit đề xuất như sau
 p 
Ln    Z  1  2  age _ 01  3  lwt   k  smoke (1)
 1 p 
 p 
Ln    Z  1  2  age _ 01 (2)
 1 p 
a) Tìm hàm hồi quy logit trong model (1); (2). Viết hàm hồi quy tìm được trong 02 model
b) Với age_01 = 17; 18; 25 tìm xác suất của low = 0, 1 trong các trường hợp này. Giải
thích các giá trị này trong model (2)
c) Với
- age_01 = 23; lwt =130 và smoke = 0 tìm xác suất của low low = 0; 1. Giải thích các
giá trị này trong model (1)
- age_01 = 22; lwt =130 và smoke = 1 tìm xác suất của low low = 0; 1. Giải thích các
giá trị này trong model (1)

Mr U_Giảng viên PTDLKD 55

You might also like