Professional Documents
Culture Documents
Ch4 2023-2024
Ch4 2023-2024
Ch4 2023-2024
Ý tưởng. Khi một chủ đề nghiên cứu xuất hiện ít nhất từ 2 biến trở lên
thì việc tìm hiểu mối liên hệ giữa các biến bao gồm các vấn đề sau:
- Giữa các biến có hay không sự phụ thuộc
- Biến nào đóng vai trò là dependent variable
- Biến nào đóng vai trò là independent variable
- Biến nào là variable ?, latent variable ?
- Các giả thuyết được giải thích dựa trên các lý thuyết nào?
- Conceptualization của chủ đề là gì ? Kiểm chứng bằng cách nào.
Khuyết điểm. rXY chỉ đo lường mối quan hệ nhân quả giữa X và Y,
không chỉ ra được Y phụ thuộc vào X hay X phụ thuộc vào Y
Giá trị rXY Mức độ phụ thuộc
0.81 – 1.00 Rất mạnh
0.61 – 0.8 Mạnh
0.41 – 0.6 Bình thường
0.21 – 0.4 Yếu
0.0 – 0.2 Rất yếu hoặc không có phụ thuộc
(x X ) y Y
n
i i
Cov ( X , Y )
Cov ( X , Y ) i 1
; rXY
n 1 s X sY
n n
( xi X )2 (y Y) i
2
s X s X2 i 1
; sY sY2 i 1
n 1 n 1
Ví dụ 4.0 Khi xem xét mối liên hệ giữa Thu nhập (Y) và Chi tiêu (X).
Bạn hãy
a) Vẽ đồ thị scatter plot và nhận xét gì về mối liên hệ giữa X và Y
b) Tính hệ số tương quan tuyến tính giữa X và Y. Bạn có nhận xét gì
giữa hệ số tương quan tuyến tính và scatter plot.
200
150
Y (Chi tiêu)
100
50
Nhận xét. Nếu chỉ xem xét mối liên hệ giữa Y và X mà tạm thời bỏ qua
các yếu tố khác (Edu, Urban, …) thì mối liên hệ này được minh họa như
thế nào ?
Y f X + Edu,
Urban,
.
- Giả sử f(X) là một hàm tuyến tính nghĩa là f(X) = β1 + β2X
- Chứng minh sự tồn tại của f(X) là chứng minh các hệ số β1 , β2 tồn
tại.
- Thu thập dữ liệu để tìm các hệ số β1 , β2 trên mẫu đgl ước lượng các
hệ số β1 , β2 , kí hiệu là 1 , 2 1 2 X Y
- Kiểm định sự đúng đắn của học thuyết Keynes bằng cách khẳng định
tính có ý nghĩa của các hệ số β1 , β2
Hồi quy tuyến tính đơn biến là phân tích sự phụ thuộc của một biến
phụ thuộc (Y) vào một biến độc lập (biến giải thích – X) với mục đích là
)
dự đoán giá trị của biến phụ thuộc ( Y
Y f X + Edu,
Urban,
.
X Y
1 2
Y is estimate of f (X)
X
Y f X + Y 1 2
Mô hình hồi quy tuyến tính đơn biến là mô hình chỉ ra Y ngoài phụ
thuộc vào biến quan trọng nhất là X còn phụ thuộc vào các biến khác (ε)
Y f X +
Hàm hồi quy tuyến tính đơn biến là hàm tuyến tính cho thấy Y phụ
thuộc vào X
f(X) = β1 + β2X
Hồi quy là quá trình sử dụng dữ liệu khảo sát của biến phụ thuộc (Y) và
biến độc lập (X) để tìm các hệ số (tham số) β1 , β2 với mục đích khẳng
định Y phụ thuộc vào X.
Lưu ý. Nếu ta thu thập dữ liệu của Y và X trên một mẫu khảo sát thì hàm
hồi quy tuyến tính đơn biến tìm được đgl hàm hồi quy tuyến tính đơn
biến trên mẫu (hàm hồi quy mẫu), kí hiệu là
X
Y 1 2
Trong đó
- Y là hàm hồi quy mẫu, cũng có thể gọi là giá trị dự đoán của biến phụ
thuộc Y.
- 1 , 2 lần lượt là tung độ gốc và hệ số góc của hàm hồi quy mẫu.
Y -Y min
Nhận xét. Do ε sẽ tạo ra các giá trị sai lệch +, - nên để tránh hiện tượng
các sai lệch này triệt tiêu nhau thay vì để ε nhỏ nhất thì trong tính toán ta
Y - X
2 2
sẽ thay thế bằng 2 Y -Y 1 2 . Đây là một hàm số
min
theo 2 biến 1 , 2 , kí hiệu là
min
n
f , Y - X yi 1 2 x i
2 2
1 2 1 2 min
min
i 1
Step 1. Thu thập dữ liệu trên mẫu khảo sát (n) giá trị của Y, X
Step 2. Lấy đạo hàm riêng phần của hàm số f , lần lượt theo 2 biến 1 2
f
1
f
'
1
0
n
i 1
2 yi 1 2 x i 1 0 1
n
f f ' 0
2 2
i 1
i
2 y x x 0
1 2 i i 2
x 1 0 y n
n n
n n n
x 0
i 1 2 i
2 y i
i1
1 2 i
i i 1 i 1 n i1
n n
n n n
2
yi 1 2 xi xi 0
yi xi 1 xi 2 xi 0
2
i i1
i 1 i 1 i1 i1
n n
n
1 2
i 1
x i
i 1
yi
n n n
x x 2 y x
1 i 1
i 2
i 1
i
i 1
i i
1 y 2 . x
1 y 2 .x
n
x iy n .x .y
x y x .y
2
i
Hoặc
2 i1
2
n 2
i1
x 2
i n. x
x2 x
1 n
s
s
XY
n 1 i1
xi x yi y
2 XY trong ñoù
s2X
n
s2 1 2
X
n 1 i1
xi x
Ví dụ 4.2 Quay lại Ví dụ 4.1, với bộ dữ liệu mẫu khảo sát trên 60 hộ gia
đình về Y (Chi tiêu) và X( Thu nhập), bạn hãy tìm hồi quy mẫu:
a) Tính toán bằng tay
b) Tính toán trên phần mềm Stata
a) Xem các bước tính trong file “Ch4.xlsx”, chọn Sheet “Vidu4.1”
- Khi X thay đổi 1 đơn vị từ X thành X + 1 thì Y thay đổi một lượng
trung bình là 2
c) Giải thích ý nghĩa các hệ số trong hàm hồi quy mẫu Ví dụ 4.2
X 17 0.6X
Y 1 2
- 17 cho biết khi một hộ gia đình thất nghiệp thì số tiền chi tiêu tối
thiểu trung bình là 17
- 0.6 cho biết khi Thu nhập tăng thêm 1 đơn vị thì 1 hộ gia đình trung
bình sẽ bỏ ra 0.6 cho Chi tiêu
HOMEWORK
4.1 Quan sát mẫu số liệu về chi phí chào hàng và doanh số bán hàng của
12 doanh nghiệp:
X 100 106 60 160 70 170 140 120 116 120 140 150
Y 1270 1490 1060 1626 1020 1800 1610 1280 1390 1440 1590 1380
1; 2 trên đường hồi quy tổng thể và các tham số này là các Biến ngẫu
nhiên, giá trị của chúng thay đổi từ mẫu này sang mẫu khác
X
Đối với hàm hồi quy mẫu (SRF): Y 1 2
Tính chất 1. SRF luôn đi qua điểm trung bình mẫu x, y , nghĩa là:
y 1 2 .x
Tính chất 2. Giá trị trung bình ước lượng bằng giá trị trung bình thực tế,
nghĩa là:
1 n
yi y i y
n i 1
Tính chất 3. Giá trị trung bình của phần dư (sai số ngẫu nhiên) bằng 0,
nghĩa là: 1 n
e ei 0
n i 1
Tính chất 4. Các phần dư (sai số ngẫu nhiên) không tương quan tuyến
tính với các giá trị xi , nghĩa là:
n
se X ei .x i 0
i 1
Tính chất 5. Các phần dư (sai số ngẫu nhiên) không tương quan tuyến
, nghĩa là:
tính với các giá trị y i n
seY yi .ei 0
i 1
yi
y y
y y
i i
i
y
y y
i
x xi
X
Y 1 2
yi
n
RSS yi yi
2
TSS y y
n 2
i 1
i
ESS y y
n 2
i 1
i
y i 1
x xi
yi y yi yi yi y
yi yi yi y
2 2
yi y
y y y y
n n n n
2 yi yi yi y
2 2 2
yi y i i i
i i 1 i 1 i 1
ei
n n n n
maø 2 y i yi yi y 2 ei yi y 2 ei yi y e i
i 1
i 1
i 1 i 1
ei 0 (tính chaát 5) 0 (tính chaá t 3)
n n n
yi y yi yi yi y
2 2 2
i 1
i 1
i 1
T SS RSS ESS
n 2 n 2
TSS Total sum of square yi y y i2 n. y
i 1 i 1
TSS là tổng bình phương sự thay đổi (biến động) của tất cả các giá trị
Y so với giá trị trung bình của Y
n
RSS Residual sum of square y i yi
2
i 1
RSS tổng bình phương sự thay đổi (biến động) của tất cả các giá trị của Y
so với các giá trị nằm trên đường hồi quy mẫu đgl sự biến động của các
nguyên nhân khác.
x
2
n n
ESS Explained sum of square yi y
2 2
2
2
i n. x
i 1 i 1
ESS tổng bình phương sự thay đổi (biến động) của tất cả các giá trị của
hàm hồi quy mẫu so với giá trị trung bình của Y đgl sự biến động của X
ESS RSS
1
TSS TSS
100% Sự biến động của Y = … % Sự biến động của X + ... %Sự biến
động của các nguyên nhân khác
ESS RSS
R2 1 ; 0 R2 1
TSS TSS
- R2 : hệ số xác định, cho biết sự thay đổi của Y có bao nhiêu % là thay
đổi do biến X ( bao nhiêu % còn lại là do các nguyên nhân khác)
- R2 còn được gọi là hệ số đo lường mức độ phù hợp của hàm hồi quy
Ý nghĩa của R2
- R2 = 1 nghĩa là biến X giải thích được 100% sự thay đổi của biến Y
- R2 = a ( 0 < a < 1) nghĩa là biến X giải thích được a% sự thay đổi của
biến Y
- R2 = 0, nghĩa là X và Y không có quan hệ tuyến tính
Y Y
R 2 .........
R 2 .............
X X
Y Y
R 2 ...........
R 2 ..........
X X
2 n 2
2 x i2 n. x n 2 2
R2
ESS
i 1
2 x i n. x
s XY . i1
n
TSS 2
y y R 2
s X yi y
i
2 n 2
2
i 1
s
2 XY
i 1
2
sX
s XY
rXY
s X .s Y
s XY s 2X s XY
2 2
R
2
. 2 2 2 rXY R 2
s2X sY sX .sY
2
d) Tìm TSS, RSS, ESS và R-squared, rXY trong Ví dụ 4.2. Giải thích ý
nghĩa của R-squared
HOMEWORK
4.2 Rất nhiều nghiên cứu đã chỉ ra rằng Giá của căn hộ (Price) và Diện tích căn hộ
(Total_area) có sự phụ thuộc vào nhau.
a) Nếu phải sử dụng một mẫu khảo sát bạn sẽ kiểm chứng ý kiến trên bằng cách nào ? Nêu
rõ các bước thực hiện.
b) Viết mô hình hồi quy tuyến tính đơn biến, hàm hồi quy tuyến tính đơn biến mô tả sự phụ
thuộc này? Bạn hãy cho biết ε trong mô hình đại diện cho các biến giải thích khác nào
không được đưa vào mô hình ? Liệt kê ít nhất 4 biến giải thích khác không đưa vào mô
hình.
c) Với file “Ch4.xlsx”, sheet “Baitap4.2” bạn hãy kiểm chứng lại các bước thực hiện ở câu
a). Từ đó tìm hàm hồi quy mẫu và giải thích ý nghĩa các tham số tìm được
d) Tìm TSS, RSS, ESS và R-squared trong hàm hồi quy mẫu. Giải thích ý nghĩa của R-
squared
e) Nếu bạn chọn một giá trị bất kỳ của biến giải thích và biến đổi thành một giá trị khác thì
hàm hồi quy mẫu bạn tìm được có giống hàm hồi quy mẫu trong câu c) không ? Tại sao ?
1 1 t n / 22 .se 1
t .se
2 2
n2
/2 2
x 2
2
2
i
se 1 Var 1 i 1
. ;se 2 Var 2
x x
n n 2 n 2
i
x i
x
i 1 i 1
y = RSS
n
yi
2
i
2 2 i 1
n2 n2
se 2 Var 2 2
128.138
0.025
x
n 2
197193.333
i
x
i 1
2 2 i 1
n2 n2 58
2 2 t n/ 22 .se 2 0.549 ; 0.651
n 2
Để tìm khoảng ước lượng của tham số β1 ta cần biết 1 , t / 2 , se 1
17;
1
t n 2 t 58 2.002
/2 0,025
x 2
2 2006800 128.138
i
se 1 Var 1 i 1
. . 4.662
x
n n 2 60 197193.333
i
x
i 1
7.668
1 1 t n /22 .se 1 ; 26.332
T0 i *i / se i
1- 1- 1 -
1-
/2 /2
t n /22 t n /22 t n 2 t n 2
Lưu ý. Các phần mềm chỉ kiểm định tính có ý nghĩa của hệ số βi (βi = 0 )
không kiểm định các trường hợp khác
/2 /2
H 0 : i *i
p _ value 2* P(T T0 ) 2* 0, 5 T0
H
1 i : *
i
Kết luận:
- Chấp nhận H0 : p_value > α
- Bác bỏ H0 : p_value < α
Lưu ý: Khi sử dụng bảng tra (Student hay Laplace hay…) thì p_value sẽ
phải tìm trên bảng tra đó
e) Có ý kiến cho rằng thu nhập không ảnh hưởng đến chi tiêu. Hãy kiểm
định ý kiến trên với mức ý nghĩa 5%.
H 0 : 2 0
Cách 1. Ứng với cặp giả thiết cần kiểm định là:
H1 : 2 0
Khoảng tin cậy cho tham số 2 0.549 ; 0.651
Ta thấy β2* = 0 không thuộc vào khoảng này. Bác bỏ H0, vậy hệ số β2
thực sự có ý nghĩa trong mô hình hồi quy
H 0 : 2 0
Cách 2. Ứng với cặp giả thiết cần kiểm định là:
H1 : 2 0
2 *2 0.6 0
T0
se( ) 0,025
23.54 t n/22 ;t n/22 2.002; 2.002
2
H 0 : 2 0
Cách 3. Ứng với cặp giả thiết cần kiểm định là:
H1 : 2 0
2 *2
T0 23.54
se( )
2
H 0 :R 0 H 0 :2 0
2
Cặp giả thiết cần kiểm định:
H1:R 0 H1:2 0
2
ESS / (k 1) R2 nk
Bước 1. Tính giá trị kiểm định F
RSS / ( n k ) 1 R k 1
2
R2 n 2
F
1 R2
Lưu ý: Tra bảng Fisher tìm giá trị F;k 1;n k F;1;n2
Bước 2. Bác bỏ H0 nếu F F;1;n2
Bước 1. Tính giá trị kiểm định và tìm giá trị tra bảng Fisher
R 2 n 2 0.9052 60 2
F 554.01; F;1;n 2 F0,05;1,58 4.007
1 R2 1 0.9052
Bước 2. Vì F F;1;n2 nên bác bỏ H0. Kết luận mô hình hồi quy phù
hợp với mô hình hồi quy tổng thể.
Lưu ý. Ta có thể sử dụng p_value trong các phần mềm của kiểm định F
với p_value < α thì bác bỏ H0
HOMEWORK
4.3 Với file “Ch4.xlsx”, sheet “Baitap4.2” trong Homework 4.2 bạn hãy
trả lời các câu hỏi sau:
a) Ước lượng các tham số của hàm hồi quy tổng thể với độ tin cậy 95%.
b) Kiểm định tính có ý nghĩa của các tham số với mức ý nghĩa 5%
c) Mô hình hồi quy mô tả sự phụ thuộc giữa Price và Total_area có phù
hợp không ở mức ý nghĩa 1%
d) Có ý kiến cho rằng để kiểm định sự phù hợp của mô hình trong câu
d) chỉ cần kiểm định xem hệ số đứng trước biến giải thích có hay
không ý nghĩa? Tại sao ?
Option 1. Dự báo điểm cho giá trị trung bình của biến phụ thuộc (Y)
Nhận xét. Hàm hồi quy mẫu tìm được chính là giá trị dự báo điểm của
biến phụ thuộc Y, do đó ta chỉ cần X= xi vào hàm hồi quy mẫu là tìm
được giá trị dự báo điểm của Y
X
Step 1. Tìm hàm hồi quy mẫu Y 1 2
Step 2. Tại X = xi thay vào hàm hồi quy mẫu ta tìm được giá trị dự báo
của (Y=yi)
X x i yi 1 2 x i yi yi
17 0.6X
Y
X 180 y180 y 180 17 0.6 180 125
X 170 y170 y 170 17 0.6 170 119
Option 2. Dự báo khoảng cho giá trị trung bình của biến phụ thuộc
(Y) với độ tin cậy γ
y i yi t n /22 .se yi
X
Step 1. Tìm hàm hồi quy mẫu Y 1 2
Step 2. Tại X = xi thay vào hàm hồi quy mẫu ta tìm được giá trị dự báo
của (Y=yi)
X x i yi 1 2 x i
= RSS
n
y i yi
2
2
xi x
Var yi
1
n SXX
i i
. 2 se y Var y ; 2 i 1
n2 n2
h) Với mức thu nhập là 180 hãy dự báo mức chi tiêu trung bình của 1 hộ
gia đình với độ tin cậy 95%.
Option 2. Dự báo khoảng cho giá trị cụ thể của biến phụ thuộc (Y)
với độ tin cậy γ
y i yi t n/22 .se y i yi
X
Step 1. Tìm hàm hồi quy mẫu Y 1 2
Step 2. Tại X = xi thay vào hàm hồi quy mẫu ta tìm được giá trị dự báo
của (Y=yi)
X x i yi 1 2 x i
2
xi x
Var y i yi 1
n
1
SXX
.2 se y y Var y y
i i i i
n
2
i i RSS
y y
; 2 i1 =
n2 n2
k) Với mức thu nhập là 180 hãy dự báo mức chi tiêu cụ thể của 1 hộ gia
đình với độ tin cậy 95%.
HOMEWORK
4.4 Với file “Ch4.xlsx”, sheet “Baitap4.2” trong Homework 4.2 bạn hãy
trả lời các câu hỏi sau:
a) Dự báo điểm cho Price với Total_area lần lượt là 200; 100; và 350
(m2). Giải thích các giá trị này
b) Dự báo khoảng cho giá trị trung bình của Price với Total_area lần
lượt là 200; 100; và 350 (m2) với độ tin cậy 95% . Giải thích
c) Dự báo khoảng cho giá trị của Price với Total_area lần lượt là 200;
100; và 350 (m2) với độ tin cậy 95%. Giải thích
Yêu cầu chung:
- Chọn lựa một Total_area bất kỳ và tính bằng tay.
- Các giá trị Total_area khác tính bằng phần mềm Stata
Ví dụ 4.4 Hàm hồi quy tuyến tính của lượng cam (tấn/tháng) theo giá
15, 245 1,345.X
cam (ngàn đồng/kg): Y
a) Nếu lượng cam tính theo đơn vị (kg/tuần) thì hàm hồi quy thay đổi
như thế nào ?
1 tấn/tháng= 250 kg/tuần k1= 250
b) Nếu giá cam tính theo đơn vị (triệu đồng/tấn) thì hàm hồi quy thay đổi
như thế nào ?
1 ngàn đồng/kg=1 trđồng/tấn k2=1
c) Nếu lượng cam tính theo đơn vị (tấn/năm) và giá cam tính theo đơn vị
(triệu đồng/tấn) thì hàm hồi quy thay đổi như thế nào
1 tấn/tháng=12 tấn/ năm k1=12
1 ngàn đồng/kg=1 trđồng/tấn k2=1
HOMEWORK
4.5 Với file “Ch4.xlsx”, sheet “Baitap4.2” trong Homework 4.2 bạn hãy trả lời
các câu hỏi sau:
a) Nếu đơn vị đo lường của Total_area (m2) được đổi thành đơn vị là (cm2) thì
hệ số đứng trước Total_area sẽ thay đổi như thế nào. Giải thích ý nghĩa hệ
số này
b) Nếu Price (triệu đồng) được đổi thành đơn vị là (tỉ đồng) thì hệ số đứng
trước Total_area sẽ thay đổi như thế nào. Giải thích ý nghĩa hệ số này.
c) Nếu đơn vị đo lường của Total_area (m2) được đổi thành đơn vị là (cm2) và
Price (triệu đồng) được đổi thành đơn vị là (tỉ đồng) thì hệ số đứng trước
Total_area sẽ thay đổi như thế nào. Giải thích ý nghĩa hệ số này.
Y 1 2 X 2 ... k X k f (X 2 ,..., X k )
f (X 2 ,...,X k )
Hàm hồi quy tuyến tính đa biến là hàm hồi quy cho biết Y phụ thuộc
vào X2 , …,Xk , kí hiệu là f(X2 , …,Xk).
ε là sai số ngẫu nhiên, phản ánh sự phụ thuộc của Y vào các biến khác.
Ví dụ 4.5 Với chủ đề nghiên cứu “Các yếu tố ảnh hưởng đến giá căn hộ
(Price)” thì các yếu tố sau đây có thể ảnh hưởng đến Price gồm:
- Diện tích căn hộ (SQFT)
- Số phòng ngủ (BEDRMS)
- Số phòng tắm (BATHS)
Y = f (SQFT, BEDRMS, BATHS) + ε
Tìm f (SQFT, BEDRMS, BATHS)
Xem sheet “Vidu4.5” trong file “Ch4.xlsx”
Lưu ý. Nếu ta thu thập dữ liệu của Y và SQFT, BEDRMS, BATHS trên
một mẫu khảo sát thì hàm hồi quy tuyến tính đa biến tìm được đgl hàm
hồi quy tuyến tính đơn biến trên mẫu (hàm hồi quy mẫu), kí hiệu là
SQFT BEDRMS BATHS
Y 1 2 3 4
Lưu ý. Nếu ta thu thập dữ liệu của Y và SQFT, BEDRMS, BATHS trên
một mẫu khảo sát thì hàm hồi quy tuyến tính đa biến tìm được đgl hàm
hồi quy tuyến tính đa biến trên mẫu (hàm hồi quy mẫu), kí hiệu là
SQFT BEDRMS BATHS
Y 1 2 3 4
Trong đó
là hàm hồi quy mẫu, cũng có thể gọi là giá trị dự đoán của biến phụ
- Y
thuộc Y.
- 1 , 2 , 3 , 4 lần lượt là tung độ gốc và hệ số góc của hàm hồi quy
mẫu đứng trước các biến giải thích SQFT, BEDRMS, BATHS .
n n
Step 1. Thu thập dữ liệu trên mẫu khảo sát (n) giá trị của Y; X2 , …,Xk
Step 2. Lấy đạo hàm riêng phần của hàm số
Y ˆ ˆ X
2
1 2 2 ... ˆ k X k min
theo các tham số ˆ , j 1, k
j
0;
j
( j 1,..., k) (4.1)
j
n n
ESS
2 2
R
2
; ESS Yi Y ;TSS Yi Y
TSS i 1 i 1
Nhận xét. Khi thêm biến giải thích vào mô hình thì ESS tăng nhưng TSS
không đổi dẫn đến R2 tăng, đặc biệt khi số lượng biến giải thích thêm vào
nhiều (có những biến không có ý nghĩa) sẽ dẫn đến mô hình hồi quy đa
biến bị “loãng”
Kết luận. Khác với hồi quy đơn biến, hồi quy đa biến không thể sử dụng
R2 để đo lường mức độ phù hợp của mô hình mà chỉ có thể sử dụng để
giải thích % sự thay đổi của Y khi mô hình được chọn đã phù hợp (đã
kiểm định sự phù hợp)
Quay lại Ví dụ 4.5 ta có một số hàm hồi quy mẫu như sau
n 1 RSS / n k
R 2 1 1 R 2 1
nk TSS / n 1
Nhận xét:
• Khi thêm biến giải thích vào mô hình thì k (số tham số cần ước lượng)
tăng
• TSS và (n – 1) không bị ảnh hưởng bởi k
• (n – k) giảm
• Khi thêm biến có ý nghĩa vào mô hình thì RSS (sai số) giảm
• Khi thêm biến không có ý nghĩa vào mô hình thì RSS (sai số) không
giảm hoặc giảm ít
• Vậy khi thêm biến vào mô hình, nếu biến này có ý nghĩa thì Adjust
R-squared tăng, ngược lại Adjust R-squared không tăng. Do đó ta
chỉ thêm biến vào mô hình khi nào Adjust R-squared còn tăng.
• Adjust R-squared < R-squared
• Nếu R-squared đủ nhỏ thì Adjust R-squared có thể mang giá trị âm
Kết luận.
Trong hồi quy đa biến hệ số Adjust R-squared được sử dụng để đo
lường sự phù hợp của mô hình, còn R-squared được dùng để giải thích %
sự thay đổi của Y theo các biến giải thích khi đã chọn lựa được mô hình
phù hợp (kiểm định sự phù hợp).
i i t n/2k .se i
Quay lại Ví dụ 4.5, hãy ước lượng các tham số
. reg price sqft bedrms baths
T0 i *i / se i
1- 1- 1 -
1-
/2 /2
t n /22 t n /22 t n 2 t n 2
Lưu ý. Các phần mềm chỉ kiểm định tính có ý nghĩa của hệ số βi (βi = 0 )
không kiểm định các trường hợp khác
Quay lại Ví dụ 4.5 Hãy kiểm định tính có ý nghĩa của các tham số, với
mức ý nghĩa 5%.
. reg price sqft bedrms baths
Quay lại Ví dụ 4.5 Có ý kiến cho rằng Giá căn hộ (Price) không phụ
thuộc vào Diện tích căn hộ (SQFT), Số phòng ngủ (BEDRMS) và Số
phòng tắm (BATHS). Hãy kiểm định ý kiến này với mức ý nghĩa 5%.
H 0 :R 2 0 H0 :1 2 ... k 0
Cặp giả thiết cần kiểm định:
H1:R 0 H1 :i 0
2
Nhận xét. Mô hình (2) có được từ mô hình (1) bằng cách bỏ bớt m biến.
Vậy mô hình nào sẽ tốt hơn?
F
RSS RSS . n k R R . n k
2 1
2
1
2
2
1 R m
0
RSS 1
m 2
1
Quay lại Ví dụ 4.5 Theo bạn khi phân tích các yếu tố ảnh hưởng đến giá
căn hộ (Price) thì trong 2 mô hình sau, mô hình nào phù hợp ?
Model 1. Price = f(SQFT, BEDRMS, BATHS) + ε
Model 2. Price = f(SQFT) + ε
Nhận xét. Nếu chọn lựa model 2 đồng nghĩa với việc ta muốn loại bỏ
đồng thời 2 biến BERDMS, BATSHS ra khỏi model. Đây là kiểm định
hồi quy có điều kiện (Wald –test)
( 1) bedrms = 0
( 2) baths = 0
F( 2, 10) = 0.47
Prob > F = 0.6375
HOMEWORK
4.5 Với file “Ch4.xlsx”, sheet “Baitap4.5” với mô hình hồi quy đa biến
Price = f(Total_area, Duration, No_of_bedroom, No_of_bathroom
,Travel_time, Distance, Popu_density ) + ε
a) Hãy tìm hàm hồi quy mẫu.
b) Ước lượng các tham số với độ tin cậy 95%
c) Kiểm định tính có ý nghĩa của các tham số với mức ý nghĩa 5%.
d) Sử dụng Adjust R-squared để chọn lựa được mô hình phù hợp. Giải thích
R-squared với mô hình đã được chọn lựa phù hợp.
e) Sự khác biệt giữa R-squared và Adjust R-squared là gì trong hồi quy đa
biến.
f) Kiểm định Wald – test là gì ? Hãy sử dụng kiểm định Wald –test để chọn
lựa mô hình tốt nhất với mức ý nghĩa 5%.
… … … … … … …
HOMEWORK
4.6 Với sheet Vidu4.6 trong Ch4.xlsx , ta có mô hình
Wage = f(Sex) + ε
a) Do biến Sex là categorical variable, bạn hãy chuyển biến Sex thành
biến Dummy variables. Bạn hãy cho biết có bao nhiêu biến Dummy
variable được tạo ra ? Vì sao?
b) Nếu biến Dummy variable được tạo ra là Female. Tìm mối liên hệ
giữa các hệ số giữa hai mô hình Wage = f(Male) + ε và Wage =
f(Female) + ε.
c) Giải thích ý nghĩa của các hệ số trong hàm hồi quy f(Female)
Ví dụ 4.6 (tt) Số năm đi học (EDU) cũng là một yếu tố quan trọng ảnh
hưởng đến tiền lương. Mô hình được mở rộng như sau
Wage = f(Male, EDU) + ε
- Mô hình này có phù hợp không ? Với mức ý nghĩa 5%
- Các hệ số trong hàm hồi quy tuyến tính f(SEX, EDU) có ý nghĩa
không ? Giải thích ý nghĩa các hệ số này.
- Có một số ý kiến bổ sung thêm rằng một người có giới tính là
Nam nếu cứ đi học thêm 1 năm thì mức lương trung bình tăng
lên sẽ khác biệt so với một người là Nữ đi học thêm 1 năm. Mô
hình họ đề xuất như sau
Wage = f(Male, EDU, Male*EDU) + ε
• Biến tương tác là sự kết hợp giữa một biến Categorical Variable và
một biến Numerical Variable
HOMEWORK
4.7 Với sheet Vidu4.6 trong Ch4.xlsx , ta có mô hình
Wage = f(EXPER, SEX, EXPER*SEX) + ε
a) Kiểm định sự phù hợp của mô hình với mức ý nghĩa 5%
b) Giải thích ý nghĩa các hệ số trong hàm hồi quy tuyến tính
c) Với mô hình mở rộng như sau:
Wage = f(AGE, EDU, EXPER, SEX, MARRIED) + ε
c1. Kiểm định sự phù hợp của mô hình với mức ý nghĩa 5%
c2. Sử dụng kiểm định Wald test, bạn có thể loại bỏ được các biến nào với mức ý
nghĩa 5% ?
c3. Với mô hình có được sau kiểm định Wald test trong câu c2. hãy giải thích ý
nghĩa các hệ số trong hàm hồi quy tuyến tính tìm được.
. gen ln_age=log(age)
. gen ln_edu=log(edu)
HOMEWORK
4.8 Với sheet Baitap4.8 trong Ch4.xlsx , ta có 02 mô hình được đề xuất như sau
Price = f(Total_area, Duration, No_of_bedroom, No_of_bathroom ,Travel_time,
Distance, Popu_density ) + ε (1)
Ln_Price = f(Ln_Total_area, Duration, No_of_bedroom, No_of_bathroom
,Travel_time, Ln _Distance, Ln_Popu_density ) + ε (2)
a) Tìm hàm hồi quy mẫu trong model (1) và (2) . Giải thích ý nghĩa các hệ số trong
model (2)
b) Model nào có dạng hàm phù hợp hơn ? Vì sao
Ví dụ 4.7 Những yếu tố ảnh hưởng đến quyết định mua hay không một
căn hộ:
- Những yếu tố tác động đến giá căn hộ ?
- Với những yếu tố (biến giải thích) tác động đến quyết định của chúng
ta là mua/không mua căn hộ thì xác suất “mua” là bao nhiêu và
“không mua” la bao nhiêu?
Giả sử Y= 1 tương ứng với quyết định là “mua” và ngược lại, ta có mô
hình đề xuất sẽ có dạng sau
1 2 X2 3X3 ...k X k
e e X
p Pr ob(Y 1/ X2 ,X3 ,..., X k ) 2 X2 3X3 ... k X k
1 e 1 1 e X
Ví dụ 4.8 Những yếu tố ảnh hưởng đến trọng lượng của trẻ sơ sinh bị
suy dinh dưỡng (birthweight<2500gram) được thể hiện trong sheet
Vidu4.8 của Ch4.xlsx với
HOMEWORK
4.9 Với sheet Baitap4.9 trong Ch4.xlsx , ta có 02 model logit đề xuất như sau
p
Ln Z 1 2 age _ 01 3 lwt k smoke (1)
1 p
p
Ln Z 1 2 age _ 01 (2)
1 p
a) Tìm hàm hồi quy logit trong model (1); (2). Viết hàm hồi quy tìm được trong 02 model
b) Với age_01 = 17; 18; 25 tìm xác suất của low = 0, 1 trong các trường hợp này. Giải
thích các giá trị này trong model (2)
c) Với
- age_01 = 23; lwt =130 và smoke = 0 tìm xác suất của low low = 0; 1. Giải thích các
giá trị này trong model (1)
- age_01 = 22; lwt =130 và smoke = 1 tìm xác suất của low low = 0; 1. Giải thích các
giá trị này trong model (1)