Logit - Probit

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 55

TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT

KHOA TOÁN KINH TẾ

KINH TẾ LƯỢNG
CÁC MÔ HÌNH NHỊ NGUYÊN

Võ Thị Lệ Uyển

Thành phố Hồ Chí Minh, Ngày 18 tháng 5 năm 2024


VTLU KTL 1 / 42
Nội dung

1 SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH

2 MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

3 MÔ HÌNH NHỊ NGUYÊN


MÔ HÌNH LOGIT
MÔ HÌNH PROBIT

VTLU KTL 2 / 42
SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH

Giới thiệu

Các phân tích về Nhu cầu tiềm ẩn


Ví dụ
Các quyết định lớn: mua nhà, mua xe dựa vào ích lợi ròng của
việc mua: mua hay không mua.

VTLU KTL 3 / 42
SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH

Giới thiệu

Các phân tích về Nhu cầu tiềm ẩn


Ví dụ
Các quyết định lớn: mua nhà, mua xe dựa vào ích lợi ròng của
việc mua: mua hay không mua.
Không ai đọc được những phân tích thiệt hơn.

VTLU KTL 3 / 42
SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH

Giới thiệu

Các phân tích về Nhu cầu tiềm ẩn


Ví dụ
Các quyết định lớn: mua nhà, mua xe dựa vào ích lợi ròng của
việc mua: mua hay không mua.
Không ai đọc được những phân tích thiệt hơn.
Các quyết định bộc lộ ý nguyện "tiềm ẩn"

VTLU KTL 3 / 42
SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH

Giới thiệu

Các phân tích về Nhu cầu tiềm ẩn


Ví dụ
Các quyết định lớn: mua nhà, mua xe dựa vào ích lợi ròng của
việc mua: mua hay không mua.
Không ai đọc được những phân tích thiệt hơn.
Các quyết định bộc lộ ý nguyện "tiềm ẩn"
Các quyết định này dựa vào: thu nhập, tình trạng gia đình, sở
thích...

VTLU KTL 3 / 42
SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH

Giới thiệu

Các dạng mô hình đối với từng dạng dữ liệu:


Khi biến phụ thuộc y và các biến độc lập xi , i = 1, 2, · · · , K đều
là biến định lượng thì ta sử dụng hàm hồi quy đơn biến hoặc
đa biến thông thường.

VTLU KTL 4 / 42
SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH

Giới thiệu

Các dạng mô hình đối với từng dạng dữ liệu:


Khi biến phụ thuộc y và các biến độc lập xi , i = 1, 2, · · · , K đều
là biến định lượng thì ta sử dụng hàm hồi quy đơn biến hoặc
đa biến thông thường.
Nếu biến phụ thuộc y là biến định lượng, các biến độc lập
xi , i = 1, 2, · · · , K vừa là biến định lượng vừa là biến định
tính thì sử dụng mô hình hồi quy đa biến với biến độc lập là
biến giả.

VTLU KTL 4 / 42
SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH

Giới thiệu

Các dạng mô hình đối với từng dạng dữ liệu:


Khi biến phụ thuộc y và các biến độc lập xi , i = 1, 2, · · · , K đều
là biến định lượng thì ta sử dụng hàm hồi quy đơn biến hoặc
đa biến thông thường.
Nếu biến phụ thuộc y là biến định lượng, các biến độc lập
xi , i = 1, 2, · · · , K vừa là biến định lượng vừa là biến định
tính thì sử dụng mô hình hồi quy đa biến với biến độc lập là
biến giả.
Nếu biến phụ thuộc là biến định tính, khi đó cần tìm mô hình
tương ứng?

VTLU KTL 4 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Mô hình xác suất tuyến tính


(LPM – linear probability model)

Xét trường hợp biến phụ thuộc nhận bằng 1 (nếu có tính chất nghiên
cứu), bằng 0 (nếu không có tính chất nghiên cứu)

Y = β1 + β2 X2 + · · · + βk Xk + ui ,

VTLU KTL 5 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Mô hình xác suất tuyến tính


(LPM – linear probability model)

Xét trường hợp biến phụ thuộc nhận bằng 1 (nếu có tính chất nghiên
cứu), bằng 0 (nếu không có tính chất nghiên cứu)

Y = β1 + β2 X2 + · · · + βk Xk + ui ,
⇒ Mô hình được ước lượng bằng phương pháp Least Square, giá trị
ước lượng thu được của Y , Yb , là xác suất.

VTLU KTL 5 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Ví dụ về mô hình LPM I

Ví dụ
Xét bộ dữ liệu gồm 100 quan sát về bệnh tim bẩm sinh gồm:

Biến phụ thuộc là chd với:


• chd = 1 nếu có bị bệnh tim bẩm sinh
• chd = 0 nếu không mắc bệnh tim bẩm sinh.
Biến độc lập là age (tuổi).

VTLU KTL 6 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Ví dụ về mô hình LPM II

Dữ liệu được minh họa trong đồ thị sau:

VTLU KTL 7 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Ví dụ về mô hình LPM III


Kết quả ước lượng mô hình hồi quy tuyến tính:

VTLU KTL 8 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Ví dụ về mô hình LPM IV
Kết quả dự báo bằng mô hình hồi quy tuyến tính

VTLU KTL 9 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Hạn chế của LPM

Không mô tả hết sự biến động của các biến động của biến độc
lập.

VTLU KTL 10 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Hạn chế của LPM

Không mô tả hết sự biến động của các biến động của biến độc
lập.
Không đảm bảo các giá trị ước lượng ra xác suất nằm trong
đoạn [0;1]

VTLU KTL 10 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Hạn chế của LPM

Không mô tả hết sự biến động của các biến động của biến độc
lập.
Không đảm bảo các giá trị ước lượng ra xác suất nằm trong
đoạn [0;1]
Không đảm bảo phân phối chuẩn của phần dư.

VTLU KTL 10 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Hạn chế của LPM

Không mô tả hết sự biến động của các biến động của biến độc
lập.
Không đảm bảo các giá trị ước lượng ra xác suất nằm trong
đoạn [0;1]
Không đảm bảo phân phối chuẩn của phần dư.
Nhiễu có phương sai sai số thay đổi.

VTLU KTL 10 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

Hạn chế của LPM

Không mô tả hết sự biến động của các biến động của biến độc
lập.
Không đảm bảo các giá trị ước lượng ra xác suất nằm trong
đoạn [0;1]
Không đảm bảo phân phối chuẩn của phần dư.
Nhiễu có phương sai sai số thay đổi.
⇒ Mô hình LPM không phải là sự lựa chọn ưa thích để mô hình hóa
các biến phụ thuộc nhị phân.

VTLU KTL 10 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Mô hình Logit

Trong trường hợp biến phụ thuộc là biến định tính, chỉ có hai
biểu hiện – tương ứng nhận hai giá trị 0 và 1.
Phương pháp này xác định

exp(β1 + β2 x2i ) exp(xi β)


pi = =
1 + exp(β1 + β2 x2i ) 1 + exp(xi β)

VTLU KTL 11 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Mô hình Logit
Tuyến tính hóa ta có
 
pi
ln = β1 + β2 xi
1 − pi

Với
pi
được gọi là tỉ lệ cược có giá trị thuộc 0 đến +∞
1 − pi
 
pi
Suy ra: ln 1−p i
có giá trị thuộc(−∞; +∞).
Đặt  
pi
Li = ln + ϵi = β1 + β2 xi + ϵi
1 − pi

VTLU KTL 12 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Mô hình Logit
Nhận xét:
p biến thiên từ 0 đến 1, L biến thiên từ −∞ đến +∞.

VTLU KTL 13 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Mô hình Logit
Nhận xét:
p biến thiên từ 0 đến 1, L biến thiên từ −∞ đến +∞.
L là hàm tuyến tính của x, nhưng xác suất không là hàm tuyến
tính của x.

VTLU KTL 13 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Mô hình Logit
Nhận xét:
p biến thiên từ 0 đến 1, L biến thiên từ −∞ đến +∞.
L là hàm tuyến tính của x, nhưng xác suất không là hàm tuyến
tính của x.
pi
Tỉ lệ cược 1−p i
phản ánh cơ hội, khả năng y = 1.
• Nghĩa là, nếu xác suất của một sự kiện là 0.5 thì tỷ lệ cược là
1:1, trong khi nếu xác suất là 0.1 thì tỷ lệ cược là 1:9.
• Khi pi → 0 thì tỉ lệ cược cũng dần đến 0. Khi pi → 1 thì tỉ lệ
cược sẽ dần đến +∞.
• Khi pi tăng thì Odds tăng và ngược lại.
pi
Do 1−p i
phản ánh cơ hội, khả năng y = 1, nên β2 cho biết mức
thay đổi của L (ln cơ hội y = 1) khi x tăng 1 đơn vị.

VTLU KTL 13 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Mô hình Logit
Nhận xét:
p biến thiên từ 0 đến 1, L biến thiên từ −∞ đến +∞.
L là hàm tuyến tính của x, nhưng xác suất không là hàm tuyến
tính của x.
pi
Tỉ lệ cược 1−p i
phản ánh cơ hội, khả năng y = 1.
• Nghĩa là, nếu xác suất của một sự kiện là 0.5 thì tỷ lệ cược là
1:1, trong khi nếu xác suất là 0.1 thì tỷ lệ cược là 1:9.
• Khi pi → 0 thì tỉ lệ cược cũng dần đến 0. Khi pi → 1 thì tỉ lệ
cược sẽ dần đến +∞.
• Khi pi tăng thì Odds tăng và ngược lại.
pi
Do 1−p i
phản ánh cơ hội, khả năng y = 1, nên β2 cho biết mức
thay đổi của L (ln cơ hội y = 1) khi x tăng 1 đơn vị.
Giá trị β1 cho biết ln của khả năng y = 1 khi x = 0.
VTLU KTL 13 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Ước lượng mô hình Logit: lệnh logit


 
pi
Kết quả ước lượng mô hình logit: ln 1−pi
= β1 + β2 xi + ϵi

Ví dụ

VTLU KTL 14 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Ước lượng mô hình Logit: lệnh logit

 
pi
Ý nghĩa các ước lượng của mô hình: ln 1−pi
= β1 + β2 xi + ϵi
Hệ số ước lượng là 0.1109,
Với khoảng tin cậy 95% là (0.0637, 0.1580).
⇒ Điều này có nghĩa là khi tuổi tăng lên 1 năm thì tỷ lệ mắc bệnh
CHD cũng tăng lên với thừa số là e 0.1109 = 1.117 lần.

VTLU KTL 15 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Ước lượng mô hình Logit: lệnh logistic


pi
Kết quả ước lượng mô hình logit: 1−pi
= β1 + β2 xi + ϵi

Ví dụ

VTLU KTL 16 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Ước lượng mô hình Logit: lệnh logistic

pi
Ý nghĩa các ước lượng của mô hình: 1−pi
= β1 + β2 xi + ϵi
Tỷ lệ cược là 1.117,
Với khoảng tin cậy 95% là (1.07, 1.17).
⇒ Điều này có nghĩa là khi tuổi tăng lên 1 năm thì tỷ lệ mắc bệnh
CHD cũng tăng lên với thừa số là 1.117 lần.

VTLU KTL 17 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Ứng dụng: Quyết định thôi học I

Câu hỏi đặt ra


Xác suất bỏ học của sinh viên có thể phụ thuộc vào giới tính
của sinh viên hay không?

Biến phụ thuộc Y , = 1 nếu sinh viên đó đã bỏ học.


Biến giải thích Gender , nhận giá trị bằng 1 nếu là sinh viên nữ.
Gọi p = P(Y = 1): xác suất sinh viên bỏ học, mô hình có dạng:
 
pi
ln = β1 + β2 gender + ϵi
1 − pi

VTLU KTL 18 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Ứng dụng: Quyết định thôi học II


• Kết quả ước lượng mô hình được cho trong bảng sau:

VTLU KTL 19 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Ứng dụng: Quyết định thôi học III


p
Mô hình ước lượng thu được: ln( 1−p ) = −1.90(gender ) + 0.51
p
⇒ 1−p
= e ax+b = e −1.90(gender )+0.51
⇒ Odds cho mỗi sinh viên là:
p −1.90(0)+0.51 = 1.67
Nam: 1−p = e
p −1.90(1)+0.51 = 0.25
Nữ: 1−p = e

⇒ Tỉ lệ odds là:
oddsfemale 0.25
Odds ratio = = = 0.15(= e −1.90 )
oddsmale 1.67

Ý nghĩa: Odds của Nữ bằng 0.15 lần Odds của Nam, hay sinh
viên nam có tỷ lệ bỏ học cao hơn sinh viên nữ.

VTLU KTL 20 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Dự báo với mô hình Logit


. logistic chd age
. predict pred, p
. graph twoway (scatter pred age)

VTLU KTL 21 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Dự báo với mô hình Logit


. logistic chd age
. predict lp, xb
. graph twoway (scatter lp age)

VTLU KTL 22 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Kiểm độ phù hợp của mô hình Logit


. logistic chd age
. estat gof, group(10)

Không bác bỏ H0 do χ2 = 2.22 tương ứng với p − value = 0.97


⇒ Mô hình là phù hợp với dữ liệu.
VTLU KTL 23 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Trực quan độ phù hợp của mô hình Logit

VTLU KTL 24 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Trực quan độ phù hợp của mô hình Logit I

Độ nhạy (sensitivity):tỷ lệ dương thực tế mà mô hình phân


loại là dương.
Độ đặc trưng (specificity): tỷ lệ âm thực tế mà mô hình phân
loại là âm.
1 Theo quan sát thực tế, có 12 + 45 = 57 người không bị bệnh
tim bẩm sinh và 29 + 14 = 43 người bị bệnh tim bẩm sinh.
2 Theo dự đoán có 14 + 45 = 59 người không bị bệnh, và 29 +
12 = 41 người bị bệnh.

VTLU KTL 25 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Trực quan độ phù hợp của mô hình Logit II

3 Trong 57 người không bị bệnh, có 45 trường hợp dự đoán đúng


⇒ tỷ lệ dự đoán đúng là 45/57=78.95%.
4 Trong 43 người bị bệnh, dự đoán đúng 29 người ⇒ tỉ lệ dự đoán
đúng là 29/43=67.44%.
5 Trung bình tỉ lệ dự đoán đúng là (45+29)/(45+29+12+14) =
74%.

VTLU KTL 26 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Trực quan độ phù hợp của mô hình Logit


. lsens, scheme(s1color)

VTLU KTL 27 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Trực quan độ phù hợp của mô hình Logit


Sự phù hợp có thể được tóm tắt bằng một con số duy nhất:
diện tích dưới đường cong ROC (viết tắt là AUC)
. lroc, scheme(s1color)

VTLU KTL 28 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Tính tác động biên tại điểm trung bình


Vì các hệ số không thể được giải thích theo độ lớn nên việc
tính toán các tác động biên là cần thiết

⇒ Với mỗi tuổi tăng thêm, khả năng bị bệnh cao hơn 0.029.
VTLU KTL 29 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT

Tính tác động biên trung bình

VTLU KTL 30 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Giới thiệu I

Hàm phân phối chuẩn tắc có thể được sử dụng như một
hàm liên quan đến xác suất với biến phụ thuộc là
P(Y = 1):
Z x
′ 1 u2
P(Y = 1) = Φ(X β), với Φ(x) = √ e − 2 du
2π −∞

Suy ra:
P(Y = 0) = 1 − Φ(x).

VTLU KTL 31 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Giới thiệu II

Nhận xét
• Hạn chế chính của mô hình này là không có khả năng giải thích các
hệ số trong hồi quy.

• Tuy nhiên, dấu của các hệ số ước lượng vẫn có ý nghĩa: nếu hệ số
dương, thì sự gia tăng của một biến độc lập dẫn đến sự gia
tăng xác suất P(Y = 1) và ngược lại.

VTLU KTL 32 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Giới thiệu III


• Hình dạng phân phối này được minh họa như sau:

VTLU KTL 33 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Mô hình Probit

Ý nghĩa các hệ số:

VTLU KTL 34 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Ví dụ

⇒ Tuổi tăng 1 năm, thì z-score tăng lên 0.065.


VTLU KTL 35 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Ví dụ

⇒ P(chd = 1) = Φ(−3.1457 + 0.0658age)


⇒ Với age = 40 thì P(chd = 1) = Φ(−3.1457 + 0.0658 ∗ 40)
= Φ(−0.5137) = 0.3037 = 30.37%
VTLU KTL 36 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Dự báo với mô hình Probit


. probit chd age
. predict ppro, p
. graph twoway (scatter ppro age)

VTLU KTL 37 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Dự báo với mô hình Probit


. probit chd age
. predict lppro, xb
. graph twoway (scatter lppro age)

VTLU KTL 38 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Độ phù hợp của mô hình Probit

VTLU KTL 39 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Độ phù hợp của mô hình Probit

VTLU KTL 40 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

Độ phù hợp của mô hình Probit

VTLU KTL 41 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT

So sánh giữa mô hình Logit và Probit:

Trong đa số các trường hợp, hai mô hình tương tự nhau về đánh


giá tác động riêng phần của từng nhân tố.
Độ chính xác của các ước lượng khác nhau, cần tìm mô hình
phù hợp hơn với thực tiễn.

VTLU KTL 42 / 42

You might also like