Logit - Probit

TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT
KHOA TOÁN KINH TẾ
KINH TẾ LƯỢNG
CÁC MÔ HÌNH NHỊ NGUYÊN
Võ Thị Lệ Uyển
Thành phố Hồ Chí Minh, Ngày 18 tháng 5 năm 2024

VTLU KTL 1 / 42
Nội dung
1 SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH
2 MÔ HÌNH XÁC SUẤT TUYẾN TÍNH
3 MÔ HÌNH NHỊ NGUYÊN

MÔ HÌNH LOGIT
MÔ HÌNH PROBIT
VTLU KTL 2 / 42
SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH
Giới thiệu
Các phân tích về Nhu cầu tiềm ẩn

Ví dụ
Các quyết định lớn: mua nhà, mua xe dựa vào ích lợi ròng của
việc mua: mua hay không mua.
VTLU KTL 3 / 42
Giới thiệu

Ví dụ
Không ai đọc được những phân tích thiệt hơn.
VTLU KTL 3 / 42
Giới thiệu

Ví dụ
Các quyết định bộc lộ ý nguyện "tiềm ẩn"
VTLU KTL 3 / 42
Giới thiệu

Ví dụ
Các quyết định bộc lộ ý nguyện "tiềm ẩn"
Các quyết định này dựa vào: thu nhập, tình trạng gia đình, sở
thích...
VTLU KTL 3 / 42
Giới thiệu
Các dạng mô hình đối với từng dạng dữ liệu:

Khi biến phụ thuộc y và các biến độc lập xi , i = 1, 2, · · · , K đều
là biến định lượng thì ta sử dụng hàm hồi quy đơn biến hoặc
đa biến thông thường.
VTLU KTL 4 / 42
Giới thiệu

Nếu biến phụ thuộc y là biến định lượng, các biến độc lập
xi , i = 1, 2, · · · , K vừa là biến định lượng vừa là biến định
tính thì sử dụng mô hình hồi quy đa biến với biến độc lập là
biến giả.
VTLU KTL 4 / 42
Giới thiệu

Nếu biến phụ thuộc y là biến định lượng, các biến độc lập
xi , i = 1, 2, · · · , K vừa là biến định lượng vừa là biến định
tính thì sử dụng mô hình hồi quy đa biến với biến độc lập là
biến giả.
Nếu biến phụ thuộc là biến định tính, khi đó cần tìm mô hình
tương ứng?
VTLU KTL 4 / 42
MÔ HÌNH XÁC SUẤT TUYẾN TÍNH
Mô hình xác suất tuyến tính

(LPM – linear probability model)
Xét trường hợp biến phụ thuộc nhận bằng 1 (nếu có tính chất nghiên
cứu), bằng 0 (nếu không có tính chất nghiên cứu)
Y = β1 + β2 X2 + · · · + βk Xk + ui ,
VTLU KTL 5 / 42
Mô hình xác suất tuyến tính

(LPM – linear probability model)
Xét trường hợp biến phụ thuộc nhận bằng 1 (nếu có tính chất nghiên
cứu), bằng 0 (nếu không có tính chất nghiên cứu)
Y = β1 + β2 X2 + · · · + βk Xk + ui ,
⇒ Mô hình được ước lượng bằng phương pháp Least Square, giá trị
ước lượng thu được của Y , Yb , là xác suất.
VTLU KTL 5 / 42
Ví dụ về mô hình LPM I
Ví dụ
Xét bộ dữ liệu gồm 100 quan sát về bệnh tim bẩm sinh gồm:
Biến phụ thuộc là chd với:

• chd = 1 nếu có bị bệnh tim bẩm sinh
• chd = 0 nếu không mắc bệnh tim bẩm sinh.
Biến độc lập là age (tuổi).
VTLU KTL 6 / 42
Ví dụ về mô hình LPM II
Dữ liệu được minh họa trong đồ thị sau:
VTLU KTL 7 / 42
Ví dụ về mô hình LPM III

Kết quả ước lượng mô hình hồi quy tuyến tính:
VTLU KTL 8 / 42
Ví dụ về mô hình LPM IV
Kết quả dự báo bằng mô hình hồi quy tuyến tính
VTLU KTL 9 / 42
Hạn chế của LPM
Không mô tả hết sự biến động của các biến động của biến độc
lập.
VTLU KTL 10 / 42
lập.
Không đảm bảo các giá trị ước lượng ra xác suất nằm trong
đoạn [0;1]
VTLU KTL 10 / 42
lập.
đoạn [0;1]
Không đảm bảo phân phối chuẩn của phần dư.
VTLU KTL 10 / 42
lập.
đoạn [0;1]
Nhiễu có phương sai sai số thay đổi.
VTLU KTL 10 / 42
lập.
đoạn [0;1]
Nhiễu có phương sai sai số thay đổi.
⇒ Mô hình LPM không phải là sự lựa chọn ưa thích để mô hình hóa
các biến phụ thuộc nhị phân.
VTLU KTL 10 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH LOGIT
Mô hình Logit
Trong trường hợp biến phụ thuộc là biến định tính, chỉ có hai
biểu hiện – tương ứng nhận hai giá trị 0 và 1.
Phương pháp này xác định
exp(β1 + β2 x2i ) exp(xi β)

pi = =
1 + exp(β1 + β2 x2i ) 1 + exp(xi β)
VTLU KTL 11 / 42
Mô hình Logit
Tuyến tính hóa ta có

pi
ln = β1 + β2 xi
1 − pi
Với
pi
được gọi là tỉ lệ cược có giá trị thuộc 0 đến +∞
1 − pi

pi
Suy ra: ln 1−p i
có giá trị thuộc(−∞; +∞).
Đặt
pi
Li = ln + ϵi = β1 + β2 xi + ϵi
1 − pi
VTLU KTL 12 / 42
Mô hình Logit
Nhận xét:
p biến thiên từ 0 đến 1, L biến thiên từ −∞ đến +∞.
VTLU KTL 13 / 42
Mô hình Logit
Nhận xét:
L là hàm tuyến tính của x, nhưng xác suất không là hàm tuyến
tính của x.
VTLU KTL 13 / 42
Mô hình Logit
Nhận xét:
tính của x.
pi
Tỉ lệ cược 1−p i
phản ánh cơ hội, khả năng y = 1.
• Nghĩa là, nếu xác suất của một sự kiện là 0.5 thì tỷ lệ cược là
1:1, trong khi nếu xác suất là 0.1 thì tỷ lệ cược là 1:9.
• Khi pi → 0 thì tỉ lệ cược cũng dần đến 0. Khi pi → 1 thì tỉ lệ
cược sẽ dần đến +∞.
• Khi pi tăng thì Odds tăng và ngược lại.
pi
Do 1−p i
phản ánh cơ hội, khả năng y = 1, nên β2 cho biết mức
thay đổi của L (ln cơ hội y = 1) khi x tăng 1 đơn vị.
VTLU KTL 13 / 42
Mô hình Logit
Nhận xét:
tính của x.
pi
Tỉ lệ cược 1−p i
phản ánh cơ hội, khả năng y = 1.
• Nghĩa là, nếu xác suất của một sự kiện là 0.5 thì tỷ lệ cược là
1:1, trong khi nếu xác suất là 0.1 thì tỷ lệ cược là 1:9.
• Khi pi → 0 thì tỉ lệ cược cũng dần đến 0. Khi pi → 1 thì tỉ lệ
cược sẽ dần đến +∞.
• Khi pi tăng thì Odds tăng và ngược lại.
pi
Do 1−p i
phản ánh cơ hội, khả năng y = 1, nên β2 cho biết mức
thay đổi của L (ln cơ hội y = 1) khi x tăng 1 đơn vị.
Giá trị β1 cho biết ln của khả năng y = 1 khi x = 0.
VTLU KTL 13 / 42
Ước lượng mô hình Logit: lệnh logit

pi
Kết quả ước lượng mô hình logit: ln 1−pi
= β1 + β2 xi + ϵi
Ví dụ
VTLU KTL 14 / 42
Ước lượng mô hình Logit: lệnh logit

pi
Ý nghĩa các ước lượng của mô hình: ln 1−pi
= β1 + β2 xi + ϵi
Hệ số ước lượng là 0.1109,
Với khoảng tin cậy 95% là (0.0637, 0.1580).
⇒ Điều này có nghĩa là khi tuổi tăng lên 1 năm thì tỷ lệ mắc bệnh
CHD cũng tăng lên với thừa số là e 0.1109 = 1.117 lần.
VTLU KTL 15 / 42
Ước lượng mô hình Logit: lệnh logistic

pi
Kết quả ước lượng mô hình logit: 1−pi
= β1 + β2 xi + ϵi
Ví dụ
VTLU KTL 16 / 42
Ước lượng mô hình Logit: lệnh logistic
pi
Ý nghĩa các ước lượng của mô hình: 1−pi
= β1 + β2 xi + ϵi
Tỷ lệ cược là 1.117,
Với khoảng tin cậy 95% là (1.07, 1.17).
⇒ Điều này có nghĩa là khi tuổi tăng lên 1 năm thì tỷ lệ mắc bệnh
CHD cũng tăng lên với thừa số là 1.117 lần.
VTLU KTL 17 / 42
Ứng dụng: Quyết định thôi học I
Câu hỏi đặt ra

Xác suất bỏ học của sinh viên có thể phụ thuộc vào giới tính
của sinh viên hay không?
Biến phụ thuộc Y , = 1 nếu sinh viên đó đã bỏ học.

Biến giải thích Gender , nhận giá trị bằng 1 nếu là sinh viên nữ.
Gọi p = P(Y = 1): xác suất sinh viên bỏ học, mô hình có dạng:

pi
ln = β1 + β2 gender + ϵi
1 − pi
VTLU KTL 18 / 42
Ứng dụng: Quyết định thôi học II

• Kết quả ước lượng mô hình được cho trong bảng sau:
VTLU KTL 19 / 42
Ứng dụng: Quyết định thôi học III

p
Mô hình ước lượng thu được: ln( 1−p ) = −1.90(gender ) + 0.51
p
⇒ 1−p
= e ax+b = e −1.90(gender )+0.51
⇒ Odds cho mỗi sinh viên là:
p −1.90(0)+0.51 = 1.67
Nam: 1−p = e
p −1.90(1)+0.51 = 0.25
Nữ: 1−p = e
⇒ Tỉ lệ odds là:
oddsfemale 0.25
Odds ratio = = = 0.15(= e −1.90 )
oddsmale 1.67
Ý nghĩa: Odds của Nữ bằng 0.15 lần Odds của Nam, hay sinh
viên nam có tỷ lệ bỏ học cao hơn sinh viên nữ.
VTLU KTL 20 / 42
Dự báo với mô hình Logit

. logistic chd age
. predict pred, p
. graph twoway (scatter pred age)
VTLU KTL 21 / 42
Dự báo với mô hình Logit

. logistic chd age
. predict lp, xb
. graph twoway (scatter lp age)
VTLU KTL 22 / 42
Kiểm độ phù hợp của mô hình Logit

. logistic chd age
. estat gof, group(10)
Không bác bỏ H0 do χ2 = 2.22 tương ứng với p − value = 0.97

⇒ Mô hình là phù hợp với dữ liệu.
VTLU KTL 23 / 42
Trực quan độ phù hợp của mô hình Logit
VTLU KTL 24 / 42
Trực quan độ phù hợp của mô hình Logit I
Độ nhạy (sensitivity):tỷ lệ dương thực tế mà mô hình phân

loại là dương.
Độ đặc trưng (specificity): tỷ lệ âm thực tế mà mô hình phân
loại là âm.
1 Theo quan sát thực tế, có 12 + 45 = 57 người không bị bệnh
tim bẩm sinh và 29 + 14 = 43 người bị bệnh tim bẩm sinh.
2 Theo dự đoán có 14 + 45 = 59 người không bị bệnh, và 29 +
12 = 41 người bị bệnh.
VTLU KTL 25 / 42
Trực quan độ phù hợp của mô hình Logit II
3 Trong 57 người không bị bệnh, có 45 trường hợp dự đoán đúng

⇒ tỷ lệ dự đoán đúng là 45/57=78.95%.
4 Trong 43 người bị bệnh, dự đoán đúng 29 người ⇒ tỉ lệ dự đoán
đúng là 29/43=67.44%.
5 Trung bình tỉ lệ dự đoán đúng là (45+29)/(45+29+12+14) =
74%.
VTLU KTL 26 / 42

. lsens, scheme(s1color)
VTLU KTL 27 / 42

Sự phù hợp có thể được tóm tắt bằng một con số duy nhất:
diện tích dưới đường cong ROC (viết tắt là AUC)
. lroc, scheme(s1color)
VTLU KTL 28 / 42
Tính tác động biên tại điểm trung bình

Vì các hệ số không thể được giải thích theo độ lớn nên việc
tính toán các tác động biên là cần thiết
⇒ Với mỗi tuổi tăng thêm, khả năng bị bệnh cao hơn 0.029.
VTLU KTL 29 / 42
Tính tác động biên trung bình
VTLU KTL 30 / 42
MÔ HÌNH NHỊ NGUYÊN MÔ HÌNH PROBIT
Giới thiệu I
Hàm phân phối chuẩn tắc có thể được sử dụng như một
hàm liên quan đến xác suất với biến phụ thuộc là
P(Y = 1):
Z x
′ 1 u2
P(Y = 1) = Φ(X β), với Φ(x) = √ e − 2 du
2π −∞
Suy ra:
P(Y = 0) = 1 − Φ(x).
VTLU KTL 31 / 42
Giới thiệu II
Nhận xét
• Hạn chế chính của mô hình này là không có khả năng giải thích các
hệ số trong hồi quy.
• Tuy nhiên, dấu của các hệ số ước lượng vẫn có ý nghĩa: nếu hệ số
dương, thì sự gia tăng của một biến độc lập dẫn đến sự gia
tăng xác suất P(Y = 1) và ngược lại.
VTLU KTL 32 / 42
Giới thiệu III

• Hình dạng phân phối này được minh họa như sau:
VTLU KTL 33 / 42
Mô hình Probit
Ý nghĩa các hệ số:
VTLU KTL 34 / 42
Ví dụ
⇒ Tuổi tăng 1 năm, thì z-score tăng lên 0.065.

VTLU KTL 35 / 42
Ví dụ
⇒ P(chd = 1) = Φ(−3.1457 + 0.0658age)

⇒ Với age = 40 thì P(chd = 1) = Φ(−3.1457 + 0.0658 ∗ 40)
= Φ(−0.5137) = 0.3037 = 30.37%
VTLU KTL 36 / 42
Dự báo với mô hình Probit

. probit chd age
. predict ppro, p
. graph twoway (scatter ppro age)
VTLU KTL 37 / 42
Dự báo với mô hình Probit

. probit chd age
. predict lppro, xb
. graph twoway (scatter lppro age)
VTLU KTL 38 / 42
Độ phù hợp của mô hình Probit
VTLU KTL 39 / 42
VTLU KTL 40 / 42
VTLU KTL 41 / 42
So sánh giữa mô hình Logit và Probit:
Trong đa số các trường hợp, hai mô hình tương tự nhau về đánh

giá tác động riêng phần của từng nhân tố.
Độ chính xác của các ước lượng khác nhau, cần tìm mô hình
phù hợp hơn với thực tiễn.
VTLU KTL 42 / 42

Logit - Probit

Uploaded by

Copyright:

Available Formats

You might also like

Logit - Probit

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Logit - Probit

Uploaded by

Copyright:

Available Formats

TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT

KHOA TOÁN KINH TẾ

Thành phố Hồ Chí Minh, Ngày 18 tháng 5 năm 2024

1 SƠ LƯỢC VỀ MÔ HÌNH RA QUYẾT ĐỊNH

2 MÔ HÌNH XÁC SUẤT TUYẾN TÍNH

3 MÔ HÌNH NHỊ NGUYÊN

Các phân tích về Nhu cầu tiềm ẩn

Các phân tích về Nhu cầu tiềm ẩn

Các phân tích về Nhu cầu tiềm ẩn

Các phân tích về Nhu cầu tiềm ẩn

Các dạng mô hình đối với từng dạng dữ liệu:

Các dạng mô hình đối với từng dạng dữ liệu:

Các dạng mô hình đối với từng dạng dữ liệu:

Mô hình xác suất tuyến tính

Mô hình xác suất tuyến tính

Biến phụ thuộc là chd với:

Dữ liệu được minh họa trong đồ thị sau:

Ví dụ về mô hình LPM III

Hạn chế của LPM

Hạn chế của LPM

Hạn chế của LPM

Hạn chế của LPM

Hạn chế của LPM

exp(β1 + β2 x2i ) exp(xi β)

Ước lượng mô hình Logit: lệnh logit

Ước lượng mô hình Logit: lệnh logit

Ước lượng mô hình Logit: lệnh logistic

Ước lượng mô hình Logit: lệnh logistic

Ứng dụng: Quyết định thôi học I

Câu hỏi đặt ra

Biến phụ thuộc Y , = 1 nếu sinh viên đó đã bỏ học.

Ứng dụng: Quyết định thôi học II

Ứng dụng: Quyết định thôi học III

Dự báo với mô hình Logit

Dự báo với mô hình Logit

Kiểm độ phù hợp của mô hình Logit

Không bác bỏ H0 do χ2 = 2.22 tương ứng với p − value = 0.97

Trực quan độ phù hợp của mô hình Logit

Trực quan độ phù hợp của mô hình Logit I

Độ nhạy (sensitivity):tỷ lệ dương thực tế mà mô hình phân

Trực quan độ phù hợp của mô hình Logit II

3 Trong 57 người không bị bệnh, có 45 trường hợp dự đoán đúng

Trực quan độ phù hợp của mô hình Logit

Trực quan độ phù hợp của mô hình Logit

Tính tác động biên tại điểm trung bình

Tính tác động biên trung bình

Giới thiệu III

Ý nghĩa các hệ số:

⇒ Tuổi tăng 1 năm, thì z-score tăng lên 0.065.

⇒ P(chd = 1) = Φ(−3.1457 + 0.0658age)

Dự báo với mô hình Probit

Dự báo với mô hình Probit

Độ phù hợp của mô hình Probit

Độ phù hợp của mô hình Probit

Độ phù hợp của mô hình Probit

So sánh giữa mô hình Logit và Probit:

Trong đa số các trường hợp, hai mô hình tương tự nhau về đánh

You might also like