Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

Các mô hình logit và probit

(Gujarati: Econometrics by example, 2011)1.

Một ví dụ minh họa: hút hay là không hút


Dữ liệu được sử dụng ở đây là một mẫu ngẫu nhiên gồm 1.196 nam2. Dữ liệu này được dung cấp trong tập tin Table 8.1, có thể
được tìm thấy trên trang web đồng hành cùng cuốn sách.
Các biến được sử dụng trong phân tích như sau đây:

Smoker = 1 cho những người hút thuốc và 0 cho những người không hút thuốc
Age = tuổi tính theo nǎm Education =
số nǎm đi học Income = thu nhập gia
đình
Pcigs = giá thuốc hút ở từng bang riêng lẻ vào nǎm 1979

8.1 Mô hình logit


Trong ví dụ về người hút thuốc, mục tiêu chính của chúng ta là ước lượng xác suất hút thuốc, khi cho trước các giá trị của
các biến giai thích. Khi xây dựng một hàm xác suất như thế, chúng ta cần nhớ hai điều kiện: (1) đó là khi X i, giá trị của (các)
biến giai thích thay đổi, thì xác suất ước lượng luôn nằm trong khoang 0 – 1, và (2) đó là mối quan hệ giữa Pi và Xi là phi
tuyến, nghĩa là, “xác suất tiến gần 0 với đốc độ chậm dần khi X i nhỏ và tiến gần 1 với tốc độ chậm dần khi X i rất lớn”4. Các
mô hình logit và probit thỏa mãn các điều kiện này. Trước hết chúng ta xem xét mô hình logit bởi vì nó tương đối đơn gian
về mặt toán học.
Gia sử trong ví dụ của chúng ta, quyết định của một cá nhân có hút thuốc hay không phụ thuộc vào một chỉ số hữu dụng
không thể quan sát được (unobservable utility index) I* , chỉ số này phụ thuộc vào các biến giai thích như tuổi, giáo dục, thu
nhập gia đình và giá thuốc lá5. Chúng ta thể hiện chỉ số này như sau:
i

Trong đó, i = cá nhân thứ i, u = hạng nhiễu, và BX như được định nghĩa trong phương
trình (8.2).
Nhưng chỉ số không thể quan sát có quan hệ như thế nào với quyết định thực sự là hút hay không hút? Thật hợp lý để gia định
rằng:

Yi = 1 (một người hút thuốc) nếu I*  0


i
Yi = 0 (một người không hút thuốc) nếu I* < 0
i
Nghĩa là, nếu chỉ số hữu dụng I của một người lớn hơn mức ngưỡng I *, thì người đó sẽ hút nhưng nếu nhỏ hơn I*, thì người
đó sẽ không hút. Lưu ý rằng chúng ta không có gợi ý rằng hút thuốc là tốt hay xấu cho sức khỏe, mặc dù có nhiều nghiên
cứu y khoa khuyến cáo rằng hút thuốc có thể xấu cho sức khỏe.
Để làm cho lựa chọn này có thể thực hiện được, chúng ta có thể nghĩ theo xác suất của việc thực hiện một lựa chọn, ví dụ lựa
chọn hút thuốc (tức Y = 1):

Bây giờ xác suất này phụ thuộc vào phân phối xác suất của Yi, đến lượt nó lại phụ thuộc vào phân phối xác suất của hạng
nhiễu, ui6. Nếu phân phối xác suất này là đối xứng quanh giá trị trung bình (bằng 0) của nó, thì phương trình (8.4) có thể
được viết lại là:

1
Rõ ràng Pi phụ thuộc vào phân phối xác suất cụ thể của u i. Nhớ rằng xác suất mà một biến ngẫu nhiên nhận một giá trị nhỏ
hơn một giá trị được xác định nào đó được cho bởi hàm phân phối tích lũy (CDF – cumulative distribution function) của
biến đó7.
Mô hình logit gia định rằng phân phối xác suất của u i theo phân phối xác suất logistic (logistic probability distribution), đối
với ví dụ của chúng ta nó có thể được viết lại như sau:

Trong đó, Pi = xác suất hút thuốc (tức là Yi = 1) và

Xác suất của Y = 0, nghĩa là, một người không phai là người hút thuốc, được cho bởi:

Lưu ý: Dấu của Zi trong phương trình (8.7) và (8.8) là khác nhau.

Biến đổi phương trình (8.9)?


Lưu ý rằng B là cố định và phi ngẫu nhiên và các giá trị X được cho trước. Vì thế, biến thiên trong Y i xuất phát từ biến
thiên trong ui.
7
Nhớ lại từ thống kê căn bản rằng hàm phân phối tích lũy của một biến ngẫu nhiên X, F(X), được định nghĩa là F(X) = Pr(X 
x), trong đó x là một giá trị cụ thể của X. Cũng nhắc lại rằng nếu bạn vẽ đồ thị CDF, nó trông giống như một hình chữ S kéo
dài (elongated S).

2
−Z
1 − Pi = 1 − 1 + e−Zi − 1 −Z e i
1 e i= −Z
= = e i
1 + e−Zi 1 + e−Zi 1 + e−Zi 1 + e−Zi
e−Zi
1 1 1
= = =
−Z = (8.9)
1 e i eZi + 1 Z
1+ e i
e−Zi+
e−Zi
Chúng ta dễ dàng xác nhận rằng khi Zi chạy từ -  đến + , thì Pi chạy từ 0 đến 1 và rằng Pi có quan hệ phi tuyến với Zi (tức
Xi), vì thế thỏa mãn hai điều kiện chúng ta vừa mới thao luận ở trên8.
Chúng ta ước lượng mô hình (8.7) như thế nào, vì nó là phi tuyến không chỉ trong X mà còn trong các tham số Bs? Chúng ta
có thể sử dụng một cách chuyển hóa đơn gian để làm cho mô hình tuyến tính trong Xs và các hệ số. Lấy tỷ số của các
phương trình (8.7) và (8.9), nghĩa là xác suất mà một người là người hút thuốc đối với xác suất mà người đó không phai là
người hút thuốc, chúng ta có:

Diễn giai chút:


1 + eZi
1 + eZi 1 + eZi 1 + eZi Z
e i = eZi = (8.10)
1 = .
1 + e−Zi = 1
= eZi + 1 eZi 1
1 + eZi
1+ Z
e i

Giai thích thêm:


Pi
= eZi => P = (1 − P ). eZi = eZi − P . eZi
i i i
1 − Pi
Z
e i
=> Pi + Pi. e i = eZi => Pi(1 + eZi) = eZi => Pi =
Z

1 + eZi

3
Bây giờ, Pi/(1 - Pi) đơn gian là tỷ số odds (odds ratio) ủng hộ việc hút thuốc – tỷ số của xác suất mà một người là người hút
thuốc so với xác suất mà người đó không phai là người hút thuốc.

Lấy log (tự nhiên) của phương trình (8.10), chúng ta có được một kết qua rất thú vị, đó
là:

Phương trình (8.11) phát biểu rằng log của tỷ số odds là một hàm tuyến tính của các Bs và cũng như các biến Xs. Li được gọi
là logit (log của tỷ số odds) và vì thế có tên là mô hình logit (logit model) cho các mô hình giống như (8.11). Điều thú vị mà
ta quan sát thấy rằng mô hình xác suất tuyến tính được thao luận trước đó gia định rằng Pi có quan hệ tuyến tính với Xi, trong
khi đó mô hình logit gia định rằng log của tỷ số odds có quan hệ tuyến tính với Xi.
Một số tính chất của mô hình logit như sau:

1. Khi Pi, xác suất tǎng từ 0 đến 1, thì logit Li đi từ -  đến + . Nghĩa là, mặc dù các xác suất nằm giữa 0 và 1,
nhưng logit là không có giới hạn.
2. Mặc dù Li là tuyến tính theo Xi, nhưng ban thân các xác suất thì không. Điều này trái với mô hình LPM ở đó các
xác suất tǎng tuyến tính với Xi.
3. Nếu Li, logit, dương, thì nó có nghĩa rằng khi giá trị của (các) biến giai thích tǎng, tỷ số odds của hút thuốc tǎng,
trong khi đó nếu nó âm, thì tỷ số odds của hút thuốc giam.
4. Sự giai thích mô hình logit ở (8.11) như sau: mỗi hệ số dốc cho biết log của odds
ủng hộ việc hút thuốc thay đổi khi giá trị của biến X thay đổi một đơn vị.
5. Một khi các hệ số của mô hình logit được ước lượng, chúng ta có thể dễ dàng tính các xác suất của hút thuốc, chứ
không chỉ có tỷ số odds của hút thuốc, từ (8.7).
6. Trong mô hình LPM, hệ số dốc đo lường anh hưởng biên (marginal effect) của một thay đổi đơn vị trong biến giai
thích lên xác suất hút thuốc, khi giữ nguyên các biến khác. Điều này không đúng với mô hình logit, vì anh hưởng
biên của một sự thay đổi đơn vị trong biến giai thích không chỉ phụ thuộc vào hệ số của biến đó, mà còn phụ thuộc
vào mức xác suất từ đó mà sự thay đổi được đo lường. Nhưng mức xác suất phụ thuộc vào các giá trị của tất ca các
biến giai thích trong mô hình9. Tuy nhiên, các phần mềm thống kê như Eviews và Stata có thể tính toán các anh
hưởng biên với các hướng dẫn đơn gian.
Bang 8.3: Mô hình logit về quyết định hút hay là không hút.
Giai thích các hệ số khác nhau như sau: khi giữ các biến khác không đổi, nếu, ví dụ giáo dục tǎng thêm một nǎm, thì trung
bình giá trị logit giam khoang 0.09, nghĩa là log của tỷ số odds ủng hộ việc hút thuốc giam khoang 0.09. Các hệ số khác
cũng được giai thích một cách tương tự.
Nhưng ngôn ngữ logit không phai là ngôn ngữ thường ngày. Điều mà chúng ta muốn biết là xác suất của việc hút thuốc, khi
cho trước các giá trị của các biến giai thích. Nhưng điều này có thể được tính từ phương trình (8.7). Để minh họa, chúng ta
chọn người thứ 2 từ Table 8.1. Dữ liệu của người này như sau: tuổi = 28, giáo dục = 15, thu nhập =
12.500 và giá thuốc nǎm 1979 = 60. Thế các giá trị này vào phương trình (8.7), ta có:

Nghĩa là, xác suất mà một người với các đặc điểm được cho ở trên là một người hút thuốc là khoang 38%. Từ dữ liệu chúng
ta biết được người này là một người hút thuộc.
Bây giờ lấy một người (bất kỳ) với các thông tin về tuổi, giáo dục, thu nhập, và giá thuốc nǎm 1979 lần lượt như sau: 63, 10,
20.000, và 60.8. Đối với người này, xác suất hút thuốc sẽ là:

Nghĩa là, xác suất mà người này là một người hút thuốc là 32%. Trong mẫu của chúng ta, một người như thế là người không
hút thuốc.
Table 8.1 đưa ra xác suất hút thuốc cho mỗi người cùng với dữ liệu thô.
11
Xem, ví dụ như Gujarati/Porter, op cit.

4
luận trong lý thuyết. Một thước đo như vậy là McFadden R2, gọi là R2McF. Giống như R2, R2McF nằm giữa 0 và 1. Đối với ví dụ
của chúng ta, giá trị của nó là 0.0927.
Một thước đo về mức độ phù hợp khác là count R2, được định nghĩa như sau:
8.4 Mô hình probit
Trong mô hình LPM, hạng nhiễu không có phân phối chuẩn; trong mô hình logit, hạng nhiễu có phân phối logistic. Một mô
hình ‘đối thủ’ khác là mô hình probit, trong đó hạng nhiễu có phân phối chuẩn. Với gia định phân phối chuẩn cho trước, thì
xác suất để I* nhỏ hơn hoặc bằng Ii có thể được tính từ hàm phân phối tích lũy chuẩn hóa (CDF – standard normal
cumulative distribution function) như sau14:
i

Trong đó, Pr(Y|X) có nghĩa là xác suất mà một biết cố xay ra (ví dụ có hút thuốc) khi cho
trước các giá trị của các biến X và Z là biến chuẩn hóa (tức là biến chuẩn với trung bình

14 Nếu một biến X theo phân phối chuẩn với trung bình là  và phương sai là 2, thì hàm mật độ xác suất (PDF) của nó là:
2/2𝜎2 𝑋0
f(X) = (1/𝜎√𝜋)𝑒−(𝑋− 𝜇) và hàm phân phối tích lũy của nó (CDF) là: F(X ) = ∫ (1/
0 −∞
2/2𝜎2 2
𝜎√𝜋)𝑒−(𝑋− 𝜇) 𝑑𝑋, trong đó là một giá trị cụ thể của X. Nếu  = 0 và  = 1, thì PDF và CDF lần lượt thể
0
X
hiện PDF và CDF chuẩn hóa.

5
bằng 0 và phương sai bằng 1). F là CDF chuẩn hóa, và trong ngữ canh hiện tại có thể được viết lại như sau:

Vì P thể hiện xác suất mà một người hút thuốc, nên nó được đo bằng phần diện tích của đường cong CDF chuẩn hóa từ - 
đến Ii. Trong ngữ canh hiện tại, F(Ii) được gọi là hàm probit.
Mặc dù việc ước lượng chỉ số hữu dụng BX và các tham số Bs là khá phức tạp trong mô hình probit, nhưng phương pháp
ML có thể được sử dụng để ước lượng chúng. Đối với ví dụ của chúng ta, các giá trị ước lượng theo ML của mô hình probit
được trình bày trong Bang 8.5.
Bang 8.5: Mô hình probit về hút thuốc.

Mặc dù các giá trị bằng số của các hệ số hồi quy logit và probit là khác nhau, nhưng về mặt định tính thì các kết qua là tương
tự nhau: các hệ số của tuổi, giáo dục và giá thuốc lá đều có ý nghĩa thống kê ít nhất ở mức ý nghĩa 10%. Tuy nhiên, hệ số
của thu nhập không có ý nghĩa.
Có một cách so sánh các hệ số của mô hình logit và probit. Mặc dù ca phân phối logistic chuẩn (standard logistic, nền tang
của logit) và phân phối chuẩn hóa (standard normal, nền tang của probit) đều có trung bình bằng 0 nhưng phương sai của
chúng khác nhau: bằng 1 đối với phân phối chuẩn hóa và 2/3 đối với phân phối logistic, trong đó   22/7, tức khoang 3.14.
Vì thế, nếu chúng ta nhân hệ số của probit cho khoang 1.81 ( /√3),

thì chúng ta sẽ có xấp xỉ hệ số của logit. Ví dụ, hệ số probit của biến tuổi = -0.0129. Nếu chúng ta nhân hệ số này với 1.81,
chúng ta sẽ có  -0.0233, con số này có thể so sánh trực tiếp với hệ số của tuổi trong mô hình logit ở Bang 8.3 [Ở đây,
Gujarati nhầm - 0.01296 trong Bang 8.5 với -0.0235].
Chúng ta giai thích các hệ số của mô hình probit được cho trong Bang 8.5 như thế nào? Ví dụ, anh hưởng biên lên xác suất
hút thuốc là bao nhiêu nếu tuổi tǎng thêm một nǎm, khi giữ nguyên các yếu tố khác không đổi. Ảnh hưởng biên này được
tính bằng cách lấy hệ số của biến tuổi, -0.0130, nhân với giá trị của hàm mật độ chuẩn được đánh giá cho tất ca các X cho cá
nhân đó.
Để minh họa, hãy xem dữ liệu của người hút thuốc số 1 trong mẫu của chúng ta, thông tin người này như sau: tuổi = 21, giáo
dục = 12, thu nhập = 8.500, và giá = 60.6. Thế các giá trị này vào hàm mật độ chuẩn được cho trong chú thích 13, chúng ta
có: f(BX) = 0.3983. Nhân giá trị này với -0.0130, chúng ta có -0.0051. Con số này có nghĩa là với các giá trị cho trước của
các biến giai thích, thì xác suất mà một người nào đó hút thuốc giam khoang 0.005 nếu tuổi tǎng thêm một nǎm. Nhớ lại rằng
chúng ta có một trường hợp tương tự khi tính anh hưởng biên của một biến giai thích lên xác suất hút thuốc trong mô hình
logit.
Như bạn có thể thấy, tính toán anh hưởng biên của một biến giai thích lên xác suất hút thuốc của một cá nhân theo cách này
là một công việc chán ngắt, mặc dù các phần mềm Stata và Eviews có thể làm công việc này tương đối nhanh chóng.
Nhân tiện, ước lượng mô hình probit cho anh hưởng tương tác như trong mô hình logit được trình bày trong Bang 8.6.

You might also like