Chuong 6. Phan Tich Hoi Qui.1

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 145

2

❖ Phân tích hồi qui là một phương pháp nhằm nghiên cứu mối quan hệ phụ
thuộc của một biến vào một hay nhiều biến khác.
❖ Nhiệm vụ:
➢ Ước lượng giá trị trung bình của tiêu thức kết quả.
➢ Kiểm định về bản chất của sự phụ thuộc giữa các biến.
➢ Dự đoán giá trị của tiêu thức kết quả, gồm có dự đoán giá trị trung bình và
cá biệt của tiêu thức kết quả dựa vào giá trị của tiêu thức nguyên nhân đã
biết.
❖ Vận dụng phân tích hồi qui vào số liệu kinh tế nhằm kiểm nghiệm các mô hình
do các nhà kinh tế toán đề xuất và xác định các ước lượng bằng số.
❖ Phân tích hồi qui các vấn đề kinh tế hiện thời dựa trên vận dụng đồng thời lý
thuyết và thực tế được thực hiện bởi các suy đoán thích hợp.
❖ Các nhà hoạch định chính sách muốn xem xét mối quan hệ phụ thuộc giữa chi
tiêu của các hộ gia đình với thu nhập, qui mô, tài sản…
❖ Cac nha quan tri san xuat muon xem xet moi quan he phu thuoc giữa chi phí
san xuat vơi khối lượng sản phẩm, giữa kết quả sản xuất với các các yếu tó đầu
vào như vốn, lao động, công nghệ...
❖ Cac nha nghien cưu marketing muon xem xet moi quan he phu thuoc giữa khối
lượng sản phẩm bán ra với giá cả, doanh thu phụ thuộc như thế nào vào chi phí
quảng cáo…
❖ Cac nha kinh te nong nghiep muon nghien cưu moi quan he phu thuoc giữa nang suat
thu hoach vơi nhiệt độ, giống cây trồng, lượng phân bón, vùng…
❖ San lương thu hoach phu thuoc vao lương phan bon, lương nươc tươi tiêu,…;
❖ Cac nha phan tích thi trương chưng khoan nghien cưu moi liên hệ giá của cổ phiếu với
các đặc trưng của công ty phát hành cổ phiếu đó, cũng như với tình hình chung của
nền kinh tế.
❖ Doanh thu bán hàng phụ thuộc vào giá bán, chi phí quảng cáo, thu nhập của khách
hàng;
❖ GDP cua nè n kinh te phu thuoc vao von, lao đong, nguò n tai nguyen, cong nghe… ;
❖ Tiêu dùng của dân cư phụ thuộc vào thu nhập khả dụng, thời gian, mùa, vùng;
❖ Ty suat sinh cua phu nữ phu thuoc vao ty le chet của trẻ em, mức thu nhập bình quân
đầu người, trình độ văn hoá;
❖ Thu nhap cua ngươi lao đong phu thuoc vao trính đo chuyen mon, nghè nghiep, so
nam kinh nghiem...
❖ Mô hình hồi qui là mô hình trong đó biến phụ thuộc phụ thuộc vào ít nhất một
biến giải thích.
❖ Những ứng dụng:
➢ Doanh thu bán hàng phụ thuộc vào giá bán, chi phí quảng cáo, thu nhập của
khách hàng.
➢ Chi phí sản xuất phụ thuộc vào khối lượng sản phẩm sản xuất, qui trình
công nghệ, trình độ lành nghề của người lao động.
➢ Tiêu dùng của dân cư phụ thuộc vào thu nhập khả dụng, thời gian, mùa,
vùng...
❖ Khái quát, chúng ta có n quan sát và mỗi quan sát gồm k trị số (𝑌𝑖 , 𝑋2𝑖 , … , 𝑋𝑘𝑖 ),
𝑖 = 1, 𝑛
7

❖ Theo dạng kỳ vọng (expectation)


E(𝑌Τ𝑋2𝑖 , … , 𝑋𝑘𝑖 ) = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 ∀i = 1, n
❖ Theo dạng ngẫu nhiên (Stochastic)
Yi= 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 +i ∀i = 1, n
Theo dạng tường minh
Y1 = β1 + β2 X21 + ⋯ + βk Xk1 + ε1
Y2 = β1 + β2 X22 + ⋯ + βk Xk2 + ε2
⋮ ⋮ ⋮
Yn = β1 + β2 X2n + ⋯ + βk Xkn + εn
Trong đó:
➢ βj (∀j = 1, k) gọi các hệ số hồi qui hay các tham số hồi qui. Với 1 gọi là
hệ số chặn và các βj (∀j = 2, k) gọi là các hệ số góc hay còn gọi là hệ số
hồi qui riêng.
➢ i gọi là sai số ngẫu nhiên.
8

❖ Theo dạng kỳ vọng (expectation)


Ŷi=b1+b2X2i+…+bkXki ∀i = 1, n
❖ Theo dạng ngẫu nhiên (Stochastic)
Yi=b1+b2X2i+…+bkXki+ei ∀i = 1, n
❖ Theo dạng tường minh
Y1 = b1 + b2 X21 + ⋯ + bk Xk1 + e1
Y2 = b1 + b2 X22 + ⋯ + bk Xk2 + e2
⋮ ⋮ ⋮
Yn = b1 + b2 X2n + ⋯ + bk Xkn + en

Trong đó:
➢ bj (∀j = 1, k) gọi các hệ số hồi qui. Với b1 gọi là hệ số chặn và các bj (∀j = 2, k) gọi
là các hệ số góc hay còn gọi là hệ số hồi qui riêng.
➢ ei gọi là phần dư.
9

❖ Mô hình hồi qui tổng thể


➢ Dạng kỳ vọng: E (Y/X i ) = X i β ∀i = 1,n
➢ Dạng ngẫu nhiên: Yi = X i β + i ∀i = 1,n hay 𝑌 = 𝑋𝛽 + 
❖ Mô hình hồi qui mẫu
➢ Dạng kỳ vọng: ෡i = X i B
Y ∀i = 1,n
➢ Dạng ngẫu nhiên: Yi = X i B + 𝑒 ∀i = 1,n hay 𝑌 = 𝑋𝐵 + 𝑒
❖ Trong đó:
➢ 𝑋𝑖 = (1 𝑋2𝑖 𝑋3𝑖 ⋯ 𝑋𝑘𝑖 ) ∀i = 1,n
𝑌1 1 𝑋21 . . . 𝑋𝑘1 ε1 𝑒1 𝛽1 𝑏1
𝑌 1 𝑋22 . . . 𝑋𝑘2 ε2 𝑒2 𝛽 𝑏
➢𝑌 = 2 ; 𝑋= ε= ⋮ ; 𝑒= ⋮ ; 𝛽= 2 ; 𝐵= 2
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑌𝑛 1 𝑋2𝑛 . . . 𝑋𝑘𝑛 ε𝑛 𝑒𝑛 𝛽𝑘 𝑏𝑘
10

Giả thiết Nội dung


Biến giải thích là phi ngẫu nhiên, tức là các giá trị của chúng là các số
1
nhất định.
2 Phương sai của X phải là một số dương xác định
3 Kỳ vọng của các yếu tố ngẫu nhiên bằng không, tức E(i/Xi)=0
4 Phương sai của các sai số ngẫu nhiên ui bằng nhau, tức Var(i/Xi) = 2
5 Không có sự tương quan giữa các ui, tức Cov(i,j) = 0 ij
6 Các ui và Xi không tương quan với nhau, tức Cov(i,Xi) = 0
Các ui tuân theo phân phối chuẩn với kỳ vọng bằng không và phương
7
sai là 2, tức là i ~ N(0, 2)
8 Trong mô hình không tồn tại hiện tượng đa cộng tuyến
11

❖ Nhận xét: đơn vị tính của các biến ảnh hưởng đến việc giải thích ý nghĩa các hệ
số hồi qui. Để loại trừ ảnh hưởng này, biến được chuẩn hóa như sau:

Yi −Y ഥj
Xji −X
➢ Yi∗ = và X ji∗ =
sY sXjj

❖ Lúc đó mô hình hồi qui sẽ là:



➢ Yi = β2∗ X 2i + ⋯ + βk∗ X ki

+ ∗i
❖ Hệ số hồi qui trong mô hình này thường được gọi là hệ số Beta. Mối quan hệ
giữa hệ số chuẩn hóa và chưa chuẩn như sau:
sXj
➢ b∗j = bj
sY
❖ Trong phân tích hồi qui, chúng ta xem xét một số mô hình hồi quy thường được sử
dụng có thể phi tuyến trong các biến nhưng là tuyến tính trong các tham số hoặc
có thể được thực hiện như vậy bằng các phép biến đổi phù hợp của các biến. Cụ
thể, chúng ta thảo luận về các mô hình hồi quy sau:
➢ 1. Mô hình log-linear
➢ 2. Mô hình Semilog
➢ 3. Mô hình Reciprocal
➢ 4. Mô hình logarithmic reciprocal
➢ 5. Mô hình Polynomial regression
➢ 6. The Cobb–Douglas function models
13

❖ Hãy xem xét mô hình sau đây, được gọi là mô hình hồi quy hàm mũ:
➢ 𝑌 = α𝑋𝛽 𝑒 
❖ có thể được thể hiện theo cách khác là:
➢ ln 𝑌 = ln α + 𝛽ln 𝑋 + 
Trong đó: ln = logaric tự nhiên (i.e., log theo cơ số 𝑒, và 𝑒 = 2.718)
❖ Mô hình này được gọi là mô hình log-log hay log đôi.
❖ Bây giờ hãy đặt 𝛼 ∗ = ln𝛼 và 𝑌𝑖∗ = ln 𝑌𝑖 và 𝑋 ∗ = lnX chúng ta có thể viết như
sau:
➢ 𝑌 ∗ = 𝛼 ∗ + 𝛽X ∗ + 
❖ Ước lượng OLS 𝑎∗ và 𝑏 sẽ là những ước lượng không không chệch tuyến tính
tốt nhất tương ứng của 𝛼 ∗ và .
❖ Hệ số góc β đo lượng hệ số của Y tương ứng với X, nghĩa là, phần trăm thay đổi
của Y ứng với một phần trăm thay đổi của X.
14

❖ Một tính năng hấp dẫn của mô hình log-log,


đã làm cho nó trở nên phổ biến trong ứng

Quantity demanded
Y=  X i–
dụng, là hệ số co dãn β đo độ co dãn của Y
đối với X.
❖ Do đó, nếu Y đại diện cho số lượng nhu cầu
hàng hóa và X đơn giá của nó, β đo lường độ
X
co dãn giá của cầu, một thông số có lợi ích Price
kinh tế đáng kể. Nếu mối quan hệ giữa số

Log of quantity demanded


lượng được yêu cầu và giá cả như trong
lnY = ln –LnX
Hình bên.

ln X
Log of price
❖ Hàm sản xuất Cobb-Douglas tổng quát
➢ 𝐿𝑛𝑌𝑖 = 1 + 2 𝐿𝑛𝑋2𝑖 + ⋯ + 𝑘 𝐿𝑛𝑋𝑘𝑖 + 𝑖
❖ Với 𝐿𝑛𝑌𝑖 = 𝐿𝑛(𝑌𝑖 ), 𝐿𝑛𝑋𝑗𝑖 = 𝐿𝑛(𝑋𝑗𝑖 ) và Ln là ký hiệu của logaric theo cơ số tự
nhiên.
❖ Như vậy, từ biến 𝑌𝑖 và 𝑋𝑗𝑖 chúng ta hình thành các biến mới 𝐿𝑛𝑌𝑖 và 𝐿𝑛𝑋𝑗𝑖 . Dựa
vào số liệu biến mới, thực hiện hồi qui như cách đã trình bày ở trên.
❖ Ý nghĩa kinh tế của các số góc 𝛽𝑗 (j=2,...,k): trong điều kiện các nhân tố khác
không đổi, khi nhân tố 𝑋𝑗 tăng lên 1% thì Y bình quân tăng 𝛽𝑗 %. Trong mô hình
này, 𝛽𝑗 chính là hệ số co giãn của Y theo 𝑋𝑗 .
16

❖ Chúng ta có thể nhớ lại công thức lãi kép nổi tiếng sau đây:
➢ 𝑌 = 𝑌0 1 + 𝑟 𝑡
❖ trong đó r là tốc độ tăng trưởng của Y. Lấy logarit tự nhiên của mô hình, chúng
ta có thể viết:
➢ ln 𝑌 = ln 𝑌0 + 𝑡 ln 1 + 𝑟
❖ Đặt 𝛽1 = ln 𝑌0 và 𝛽2 = ln(1 + 𝑟) chúng ta có thể viết lại như sau:
➢ ln 𝑌 = 𝛽1 + 𝛽2 𝑡
❖ Thêm thuật ngữ nhiễu vào mô hình, chúng ta có được:
➢ ln 𝑌 = 𝛽1 + 𝛽2 𝑡 + ε
❖ Mô hình này được gọi là mô hình semilog vì chỉ có một biến xuất hiện ở dạng
logarit.
17

❖ Không giống như mô hình tăng trưởng, trong đó chúng ta quan tâm đến việc
xác định phần trăm tăng trưởng của Y cho một sự thay đổi tuyệt đối của X, giả
sử bây giờ chúng ta muốn tìm sự thay đổi tuyệt đối của Y cho một phần trăm
thay đổi của X. Một mô hình có thể thực hiện mục đích này có thể được viết là:
➢ 𝑌 = 𝛼 + 𝛽ln 𝑋 + ε
❖ Mô hình này được gọi là mô hình lin-log.
❖ Hãy để chúng ta giải thích hệ số độ dốc β:
➢ β = Mức thay đổi của Y/mức thay đổi của lnX = Mức thay đổi của Y/tốc độ
thay đổi của X
18

❖ Dạng Log–lin tổng quát


➢ 𝐿𝑛𝑌𝑖 = 0 + 1 𝑋1𝑖 + 2 𝑋2𝑖 + ⋯ + 𝐾 𝑋𝐾𝑖 + 𝜀𝑖
➢ Với 𝐿𝑛𝑌𝑖 = 𝐿𝑛(𝑌𝑖 ) với Ln là logaric theo cơ số tự nhiên.
➢ Ý nghĩa kinh tế của 𝑗 (j=1,...,k): khi các nguyên nhân 𝑋𝑗 tăng lên 1 đơn vị thì
Y bình quân tăng lên 𝑗 % trong điều kiện các nhân tố khác không đổi.
❖ Dạng lin–log tổng quát
➢ 𝑌 = 0 + 1 𝐿𝑛𝑋1 + 2 𝐿𝑛𝑋2 + ⋯ + 𝐾 𝐿𝑛𝑋𝑘 + 𝜀
➢ Trong đó: 𝐿𝑛𝑋𝑗𝑖 = 𝐿𝑛(𝑋𝑗𝑖 ) (j=1,…,k) với Ln là logaric theo cơ số tự nhiên.
➢ Ý nghĩa kinh tế của 𝑗 (j=2,...,k): khi 𝑋𝑗 tăng lên 1% thì chỉ tiêu Y bình quân
tăng lên 𝑗 đơn vị trong điều kiện các nhân tố khác không đổi.
19

❖ Các mô hình thuộc loại sau đây được gọi là mô hình nghịch đảo.
1
➢𝑌 =  + 𝛽 +ε
𝑋
❖ Mặc dù mô hình này là phi tuyến theo biến X nhưng là mô hình là tuyến tính
trong α và β và do đó là một mô hình hồi quy tuyến tính.
❖ Mô hình này có các đặc trưng: Khi X tăng vô thời hạn, phần β(1/X) tiệm cận
bằng không (lưu ý: β là hằng số) và Y tiệm cận giá trị giới hạn hoặc tiệm cận .
Do đó, các mô hình này đã xây dựng trong chúng một giá trị tiệm cận hoặc giới
hạn mà biến phụ thuộc sẽ lấy khi giá trị của biến X tăng vô thời hạn.
20

Y Y Y

>0 >0 <0


>0 
<0 1


X 0 – - X
0 0 X /

–

(a) (b) (c)


21

❖ Các mô hình nghịch đảo logarit có dạng sau:


1
➢ ln 𝑌 =  − 𝛽 +ε
𝑋
❖ Hình dạng của nó như được mô tả trong
Hình bên. Như hình này cho thấy, ban đầu Y
tăng với tốc độ tăng và sau đó nó tăng với
tốc độ giảm. Do đó, mô hình như vậy có thể
thích hợp để mô hình hóa một hàm sản xuất
ngắn hạn.

X
❖ Hồi quy đa thức bậc kth tổng quát có thể được viết như sau:
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + ⋯ + 𝛽𝑘 𝑋 𝑘 + ε
❖ Lưu ý rằng trong các loại hồi quy đa thức này chỉ có một biến giải thích ở phía bên tay phải
nhưng nó xuất hiện với nhiều bậc khác nhau, do đó làm cho chúng trở thành mô hình hồi
quy bội. Ngẫu nhiên, lưu ý rằng nếu 𝑋𝑖 được giả định là cố định hoặc không phải là cố định,
các bậc của X cũng trở thành cố định hoặc không tự nhiên.
❖ Mô hình parabol được biểu diễn bằng phương trình sau:
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝜀
được gọi là hàm bậc hai, hay nói chung hơn là đa thức bậc hai theo biến X—lũy thừa cao nhất
của X đại diện cho bậc của đa thức.
❖ Mô hình lập phương được biểu diễn bằng phương trình sau:
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝛽3 𝑋 3 + 𝜀
được gọi là hàm lập phương, hay nói chung hơn, đa thức bậc ba theo biến X—lũy thừa cao
nhất của X đại diện cho bậc của đa thức.
23

Y
❖ Hình chữ S này của đường cong tổng chi phí có thể được
biểu diễn bởi đa thức bậc ba hoặc lập phương sau: TC
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝛽3 𝑋 3 + 𝜀

Cost
❖ Đường cong chi phí cận biên hình chữ U và đường cong chi
phí trung bình (AC) theo sản phẩm:
❖ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝜀
❖ Ghi chú: X
Output
➢ Lý thuyết giá cơ bản cho thấy rằng trong ngắn hạn, các
MC
đường cong chi phí cận biên (MC) và chi phí trung bình
(AC) của sản xuất thường có hình chữ U — ban đầu, AC
khi sản lượng tăng cả MC và AC giảm, nhưng sau một

Cost
mức sản lượng nhất định, cả hai đều hướng lên trên,
một lần nữa là nhược điểm của định luật lợi nhuận
giảm dần. X
Output
❖ Quadratic: 𝐸 𝑌𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2
❖ Cubic: 𝐸 𝑌𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2 + 𝛽3 𝑡 3
❖ Power: 𝐸 𝑌𝑡 = 𝛽0 𝑡𝛽1
❖ S: 𝐸 𝑌𝑡 = exp 𝛽0 + 𝛽1 /𝑡
❖ Growth: 𝐸 𝑌𝑡 = exp 𝛽0 + 𝛽1 𝑡
❖ Exponential: 𝐸 𝑌𝑡 = 𝛽0 𝑒 𝛽1 𝑡
1 −1
❖ Logistic: 𝐸 𝑌𝑡 = + 𝛽0 𝛽1𝑡
𝑢
25

Dạng tổng thể ngẫu nhiên Dữ liệu mẫu:


Yi = 1 + 2X2 +. . .+ kXk +  𝑦 𝑥1 𝑥2 ⋯ 𝑥𝑝
Dạng tổng thể kỳ vọng 𝑦1 𝑥11 𝑥21 ⋯ 𝑥𝑝1
E(Y) = 1 + 2X2 +. . .+ kXk ⋮ ⋮ ⋮ ⋮ ⋮
Tham số chưa biết là 𝑦1 𝑥1𝑛 𝑥2𝑛 ⋯ 𝑥𝑝𝑛
1, 2, . . . , k

Dạng mẫu ngẫu nhiên


b1, b2, . . . , bk
là các ước lượng của
Yi = b1 + b2 X 2 + ... + bk X k + ei
1, 2, . . . , k Thống kê mẫu
b1, b2, . . . , bk
26

❖ Dạng thông thường

❖ Dạng ma trận
➢ B = (X T X)−1 X T Y
❖ Công thức tính
𝑆𝑆𝑅
➢ 𝑅2 =
𝑆𝑆𝑇
❖ Tính chất: 0  R2 1:
➢ R2= 1: Mô hình hồi qui phù hợp “hoàn hảo”.
➢ R2= 0: Mô hình hồi qui không phù hợp, tức biến phụ thuộc không có quan
hệ với các biến giải thích.
❖ Ý nghĩa:
➢ Đánh giá mức độ phù hợp của mô hình: giá trị của hệ số xác định càng lớn
thì mô hình càng phù hợp.
➢ Phản ảnh tỷ lệ % phần biến động của biến phụ thuộc giải thích được bằng
đường hồi qui trong toàn bộ biến động của nó.
❖ Công thức tính
𝑆𝑆𝐸 Τ 𝑛 − 𝑘 ෌ 𝑒𝑖2 Τ 𝑛 − 𝑘
𝑅ത 2 = 1 − =1−
𝑆𝑆𝑇Τ 𝑛 − 1 ෌ 𝑦𝑖2 Τ 𝑛 − 1
❖ Tính chất:
➢ Giá trị của hệ số xác định điều chỉnh có thể âm;
➢ Nếu k >1, thì hệ số xác định điều chỉnh nhỏ hơn hệ số xác định.
➢ Mối liên hệ giữa hệ số xác định và hệ số xác định điều chỉnh:
𝑛−1
𝑅ത 2 = 1 − × (1 − 𝑅 2 )
𝑛−𝑘
❖ Trong SPSS, hệ số xác định và hệ số xác định được tính mặt nhiên trong thủ tục
hồi qui.
❖ Một số từ tiếng Anh
➢ Model Summary: Tóm tắc mô hình
➢ R Square: hệ số xác định
➢ Adjusted R Square: Hệ số xác định điều chỉnh
➢ Std. Error of the Estimate: sai số mô hình
Model Summary
Nhận xét: R Square = 0,699: mô hình phù
hợp và trong 100% phần biến động của chi
Adjusted R Std. Error of
Model R R Square Square the Estimate tiêu thì do 2 nhân tố thu nhập và qui mô gia
3,049465 đình chiếm 69,9%.
a
1 0,836 0,699 0,682
a. Predictors: (Constant), X3, X2
❖ Khi thực hiện các suy đoán thống kê về các tham số hồi qui, chúng ta có thể
đưa ra giả thuyết khác nhau về chúng. Chẳng hạn H0: j=j*.
❖ Nếu H0 đúng, chúng ta có:
➢ 𝑇 = 𝑏𝑗 − 𝛽𝑗∗ ൗ𝑆𝑒(𝑏𝑗 ൯ ~𝑇(𝑛 − 𝑘 ൯
𝑇(𝑛 − 𝑘): Phân phối T với bậc tự do (n-k)
Trong đó: Se(bj) là sai số chuẩn
Tiếp cận giá trị tới hạn
Critical Value Approach
Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
Bước 1 Bên phải: H0: j ∗j và H1: j > ∗j
H0: j= ∗j và H1: j ≠ j∗
Bên trái: H0: j  ∗j và H1: j < ∗j
Bước 2 Chọn mức ý nghĩa 
bj −j∗
Bước 3 Tính thống kê kiểm định: t =
Se(bj ൯

Tính giá trị tới hạn: Căn cứ vào mức ý nghĩa xác định giá trị tới hạn
Bước 4
Critical Value = t/2( n-k) Critical Value =t(n-k)
Kết luận : Bác bỏ H0
Bước 5 Bên phải: Nếu t > t(n-k)
Nếu t>t(n-k)
Bên trái: Nếu t <-t(n-k)
Tiếp cận giá trị xác suất
p-Value Approach
Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
Bước 1 H0: j= ∗j và H1: j ≠ j∗ Bên phải: H0: j ∗j và H1: j > ∗j
Bên trái: H0: j  ∗j và H1: j < ∗j
Bước 2 Chọn mức ý nghĩa 
bj −j∗
Bước 3 Tính thống kê kiểm định: t =
Se(bj ൯

Bước 4 Căn cứ vào giá trị thống kê kiểm định, xác định p-value = P(T>|t|)
Kết luận : Bác bỏ H0
Bước 5
Nếu p-value  /2 Nếu p-value  
Tiếp cận giá trị tới hạn Tiếp cận giá trị xác suất
Xây dựng cặp giả thuyết
Bước 1
H0: j= 0 và H1: j ≠ 0

Bước 2 Chọn mức ý nghĩa 


bj
Bước 3 Tính: t =
Se(bj ൯
Căn cứ vào mức ý nghĩa, xác định giá Căn cứ vào giá trị thống kê kiểm định, xác
Bước 4 trị tới hạn t/2( n-k) định p-value = P(T>|t|)
Kết luận : Bác bỏ H0
Bước 5
Nếu t>t(n-k) Nếu p-value  

Chú ý: Kết quả kiểm định này được tính sẵn


trong các phần mềm thống kê
❖ Xuất phát từ kết quả hồi qui như trên, chúng ta chỉ mới biết về các ước lượng
điểm của các tham số hồi qui. Chính vì vậy cần phải tìm khoảng tin cậy cho
từng tham số. Với hệ số tin cậy (1- ), khoảng tin cậy của j (j=1,k) được xác
định như sau:
bj − βj
P −t α /2 (n − k) ≤ ≤ t α /2 (n − k) = 1 − α
Se(bj )
bj − t α /2 (n − k) × Se(bj ) ≤ βj ≤ bj + t α /2 (n − k) × Se(bj )
❖ Hay khoảng tin cậy 100(1- )% của j là
❖ Hãy xét mô hình hồi qui k biến
Yi = 1 + 2X2i +  +kXki + i
❖ Xây dựng cặp giả thuyết:
➢ H0: 2 =…= k = 0 Ðiều này có nghĩa là biến phụ thuộc không chịu ảnh
hưởng bởi bất cứ biến giải thích nào hay nói khác, mô hình không phù hợp.
➢ H1: Tồn tại ít nhất một hệ số góc khác không. Ðiều này có nghĩa là biến phụ
thuộc chịu ảnh hưởng bởi ít nhất một biến giải thích nào đó.
❖ Nếu H0 đúng thì
SSRΤ k−1
F= ~F(k − 1, n − k)
SSEΤ n−k
Tiếp cận giá trị tới hạn Tiếp cận giá trị xác suất
Xây dựng cặp giả thuyết
Bước 1
H0: 2=3=…=k =0 và H1: Tồn tại ít nhất một hệ số góc ≠ 0

Bước 2 Chọn mức ý nghĩa 


𝑆𝑆𝑅 Τ 𝑘−1
Bước 3 Tính thống kê kiểm định: 𝐹 =
𝑆𝑆𝐸 Τ 𝑛−𝑘
Căn cứ vào mức ý nghĩa, xác định Căn cứ vào giá trị thống kê kiểm định, xác
Bước 4
giá trị tới hạn F (k-1, n-k) định p-value = P(F> f)
Kết luận : Bác bỏ H0
Bước 5
Nếu f>f(k-1,n-k) Nếu p-value  

Chú ý: Kết quả kiểm định này được tính sẵn


trong các phần mềm thống kê
❖ Kết quả kiểm định sự phù hợp của mô hình được trình bày trên bảng phân tích
phương sai (ANOVA) có dạng như sau:
Tổng bình Bậc tự Trung bình bình
phương do phương F
SS Df MS
(1) (2) (3)=(1)/(2) (4)=(3.1)/(3.2)
Từ hồi qui SSR 1 MSR (3.1) MSR/MSE
Từ phần dư SSE n–k MSE (3.2)
Tổng SST n–1
38

❖ Ngoài việc kiểm định tất cả các hệ số góc đồng thời bằng không, trong phân
tích hồi qui còn thực kiểm định một số các hệ số góc đồng thời bằng không
nhằm kiểm định một các nhân tố có ảnh hưởng đến biến phụ thuộc hay không.
❖ Giả sử chúng ta có mô hình hồi qui:
➢ 𝑈𝑅 𝑌𝑖 = 1 + 2 𝑋2𝑖 + ⋯ + 𝑝 𝑋𝑝𝑖 + 𝑝+1 𝑋 𝑝+1 𝑖 + ⋯ + 𝑘 𝑋𝑘𝑖 + ε𝑖
❖ Mô hình này gọi là mô hình không có ràng buộc (UR: UnRestricted)
❖ Giả sử có các ràng buộc về các 𝑗 như sau:
➢ 𝑝+1 = 𝑝+2 = ⋯ = 𝑘 = 0
❖ Vậy, chúng ta có mô hình ràng buộc (R: Restricted):
➢ (R) 𝑌𝑖 = 1 + 2 𝑋2𝑖 + ⋯ + 𝑝 𝑋𝑝𝑖 + 𝑣𝑖
39

❖ Bước 1: Xây dựng cặp giả thuyết:


➢ 𝐻0 : 𝑝+1 = 𝑝+2 = ⋯ = 𝑘 = 0
➢ 𝐻1 : ít nhất một trong các hệ số góc này khác 0.
❖ Bước 2: Cho mức ý nghĩa 
❖ Bước 3: Thực hiện hồi qui hai mô hình bằng OLS, tính:
(𝑅𝑆𝑆𝑅 −𝑅𝑆𝑆𝑈𝑅 )Τ(𝑘−𝑝) 𝑛−𝑘 𝑅𝑆𝑆𝑅 −𝑅𝑆𝑆𝑈𝑅
➢𝐹= = ×
(𝑅𝑆𝑆𝑈𝑅 )Τ(𝑛−𝑘) 𝑘−𝑝 𝑅𝑆𝑆𝑈𝑅
❖ Bước 4: Tra bảng phân phối F, chúng ta xác định 𝐹[ 𝑘−𝑝 ,(𝑛−𝑘)]
❖ Bước 5: So sánh F và 𝐹[(𝑘−𝑝),(𝑛−𝑘)] . Nếu F> 𝐹[(𝑘−𝑝),(𝑛−𝑘)] thì bác bỏ 𝐻0
❖ Chú ý: Chúng ta có thể tính F như sau:
2 2 2 2
(𝑅𝑈𝑅 −𝑅𝑅 )ൗ(𝑘−𝑝) 𝑛−𝑘 𝑅𝑈𝑅 −𝑅𝑅
➢𝐹= 2 )Τ(𝑛−𝑘) = × 2
(1−𝑅𝑈𝑅 𝑘−𝑝 1−𝑅𝑈𝑅
40
❖ Trong khi tiến hành kiểm định giả thuyết, ngoài những tình huống trên, chúng ta còn
có thể gặp tình huống kiểm định sự ràng buộc tuyến tính của hai tham số hồi qui.
❖ Giả sử chúng ta có mô hình hồi qui bội
➢ 𝑌𝑖 = 1 + 2 𝑋2𝑖 + ⋯ + 𝑘 𝑋𝑘𝑖 + ε𝑖
❖ Với 𝑝 , 𝑚 tương ứng là những tham số bất kỳ của mô hình hồi qui, chúng ta có thể
tiến hành kiểm định cặp giả thuyết sau:
➢ 𝐻0 : 𝑝 𝑚 = ∗ 𝑣à 𝐻0 : 𝑝 𝑚 ≠ ∗
➢ 𝐻0 : 𝑝 𝑚 ≥ ∗ 𝑣à 𝐻0 : 𝑝 𝑚 < ∗
➢ 𝐻0 : 𝑝 𝑚 ≤ ∗ 𝑣à 𝐻0 : 𝑝 𝑚 > ∗
❖ Trong trường hợp này, chúng ta dùng thống kê t như sau để kiểm định
(𝑏𝑝 ±𝑏𝑚 )−(𝛽𝑝 ±𝛽𝑚 ) (𝑏𝑝 ±𝑏𝑚 )−𝛽 ∗
➢ 𝑇= =
𝑆𝑒(𝑏𝑝 ±𝑏𝑚 ) 𝑆𝑒(𝑏𝑝 ±𝑏𝑚 )
41

❖ Chúng ta biết: T~T(n-k)


❖ Trong đó, Se(𝑏𝑝 𝑏𝑚 ) được tính như sau:
➢ Se(𝑏𝑝 ± 𝑏𝑚 ) = Var(𝑏𝑝 ) + Var(𝑏𝑚 ) ± 2𝐶𝑜𝑣(𝑏𝑝 , 𝑏𝑚 )
42
❖ Xem xét mô hình sau:
➢ 𝐿𝑛𝑌𝑖 = 1 + 2 𝐿𝑛𝑋2𝑖 + 3 𝐿𝑛𝑋3𝑖 + 𝜀𝑖
❖ Chúng ta muốn kiểm định về hiệu quả không đổi theo qui mô cần tiến hành kiểm định
cặp giả thuyết sau:
➢ 𝐻0 : 2 + 3 = 1 𝑣à 𝐻0 : 2 + 3  1
❖ Khi đó, chúng ta dùng thống kê t như sau:
(𝑏2 +𝑏3 )−1 (𝑏2 +𝑏3 )−1
➢ 𝑡= =
𝑆𝑒(𝑏2 +𝑏3 ) 𝑉𝑎𝑟(𝑏2 )+𝑉𝑎𝑟(𝑏3 )+2𝐶𝑜𝑣(𝑏2 ,𝑏3 )
❖ Chúng ta muốn kiểm định về hiệu quả giảm theo qui mô cần tiến hành kiểm định cặp
giả thuyết sau:
➢ 𝐻0 : 2 + 3 1 𝑣à 𝐻0 : 2 + 3 < 1
❖ Khi đó, chúng ta dùng thống kê t như sau
(𝑏2 +𝑏3 )−1 (𝑏2 +𝑏3 )−1
➢ 𝑡= =
𝑆𝑒(𝑏2 +𝑏3 ) 𝑉𝑎𝑟(𝑏2 )+𝑉𝑎𝑟(𝑏3 )+2𝐶𝑜𝑣(𝑏2 ,𝑏3 )
43

❖ Chúng ta muốn kiểm định rằng ảnh hưởng của nhân tố vốn và lao động là như
nhau đến kết quả sản xuất cần tiến hành kiểm định cặp giả thuyết sau:
➢ 𝐻0 : 2 = 3 và 𝐻0 : 2 3 Hay
➢ 𝐻0 : 2 − 3 = 0 và 𝐻0 : 2 − 3 0
❖ Khi đó, chúng ta dùng thống kê t như sau:
(𝑏2 +𝑏3 ) (𝑏2 +𝑏3 )
➢𝑡= =
𝑆𝑒(𝑏2 +𝑏3 ) 𝑉𝑎𝑟(𝑏2 )+𝑉𝑎𝑟(𝑏3 )+2𝐶𝑜𝑣(𝑏2 ,𝑏3 )
44
❖ Ví dụ: Căn cứ vào tài liệu về giá trị tăng thêm (Y: tỷ), lao động (X2: ngàn người) và vốn (X3: tỷ
đồng) trong một ngành, thực hiện hồi qui:
➢ 𝐿𝑛𝑌𝑖 = 𝛽1 + 𝛽2 𝐿𝑛𝑋2𝑖 + 𝛽3 𝑙𝑛𝑋3𝑖 + 𝜀𝑖
➢ Kết quả như trên Bảng sau:

Coefficients Standard Error t Stat P-value


Intercept 4,49847405 1,833009427 2,454146707 0,030361979
LnX2 0,96068622 0,405042359 2,371816673 0,035284583
LnX3 0,35879839 0,076353957 4,699146006 0,00051506

❖ Ngoài ra còn biết thêm ma trận phương sai hiệp phương sai của các hệ số hồi qui như sau

3,3599224841
➢ Cov(𝐵) = −0,708358022 0,16405926
0,064108786 −0,021748475 0,005829925
45
❖ Chúng ta muốn kiểm định về hiệu quả tăng theo qui mô cần tiến hành kiểm
định cặp giả thuyết sau:
➢ 𝐻0 : 2 + 3 1 𝑣à 𝐻0 : 2 + 3 > 1
❖ Khi đó, chúng ta dùng thống kê t như sau:
(𝑏2 +𝑏3 )−1
➢𝑡=
𝑉𝑎𝑟(𝑏2 )+𝑉𝑎𝑟(𝑏3 )+2𝐶𝑜𝑣(𝑏2 ,𝑏3 )

0,96068622+0,35879839−1
➢=
0,16405926+0,005829925−2×0,021748475)
➢ = 1,028724
❖ Tra bảng phân phối t với mức ý nghĩa 0,05, chúng ta được 𝑡0,05 12 =1,782.
❖ Vì t < t0,05(12) nên chấp nhận H0 với mức ý nghĩa 5% hay nói khác hiệu quả
giảm theo qui mô.
46
❖ Khi chúng ta sử dụng mô hình hồi quy liên quan đến dữ liệu chuỗi thời gian, có thể
xảy ra sự thay đổi về cấu trúc trong mối quan hệ giữa biến hồi quy và Y và các biến
hồi quy. Điều này có thể dẫn đến các giá trị của các tham số của mô hình thay đổi
trong toàn bộ khoảng thời gian.
❖ Xem dữ liệu ở Slides trang sau.
❖ Bây giờ chúng ta có thể có ba mô hình hồi quy
➢ Giai đoạn 1970-1981: 𝑌𝑡 = 𝜆1 + 𝜆2 𝑋𝑡 + ε1𝑡 𝑛1 = 12 (1)
Giai đoạn 1982-1995: 𝑌𝑡 = 𝛾1 + 𝛾2 𝑋𝑡 + ε2𝑡 𝑛2 = 14 (2)
Giai đoạn 1970-1995: 𝑌𝑡 = 𝛼1 + 𝛼2 𝑋𝑡 + ε𝑡 𝑛 = 𝑛1 + 𝑛2 = 26 (3)
❖ Hồi quy (3) giả định rằng không có sự khác biệt giữa hai khoảng thời gian và do đó
ước tính mối quan hệ giữa tiết kiệm và thu nhập khả dụng trong toàn bộ khoảng
thời gian bao gồm 26 quan sát. Nói cách khác, hồi quy này giả định rằng hệ số
chặn cũng như hệ số góc không đổi trong toàn bộ thời kỳ; tức là không có sự thay
đổi cấu trúc. Nếu đây thực sự là tình huống, thì 𝛼1 = 𝜆1 = 𝛾1 và 𝛼2 = 𝜆2 = 𝛾2 .
47
Observation Savings Income Observation Savings Income
1970 61.0 727.1 1983 167.0 2522.4
1971 68.6 790.2 1984 235.7 2810.0
1972 63.6 855.3 1985 206.2 3002.0
1973 89.6 965.0 1986 196.5 3187.6
1974 97.6 1054.2 1987 168.4 3363.1
1975 104.4 1159.2 1988 189.1 3640.8
1976 96.4 1273.0 1989 187.8 3894.5
1977 92.5 1401.4 1990 208.7 4166.8
1978 112.6 1580.1 1991 246.4 4343.7
1979 130.1 1769.5 1992 272.6 4613.7
1980 161.8 1973.3 1993 214.4 4790.2
1981 199.1 2200.2 1994 189.4 5021.7
1982 205.5 2347.3 1995 249.3 5320.8
48

❖ Các giả thiết của kiểm định Chow:


➢ Các sai số ngẫu nhiên 1𝑖 và 2𝑖 đều tuân theo phân phối chuẩn có kỳ vọng
bằng 0 và phương sai đồng nhất và đều bằng 2 , tức là:
1𝑖  𝑁(0, 2 ) và 2𝑖  𝑁(0, 2 )
➢ Các 1𝑖 và 2𝑖 có phân phối độc lập
❖ Qui tắc kiểm định Chow
➢ Ước tính hồi quy (3), và thu được 𝑅𝑆𝑆3 với df = 𝑛1 + 𝑛2 − 𝑘 , trong đó 𝑘
là số tham số được ước lượng. Gọi RSS3 tổng bình phương của các phần dư
ràng buộc ൫𝐑𝐒𝐒𝐑 ) vì nó chứa những ràng buộc 𝜆1 = 𝛾1 và 𝜆2 = 𝛾2
➢ Ước lượng (1) và được RSS1 , với df = 𝑛1 − 𝑘 .
➢ Ước lượng (2) và được RSS2 , với df = 𝑛2 − 𝑘 .
49

❖ Vì hai mẫu độc lập nên có thể cộng RSS1 và RSS2 để được tổng bình các phần
dư không ràng buộc RSSUR , chúng ta được:
➢ RSSUR = RSS1 + RSS2 với df = 𝑛1 + 𝑛2 − 2𝑘
❖ Chúng ta có:
RSSR −RSSUR /𝑘
➢𝐹= ∼ 𝐹 𝑘, 𝑛1 +𝑛2 −2𝑘
RSSUR / 𝑛1 +𝑛2 −2𝑘
❖ Chúng ta không bác bỏ giả thuyết không về độ ổn định của tham số nếu giá trị F
được tính toán trong một ứng dụng không vượt quá giá trị F tới hạn thu được
từ bảng F ở mức ý nghĩa đã chọn (hoặc giá trị p).
❖ Trong trường hợp này, chúng ta có thể sử dụng hồi quy gộp (3).
❖ Ngược lại, nếu giá trị F được tính toán vượt quá giá trị F tới hạn, chúng ta bác
bỏ giả thuyết về độ ổn định của tham số và kết luận rằng các hồi quy (1) và (2)
là khác nhau, trong trường hợp đó, hồi quy gộp (3) có giá trị đáng ngờ.
5050

❖ Trong thực tiễn, một số giá trị của biến phụ


thuộc thay đổi rõ rệt khi giá trị của biến giải
thích vượt qua một trị số 𝑋 ∗ nào đó. II

❖ Khi có sự thay đổi, chúng ta không cần phải


thực hiện lại hàm hồi qui khác mà sử dụng I

hồi qui tuyến tính từng khúc. Để giải quyết


vấn đề này, chúng ta sử dụng kỹ thuật biến
giả.
❖ Quan sát đồ thị, chúng ta nhận thấy đồ thị
gồm 2 khúc: Trước và sau giá trị 𝑋 ∗ 𝑋∗
51
❖ Trước tiên xây dựng biến giả như sau:
➢ 𝐷𝑖 = 1 nếu 𝑋𝑖 >X* và =0 nếu 𝑋𝑖  X* 2 + 3
❖ Khi đó, hàm hồi qui có dạng:
1
➢ 𝑌𝑖 = 1 + 2 𝑋𝑖 + 3 𝑋𝑖 – 𝑋 ∗ 𝐷𝑖 + 𝜀𝑖
❖ Giả sử 𝐸(𝜀𝑖 ) = 0, chúng ta có: 2
➢ 𝐸(𝑌𝑖 /𝐷𝑖 , 𝑋𝑖 , 𝑋 ∗ ) = 1 + 2 𝑋𝑖 + 3 𝑋𝑖 – 𝑋 ∗ 𝐷𝑖 1

❖ Hồi qui thể hiện trước giá trị X* (khúc I): 1

➢ 𝐸(𝑌𝑖 /𝐷𝑖 = 0, 𝑋𝑖 , 𝑋 ∗ ) = 1 + 2 𝑋𝑖
1 − 3 𝑋 ∗ X*
❖ Hồi qui thể hiện sau giá trị X* (khúc II):
➢ 𝐸 𝑌𝑖 /𝐷𝑖 = 1, 𝑋𝑖 , 𝑋 ∗ = 1 − 3 𝑋 ∗ + 2 + 3 𝑋𝑖
❖ Như vậy, 2 là hệ số góc của hồi qui của khúc I, và 2 + 3 là hệ số góc của hồi
qui khúc II. Xem đồ thị.
52

❖ Trong mô hình hồi qui bội, có nhiều biến giải thích và chúng ta có thể thực hiện
tính toán nhiều hệ số tương quan giữa chúng. Kết quả có thể bố trí thành một
ma trận gọi là ma trận hệ số tương quan như sau:
𝑟11 𝑟12 𝑟13 . . . 𝑟1𝑘 1 𝑟12 𝑟13 . . . 𝑟1𝑘
𝑟21 𝑟22 𝑟23 . . . 𝑟2𝑘 𝑟21 1 𝑟23 . . . 𝑟2𝑘
❖ 𝑅 = ... ... ... ... ... = ... ... ... ... ...
𝑟1𝑘 𝑟𝑘2 𝑟𝑘3 . . . 𝑟𝑘𝑘 𝑟1𝑘 𝑟𝑘2 𝑟𝑘3 . . . 1
❖ Trong đó chỉ số dưới 1 thể hiện biến phụ thuộc Y (𝑟12 chính là hệ số tương
quan giữa biến phụ thuộc Y và 𝑋2 ) và 𝑟11 = 𝑟22 = ⋯ = 𝑟𝑘𝑘 = 1
❖ Chúng ta nhận thấy ma trận hệ số tương quan đối xứng qua đường chéo chính.
Chính vì tính chất này mà để đơn giản, chúng ta có thể biểu diễn ma trận hệ số
tương quan như sau
53

❖ Chúng ta nhận thấy ma trận hệ số tương quan đối xứng qua đường chéo chính.
Chính vì tính chất này mà để đơn giản, chúng ta có thể biểu diễn ma trận hệ số
tương quan như sau :
1
𝑟 1
❖ 𝑅 = 21
... ... ...
𝑟1𝑘 𝑟𝑘2 𝑟𝑘3 ... 1
54
❖ Ðể kiểm định giả thuyết, tìm khoảng tin cậy và thực hiện các suy đoán thống kê liên
quan đến các tham số hồi qui, chúng ta cần phải tìm các phương sai và hiệp phương
sai của các hệ số hồi qui. Trong mô hình hồi qui bội, thực hiện tính các phương sai và
hiệp phương sai cần được thực hiện bằng ma trận.
❖ Ma trận hiệp phương sai của các hệ số hồi qui có dạng

𝑉𝑎𝑟(𝑏1 ) 𝐶𝑜𝑣(𝑏1 , 𝑏2 ) ⋯ 𝐶𝑜𝑣(𝑏1 , 𝑏𝑘 )


𝐶𝑜𝑣(𝑏1 , 𝑏2 ) 𝑉𝑎𝑟(𝑏2 ) ⋯ 𝐶𝑜𝑣(𝑏2 , 𝑏𝑘 )
❖ 𝐶𝑜𝑣(𝐵) =
⋮ ⋮ ⋮
𝐶𝑜𝑣(𝑏1 , 𝑏𝑘 ) 𝐶𝑜𝑣(𝑏2 , 𝑏𝑘 ) ⋯ 𝑉𝑎𝑟(𝑏𝑘 )
❖ Theo định nghĩa, chúng ta có
➢ Cov(B) = B − E B B − E B T
❖ Vậy, Cov (B) được xác định như sau
➢ 𝐶𝑜𝑣 𝐵 = 2 𝑋 𝑇 𝑋 −1
55
❖ Tương quan từng phần là thước đo cường độ và hướng của mối quan hệ tuyến tính
giữa hai biến liên tục trong khi kiểm soát tác động của một hoặc nhiều biến liên tục
khác.
❖ 𝑟12.3 = hệ số tương quan giữa 𝑌 và 𝑋2 , cố định 𝑋3 như hằng số
❖ 𝑟13.2 = hệ số tương quan giữa 𝑌 và 𝑋3 , cố định 𝑋2 như hằng số
❖ 𝑟23.1 = hệ số tương quan giữa 𝑋2 và 𝑋3 , cố định Y như hằng số
𝑟12 −𝑟13 𝑟23
➢ 𝑟12.3 =
2
1−𝑟13 2
1−𝑟23

𝑟13 −𝑟12 𝑟23


➢ 𝑟13.2 =
2
1−𝑟12 2
1−𝑟23

𝑟23 −𝑟12 𝑟13


➢ 𝑟23.1 =
2
1−𝑟12 2
1−𝑟13

❖ Các hệ số tương quan này được gọi là hệ số tương quan bậc 1.


❖ Nhằm đánh giá mức độ phù hợp của mô hình, cần dùng đại lượng sai số của mô
hình với công thức như sau:

𝜎ො = ෍ 𝑒𝑖2 ൗ 𝑛 − 2

Đại lượng còn được dùng để ước lượng phương sai của các phần dư.
Đại lượng này được trình bày trong kết xuất của SPSS với tên gọi là sai số chuẩn
của ước lượng (Std. Error of the Estimate)
57
❖ Phần dư từ mô hình hồi quy đóng vai trò quan trọng vai trò trong việc đánh giá
mức độ phù hợp của mô hình.
❖ Trong khi phân tích hồi qui, chúng ta có thể tính các phần dư như sau:
➢ Phần dư chuẩn hóa (The standardized residuals)
𝑒𝑖 𝑒𝑖
✓ 𝑑𝑖 = =
𝑀𝑆𝐸 𝜎ƶ 2
➢ Phần dư Students hóa (The studentized residual)
𝑒𝑖
✓ 𝑟𝑖 = 𝑖 = 1,2, … , 𝑛
𝜎ƶ 2 1−ℎ𝑖𝑖
➢ Trong đó, ℎ𝑖𝑖 là phần tử thứ i trên đường chéo chính của ma trận
T −1 T
✓H=X X X X
✓ Ma trận này được gọi là ma trận "hat“
➢ Yƶ = 𝐗𝐵 = 𝐗 𝑋 𝑇 𝐗 −1 𝑋 𝑇 𝐲 = 𝐇𝐲
58
ƶ Vì
❖ Ma trận H biến đổi các giá trị quan sát của y thành một vectơ các giá trị phù hợp Y.
mỗi hàng của ma trận X tương ứng với một vectơ, giả sử 𝑋𝑖 = (1 𝑋2𝑖 𝑋3𝑖 ⋯ 𝑋𝑘𝑖 ), một
cách khác để viết các phần tử đường chéo của ma trận H là
➢ ℎ𝑖𝑖 = 𝑋𝑖 𝑋 𝑇 𝑋 −1 𝑋𝑖𝑇
❖ Theo giả thiết về các sai số mô hình phân phối độc lập với trung bình bằng 0 và
phương sai 𝜎 2 , chúng ta có thể chỉ ra rằng phương sai của phần dư thứ 𝑖 𝑒𝑖 là
➢ 𝑉 𝑒𝑖 = 𝜎 2 1 − ℎ𝑖𝑖 , 𝑖 = 1,2, … , 𝑛
❖ Hơn nữa, các phần tử ℎ𝑖𝑖 phải nằm trong khoảng 0<ℎ𝑖𝑖 ≤1 và các phần tử ℎ𝑖𝑖 trung bình
là p/n , trong đó p = k + 1. Điều này ngụ ý rằng phần dư được tiêu chuẩn hóa sẽ đánh
giá thấp độ lớn của phần dư thực; do đó, phần dư Students hóa sẽ là một thống kê tốt
hơn để kiểm tra trong việc đánh giá các ngoại lệ tiềm năng.
❖ Lưu ý rằng phần dư studentized lớn hơn phần dư chuẩn hóa tương ứng.
❖ Qui tắc thực hành: Stevens gợi ý rằng bất kỳ phần tử ℎ𝑖𝑖 nào (còn gọi là leverage) lớn
hơn 3p/n đều cần được kiểm tra cẩn thận.
59

❖ Trong phân tích hồi qui, ngoài những phân dư như đã trình bày còn có những
phân dư khác như:
➢ Phần dư được xóa (The deleted residuals):
✓ Phần dư cho một trường hợp khi trường hợp đó bị loại khỏi việc tính toán
các hệ số hồi quy. Đó là sự khác biệt giữa giá trị của biến phụ thuộc và giá
trị dự đoán được điều chỉnh.
➢ Nếu chúng ta đặt:
✓ Y𝑖 giá trị quan sát ứng với quan sát thứ i
✓ Yƶ (𝑖) giá trị từ hồi qui ứng với quan sát thứ I dựa trên mô hình được ước
lượng khi đã xoát quan sát thứ i:.
➢ Khi đó, phần dư xóa (chưa chuẩn hóa) thứ i:
✓ 𝑑𝑖 = Y𝑖 − Yƶ (𝑖)
60
➢ Phần dư Students hóa đã xóa (Studentized deleted):
✓ Phần dư đã xóa của một trường hợp chia cho sai số chuẩn của nó:
𝑑𝑖 𝑒𝑖
▪ 𝑡𝑖 = =
𝑠 𝑑𝑖 𝑀𝑆𝐸(𝑖) 1−ℎ𝑖𝑖

✓ Sự khác biệt giữa phần dư Studentized đã xóa và phần dư được


Studentized liên quan của nó cho biết mức độ khác biệt khi loại bỏ một
trường hợp đối với dự đoán của chính nó.
❖ Chú ý:
➢ Các phần dư đã xóa cung cấp một tiêu chí thay thế để xác định các giá trị
ngoại lai. Ý tưởng cơ bản là xóa từng quan sát một, mỗi lần điều chỉnh lại
mô hình hồi quy trên n–1 quan sát còn lại. Sau đó, chúng ta so sánh các giá
trị phản hồi quan sát được với các giá trị phù hợp của chúng dựa trên các
mô hình đã xóa quan sát thứ i.
61

❖ Khi sử dụng hồi quy, đôi khi chúng tôi thấy rằng một số tập hợp con của các
quan sát có ảnh hưởng bất thường. Đôi khi những quan sát có ảnh hưởng này
tương đối xa vùng lân cận nơi phần còn lại của dữ liệu được thu thập.
❖ Chúng ta muốn kiểm tra các điểm có ảnh hưởng để xác định xem chúng có
kiểm soát nhiều thuộc tính của mô hình hay không. Nếu những điểm có ảnh
hưởng này là những điểm “xấu”, hoặc có sai sót dưới bất kỳ hình thức nào thì
nên loại bỏ chúng. Mặt khác, có thể không có gì sai với những điểm này, nhưng
ít nhất chúng ta muốn xác định liệu chúng có tạo ra kết quả phù hợp với phần
còn lại của dữ liệu hay không.
❖ Trong mọi trường hợp, ngay cả khi một điểm có ảnh hưởng là một điểm hợp lệ,
nếu nó kiểm soát các thuộc tính quan trọng của mô hình, thì chúng ta muốn
biết điều này, vì nó có thể tác động đến việc sử dụng mô hình.
62
❖ Cook’s Distance 𝐷𝑖 được tính toán như sau:
𝑟𝑖2ℎ𝑖𝑖
➢ 𝐷𝑖 = 𝑖 = 1,2, … , 𝑛 (*)
k 1−ℎ𝑖𝑖
➢ Từ phương trình (*), chúng ta thấy rằng 𝐷𝑖 bao gồm phần dư students bình
phương, phản ánh mức độ phù hợp của mô hình với quan sát thứ 𝑖 𝑦𝑖 [Xem
lại 𝑟𝑖 = 𝑒𝑖 / (1 − ℎ𝑖𝑖 ) ) và một thành phần đo khoảng cách của điểm đó so
với phần còn lại của dữ liệu {ℎ𝑖𝑖 /(1−ℎ𝑖𝑖 ) là thước đo khoảng cách của điểm
thứ 𝑖 tính từ tâm của 𝑛−1 điểm còn lại}.
➢ Chú ý:
✓ Nếu 𝐷𝑖 lớn hơn 0,5 thì điểm dữ liệu đáng được nghiên cứu thêm vì nó có
thể có ảnh hưởng.
✓ Giá trị 𝐷𝑖 >1 sẽ chỉ ra rằng điểm đó có ảnh hưởng. Một trong hai thành
phần của 𝐷𝑖 (hoặc cả hai) có thể đóng góp vào một giá trị lớn.
63
❖ Các giá trị Leverage:
➢ Đo lường mức độ ảnh hưởng của một điểm đối với sự phù hợp của hồi quy.
Leverage trung tâm nằm trong khoảng từ 0 (không ảnh hưởng đến độ phù hợp)
đến (N-1)/N.
❖ Mahalanobis’ Distance:
➢ Đo lường giá trị của một trường hợp của các biến độc lập khác với giá trị trung
bình của tất cả các trường hợp. Khoảng cách Mahalanobis lớn xác định một
trường hợp có giá trị cực trị (ngoại lai) của một hoặc nhiều biến độc lập. Khoảng
cách của Mahalanobis (𝐷2 ) cho biết trường hợp này cách tâm của tất cả các
trường hợp bao xa đối với các biến dự báo. Trị số lớn cho thấy một quan sát là
ngoại lai của các biến độc lập.
➢ Nếu có thể khẳng định rằng các biến độc lập tuân theo phân phối chuẩn đa biến,
thì các giá trị tới hạn có thể được so sánh với một bảng giá trị đã thiết lập. Nếu n
lớn vừa phải (50 trở lên), thì 𝐷 2 xấp xỉ tỷ lệ với ℎ𝑖𝑖 . Do đó, 𝐷 2 ≈ 𝑛 − 1 ℎ𝑖𝑖 có thể
được dùng.
64

❖ Tabachnick và Fidell (2001) đề xuất sử dụng bảng giá trị tới hạn Chi-Square
như một phương tiện để phát hiện xem một biến có phải là ngoại lai đa biến
hay không. Sử dụng mức ý nghĩa α với df bằng số biến độc lập để xác định giá
trị tới hạn mà khoảng cách Mahalanobis phải lớn hơn. Tất cả các giá trị khoảng
cách Mahalanobis phải được kiểm tra xem liệu giá trị đó có vượt quá giá trị tới
hạn đã thiết lập hay không.
65
❖ Trong phân tích hồi qui thường dùng các đại lượng sau để đo lường ảnh hưởng
➢ Difference in Fits (DFFITS) với công thức như sau:
𝑦ƶ 𝑖 −𝑦ƶ (𝑖)
✓ DFFITS𝑖 =
𝑀𝑆𝐸(𝑖) ℎ𝑖𝑖

➢ Qua công thức có thể thấy, tử số đo lường sự khác biệt giữa hai giá trị dự đoán thu
được khi điểm dữ liệu thứ i gồm và không gồm trong khi thực hiện hồi qui. Mẫu số
là độ lệch chuẩn ước lượng của sự khác biệt trong khi thực hiện hồi qui. Do đó, sự
khác biệt về mức độ phù hợp định lượng số lượng độ lệch chuẩn mà giá trị phù
hợp thay đổi khi điểm dữ liệu thứ i bị bỏ qua.
➢ Một quan sát được coi là có ảnh hưởng nếu giá trị tuyệt đối của giá trị DFFITS của
nó lớn hơn:
𝑘+1
✓ 2
𝑛−𝑘−1

✓ Trong đó n= số lượng quan sát và k= số lượng tham số bao gồm cả phần chặn.
66

➢ DfBeta(s). Chúng rất hữu ích trong việc phát hiện mỗi hệ số hồi quy sẽ thay
đổi bao nhiêu nếu quan sát thứ i bị xóa. Công thức:
𝑏𝑗 −𝑏𝑗−1
✓ DFBETAj = .
SE 𝑏𝑗−1

➢ DfBeta chuẩn hóa (Standardized DfBeta). Sự khác biệt được chuẩn hóa
trong giá trị beta.
➢ DFBETAS có sẵn trên SPSS, với SPSS gọi đây là DFBETAS được chuẩn hóa.
Bất kỳ DFBETA nào có giá trị > |2| đều cho thấy một sự thay đổi khá lớn và
cần được nghiên cứu. Do đó, mặc dù khoảng cách của Cook là thước đo ảnh
hưởng tổng hợp, DFBETAS chỉ ra hệ số cụ thể nào đang bị ảnh hưởng nhiều
nhất.
67

❖ Để tìm các đối tượng có điểm số dự đoán khác hẳn so với điểm y thực tế của
chúng (nghĩa là chúng không phù hợp với mô hình), có thể sử dụng phần dư
chuẩn hóa (ri). Nếu mô hình đúng, thì chúng có phân phối chuẩn với giá trị
trung bình là 0 và độ lệch chuẩn là 1. Do đó, khoảng 95% ri phải nằm trong hai
độ lệch chuẩn của giá trị trung bình và khoảng 99% nằm trong ba độ lệch
chuẩn. Do đó, bất kỳ phần dư chuẩn hóa nào lớn hơn khoảng 3 về giá trị tuyệt
đối đều là bất thường và cần được kiểm tra cẩn thận (Stevens, 2002).
Tabachnick và Fidell (2001) đề xuất đo lường phần dư chuẩn hóa ở mức alpha
là 0,001, do đó sẽ cho chúng ta giá trị tới hạn là +3,29.
❖ Khi dự đoán cần xác định giá trị của các biến giải thích: X20;X30;...Xk0.
❖ Dự đoán, gồm dự đoán giá trị trung bình và dự đoán giá trị riêng biệt
➢ Dự đoán điểm: cho cả hai trường hợp:
Ŷ0=b1+b2X20+…+bkXk0
➢ Dự đoán khoảng (Ước lượng khoảng):
✓ Dự đoán giá trị trung bình
ˆ -t (n − k)  Se(Y
Y ˆ )  E(Y X )  Y
ˆ +t (n − k)  Se(Y
ˆ )
0 /2 0 0 0 /2 0

✓ Dự đoán giá trị riêng biệt


ˆ -t (n − k)  Se(Y / X )  Y  Y
Y ˆ +t (n − k)  Se(Y / X )
0 /2 0 0 0 /2 0
69

❖ Tiêu chuẩn lựa chọn mô hình


❖ Các loại sai lầm chỉ định
❖ Hậu quả của sai lầm chỉ định mô hình
❖ Hậu quả của thừa biến
❖ Kiểm định thiếu biến
❖ Tiêu chuẩn đánh giá mức độ phù hợp mô hình
❖ Thủ tục chọn biến trong mô hình hồi qui
70

❖ Phù hợp với dữ liệu: giá trị nhận được từ hồi qui phải hợp logic;
❖ Vững về lý thuyết: mô hình phải phù hợp với các lý thuyết kinh tế;
❖ Có các biến giải thích ngoại sinh yếu: có nghĩa là, những biến giải thích phải
không tương quan với sai số ngẫu nhiên;
❖ Các tham số phải ổn định: giá trị của các tham số hồi qui ước lượng phải ổn
định;
❖ Phải có liên kết dữ liệu: các phần dư được ước lượng từ mô hình phải ngẫu
nhiên;
❖ Hoàn thiện: không thể cải thiện mô hình để tạo ra một mô hình tốt hơn.
71

❖ Sai lầm chỉ định mô hình:


➢ Thiếu một số biến thích đáng,
➢ Thừa một số biến không cần thiết,
➢ Chọn dạng mô hình chỉ định sai,
➢ Sai số đo lường,
❖ Sai lầm chỉ định sai số ngẫu nhiên:
➢ Chỉ định yếu tố ngẫu nhiên không đúng…
72

❖ Thiếu biến thích đáng (Omitting a Relevant Variable)


➢ Giả sử chúng ta có mô hình đúng:
➢ 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜀𝑖
➢ Nhưng vì lý do nào đó, chúng ta chọn mô hình:
➢ 𝑌𝑖 = 𝛼1 + 𝛼2 𝑋2𝑖 + 𝑣𝑖
❖ Thừa biến không cần thiết (Overfitting a Model)
➢ Giả sử chúng ta có mô hình đúng:
➢ 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜀𝑖
➢ Nhưng vì lý do nào đó, chúng ta chọn mô hình:
➢ 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝛽4 𝑋4𝑖 + 𝜀𝑖
73

❖ Nếu biến bị bỏ sót 𝑋3 có tương quan với biến trong mô hình 𝑋2 (hệ số tương
quan giữa chúng là 𝑟23 khác không) thì 𝑎1 và 𝑎2 là các ước lượng bị chệch, tức
E(𝑎1 ) 𝛽1 và E(𝑎2 ) 𝛽2 ;
❖ Thậm chí nếu 𝑋2 và 𝑋3 không tương quan, 𝑎1 bị chệch, mặc dù 𝑎2 không bị
chệch;
❖ Phương sai sai số ngẫu nhiên 𝜎 2 là ước lượng bị chệch;
❖ Phương sai của 𝑎2 là ước lượng bị chệch của phương sai của ước lượng 𝑏2 ;
❖ Khoảng tin cậy và kiểm định giả thuyết thường cho những kết luận sai lệch về
tồn tại thống kê của các tham số;
❖ Dự đoán dựa trên mô hình sai không đáng tin cậy
74

❖ Các ước lượng OLS của các tham số của mô hình sai là không chệch và vững;
❖ Phương sai sai số 𝜎 2 là ước lượng chính xác;
❖ Khoảng tin cậy và các kiểm định giả thuyết thông thường là đáng tin cậy;
❖ Tuy nhiên, các ước lượng của các α sẽ không hiệu quả, đó là, phương sai của
chúng lớn hơn phương sai của các ước lượng của mô hình đúng.
75

❖ Xem mô hình:
➢ 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 +· · · +𝛽𝑘 𝑋𝑘𝑖 + 𝜀𝑖
❖ Nếu cho rằng thừa một biến thì dùng tiêu chuẩn T để kiểm định giả thuyết
➢ 𝐻0 : 𝛽𝑗 = 0
❖ Nếu cho rằng thừa một số biến thì dùng tiêu chuẩn F để kiểm định giả thuyết
➢ 𝐻0 : 𝛽𝑗 = ⋯ = 𝛽𝑝 = 0
76
❖ Kiểm định RESET (REgression Specification Error Test) của Ramsey. RESET as a
General Test for Functional Form Misspecification
➢ Xét mô hình ban đầu: 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 +𝑖 (*)
❖ Kiểm định RESET như sau:
➢ Từ mô hình ban đầu, ước lượng bằng OLS và tính Ŷ𝑖 .
➢ RESET thêm các đa thức Ŷ𝑖 vào phương trình để phát hiện các dạng hàm sai.
➢ Để triển khai RESET, chúng ta phải quyết định đưa bao nhiêu số hạng của các giá
trị Ŷ𝑖 vào hồi quy mở rộng. Thực hiện hồi qui 𝑌𝑖 theo các biến cũ và thêm các biến
mới, như 𝑌෠𝑖2 , 𝑌෠𝑖3 … như sau:
𝑝
✓𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝛿2 𝑌෠𝑖2 + 𝛿3 𝑌෠𝑖3 … + 𝛿𝑝 𝑌෠𝑖 + 𝜀𝑖 (**)
➢ Nếu cho rằng mô hình (*) được xác định chính xác. Do đó, trong kiểm định RESET,
thống kê F được dùng để kiểm định 𝐻0 : 𝛿2 = ⋯ = 𝛿𝑝 = 0 trong mô hình mở rộng.
➢ Nếu 𝐻0 bị bác bỏ, thì mô hình ban đầu chỉ định sai.
❖ Chú ý: Trong mô hình mở rộng (**), bậc của Ŷ𝑖 là bậc hai và bậc ba đã được chứng
minh là hữu ích trong hầu hết các ứng dụng.
77

❖ Hệ số xác định 𝑅2 ,
❖ Hệ số xác định điều chỉnh,
❖ Tiêu chuẩn thông tin AIC
❖ Tiêu chuẩn thông tin SIC:
❖ Tiêu chuẩn Mallow’s Cp
78

σe 2
SSE
❖ Công thức tính ACI = e2k/n i = e2k/n
n n
2𝑘 SSE
❖ Công thức tình theo Log: Ln ACI = + Ln( )
𝑛 n
➢ Trong đó k là số biến giải thích (bao gồm cả số hạng chặn) và n là số quan
sát.
❖ Tính chất: AIC chịu sự nghiêm ngặt hơn so với hệ số xác định khi thêm biến
vào trong mô hình.
❖ Ý nghĩa:
➢ Khi so sánh các mô hình, mô hình có AIC nhỏ sẽ được chọn.
➢ Nó còn thường được sử dụng để xác định độ trễ trong mô hình tự hồi qui
AR(p).
79

σe 2
SSE
❖ Công thức tính SCI = nk/n i = nk/n
n n
𝑘 SSE
❖ Công thức tình theo Log: Ln SCI = 𝐿𝑛( ) + Ln( )
𝑛 n
➢ Trong đó k là số biến giải thích (bao gồm cả số hạng chặn) và n là số quan
sát.
❖ Tính chất: SIC chịu sự nghiêm ngặt hơn AIC.
❖ Ý nghĩa: Khi so sánh các mô hình, mô hình có AIC nhỏ sẽ được chọn.
80

❖ Giả sử chúng ta có mô hình gồm k biến giải thích và có số hạng chặn. Đặt 𝜎ො 2 là
ước lượng của giá trị thật σ2. Nhưng giả sử rằng chúng ta chỉ chọn p biến giải
thích (p<k) và xác định SSE từ hồi qui có p biến giải thích. Mallows đã xác định
tiêu chuẩn chọn mô hình như sau và được gọi là tiêu chuẩn Cp.
SSEp
❖ Công thức tính Cp = ෝ2
− (n − 2p)
𝜎
❖ Ý nghĩa: Trong khi chọn mô hình theo tiêu chuẩn Cp, chúng ta sẽ tìm mô hình
có giá trị Cp nhỏ, gần bằng p
81

❖ Mở File helping1.sav
❖ Thực hiện hồi qui: Analyze > Regression > Linear...
❖ Khi đó, màn hình Linear Regression sẽ xuất hiện.
Trong đó có những mục:
➢ Dependent
➢ Independent(s)
➢ Method
➢ Selection Variable
➢ Case Labels
➢ WLS Weight
➢ Statistics…
➢ Plot…
➢ Save…
➢ Options…
➢ Style…
➢ Boostrap…
82

❖ Dependent box: Nhập duy nhất biến phụ thuộc là biến định lượng.
❖ Independent(s) box: Nhập một hay nhiều biến độc lập.
❖ Mục chọn Block 1 of 1 cho phép bạn tạo và tiến hành nhiều hơn một phân tích
hồi quy trong một phiên duy nhất. Sau khi bạn đã chọn biến phụ thuộc và các
biến độc lập, đồng thời chọn tất cả các tùy chọn mà bạn mong muốn liên quan
đến phân tích, hãy nhấp vào nút Next nằm bên dưới Block 1 of 1. Biến phụ
thuộc sẽ vẫn còn, tất cả các tùy chọn và thông số kỹ thuật đã chọn sẽ vẫn còn,
nhưng các biến độc lập sẽ hoàn nguyên về các thông số kỹ thuật của danh sách
biến để phân tích hồi quy lần thứ hai. Bạn có thể chỉ định bao nhiêu phân tích
khác nhau trong một phiên tùy thích; một cú nhấp vào nút nhấn OK sẽ chạy
chúng theo thứ tự như khi chúng được tạo.
83

❖ Enter: Một thủ tục để chọn biến trong đó tất cả các


biến trong một khối được nhập trong một bước duy
nhất.
❖ Stepwise: Tại mỗi bước, biến độc lập không có trong
phương trình có xác suất F nhỏ nhất được nhập nếu
xác suất đó đủ nhỏ. Các biến đã có trong phương
trình hồi quy sẽ bị loại bỏ nếu xác suất F của chúng
trở nên đủ lớn.
❖ Remove: Một thủ tục để lựa chọn biến trong đó tất cả
các biến trong một khối được loại bỏ trong một bước
duy nhất.
❖ Backward Elimination: Một thủ tục lựa chọn biến trong đó tất cả các biến được nhập vào
phương trình và sau đó loại bỏ tuần tự. Biến có tương quan từng phần nhỏ nhất với biến phụ
thuộc được xem xét loại bỏ trước tiên. Sau khi biến đầu tiên bị loại bỏ, biến còn lại trong
phương trình có tương quan từng phần nhỏ nhất được xem xét tiếp theo. Thủ tục dừng khi
không có biến nào trong phương trình thỏa mãn tiêu chí loại bỏ.
84

❖ Forward Selection: Quy trình lựa chọn biến


theo từng bước trong đó các biến được
nhập tuần tự vào mô hình. Biến đầu tiên
được xem xét để đưa vào phương trình là
biến có tương quan âm hoặc dương lớn nhất
với biến phụ thuộc. Biến này chỉ được nhập
vào phương trình nếu nó đáp ứng tiêu chí
để nhập. Nếu biến đầu tiên được nhập, biến
độc lập không có trong phương trình có
tương quan từng phần lớn nhất sẽ được coi
là tiếp theo. Thủ tục dừng khi không có biến
nào đáp ứng tiêu chí đầu vào.
85

❖ Nhằm xác định các trường hợp được xác


định bởi quy tắc lựa chọn được đưa vào ước
lượng mô hình.
❖ Ví dụ: nếu chuyển biến 𝒈𝒆𝒏𝒅𝒆𝒓 vào cửa sổ
𝑺𝒆𝒍𝒆𝒄𝒕𝒊𝒐𝒏 𝑽𝒂𝒓𝒊𝒂𝒃𝒍𝒆, nút 𝑹𝒖𝒍𝒆 … sẽ sáng
lên. Nhấp chuột vào nút này sẽ mở ra một
cửa sổ hộp thoại nhỏ
𝐿𝑖𝑛𝑒𝑎𝑟 𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛: 𝑆𝑒𝑡 𝑅𝑢𝑙𝑒 cho phép
chọn giá trị của biến (trong trường hợp này,
1 = Male, 2 = Female) mà bạn muốn chọn
cho quy trình phân tích. Sau đó sẽ tiến hành
phân tích với các đối tượng hoặc trường
hợp được chọn.
86

❖ Predicted Values: Các giá trị mà mô hình hồi quy dự


đoán cho từng trường hợp.
➢ Unstandardized: Giá trị mà mô hình dự đoán cho
biến phụ thuộc.
➢ Standardized: Một sự chuyển đổi của mỗi giá trị
dự đoán thành hình thức chuẩn hóa của nó.
➢ Adjusted: Giá trị dự đoán cho một trường hợp khi
trường hợp đó được loại trừ khỏi tính toán các hệ
số hồi quy.
➢ S.E. of mean predictions: Sai số chuẩn của các giá
trị dự đoán. Ước tính độ lệch chuẩn của giá trị
trung bình của biến phụ thuộc cho các trường hợp
có cùng giá trị của các biến độc lập.
87

❖ Distances: Các thang đo xác định các trường hợp có sự kết


hợp bất thường của các giá trị cho các biến và trường hợp
độc lập có thể có tác động lớn đến mô hình hồi quy:
➢ Mahalanobis: Thước đo giá trị của một trường hợp
trên các biến độc lập khác với giá trị trung bình của tất
cả các trường hợp. Khoảng cách Mahalanobis lớn xác
định một trường hợp có các giá trị cực trị trên một
hoặc nhiều biến độc lập.
➢ Cook’s: Một thước đo bao nhiêu phần còn lại của tất cả
các trường hợp sẽ thay đổi nếu một trường hợp cụ thể
được loại trừ khỏi tính toán các hệ số hồi quy. D của
Cook lớn chỉ ra rằng việc loại trừ một trường hợp khỏi
tính toán số liệu thống kê hồi quy làm thay đổi đáng kể
các hệ số.
➢ Leverage values: Đo lường ảnh hưởng của một điểm
đến sự phù hợp của hồi quy. Đòn bẩy trung tâm nằm
trong khoảng từ 0 (không ảnh hưởng đến sự phù hợp)
đến (N-1) / N.
88

❖ Prediction Intervals: Giới hạn trên và giới hạn dưới


cho cả khoảng tin cậy dự đoán trung bình và riêng
biệt.
➢ Mean: Cận trên và cận trên cho khoảng tin cậy dự
đoán của giá trị trung bình.
➢ Individual: Cận trên và cận trên cho khoảng tin
cậy dự đoán của giá trị riêng biệt.
➢ Confidence Interval: Nhập giá trị từ 1 đến 99,99
để chỉ định mức tin cậy cho hai Khoảng tin cậy dự
đoán. Trung bình hoặc riêng biệt phải được chọn
trước khi nhập giá trị này. Các giá trị khoảng tin
cậy điển hình là 90, 95 và 99.
89

❖ Residuals: Phần dư từ phương trình hồi quy, gồm:


➢ Unstandardized: Phần dư chưa chuẩn hóa.
➢ Standardized: Phần dư được chuẩn hóa, còn được gọi
là phần dư Pearson, có trung bình bằng 0 và độ lệch
chuẩn bằng 1.
➢ Deleted: Phần dư của trường hợp khi trường hợp đó bị
loại khi ước lượng hồi qui.
➢ Studentized: Nó tương tự về khái niệm đối với phần dư
bị xóa, nhưng trong trường hợp này, quan sát thứ i bị
loại bỏ khi tính độ lệch chuẩn được sử dụng để chuẩn
hóa phần dư thứ i.
➢ Studentized deleted. Phần dư đã xóa cho một trường
hợp chia cho sai số chuẩn của nó. Sự khác biệt giữa
phần dư đã xóa được Studentized và phần dư được
Studentized liên quan cho biết mức độ chênh lệch khi
loại bỏ một trường hợp tạo ra dự đoán của chính nó.
90

❖ Influence Statistics: Sự thay đổi trong các hệ số hồi quy và


các giá trị dự đoán:
➢ DfBeta(s). Sự khác biệt về giá trị beta từ sự thay đổi
trong hệ số hồi quy do loại trừ một trường hợp cụ thể.
➢ Standardized DfBeta. Sự khác biệt được chuẩn hóa
trong giá trị beta. Sự thay đổi trong hệ số hồi quy do
loại trừ một trường hợp cụ thể.
➢ DfFit: Sự khác biệt về giá trị phù hợp do loại trừ một
trường hợp cụ thể.
➢ Standardized DfFit: Chuẩn hóa sự khác biệt trong giá
trị phù hợp do loại trừ một trường hợp cụ thể.
➢ Covariance ratio: Tỷ lệ xác định của ma trận hiệp
phương sai với một trường hợp cụ thể được loại trừ
khỏi tính toán các hệ số hồi quy với yếu tố quyết định
của ma trận hiệp phương sai khi bao gồm tất cả các
trường hợp.
91

❖ Coefficient Statistics: Lưu các hệ số hồi quy vào bộ dữ


liệu hoặc tệp dữ liệu. Bộ dữ liệu có sẵn để sử dụng
tiếp theo trong cùng một phiên nhưng không được
lưu dưới dạng tệp trừ khi được lưu rõ ràng trước khi
kết thúc phiên. Tên tập dữ liệu phải tuân thủ các quy
tắc đặt tên biến.
❖ Export model information to XML file: Tham số ước
tính và (tùy chọn) hiệp phương sai của chúng được
xuất sang tệp được chỉ định ở định dạng XML
(PMML). Có thể sử dụng tệp này để áp dụng thông tin
mô hình cho các tệp dữ liệu khác nhằm mục đích
chấm điểm.
92

❖ Scatterplots. Vẽ bất kỳ hai trong số những biến sau đây: biến phụ
thuộc, biến phụ thuộc đã chuẩn hóa, phần dư được chuẩn hóa,
phần dư đã xóa, giá trị dự đoán đã điều chỉnh, phần dư được
Studentized hóa hoặc phần dư đã xóa được Studentized với phần
dư được chuẩn hóa để kiểm tra tính tuyến tính và phương sai
đồng nhất.
❖ Source variable list: Liệt kê biến phụ thuộc (DEPENDNT) và các
biến sau: Standardized predicted values (*ZPRED), Standardized
residuals (*ZRESID), Deleted residuals (*DRESID).
❖ Produce all partial plots: Hiển thị các biểu đồ phân tán của phần
dư của mỗi biến độc lập và phần dư của biến phụ thuộc khi cả
hai biến được hồi quy riêng biệt trên phần còn lại của các biến Nếu bất kỳ biểu đồ nào được yêu
độc lập. cầu, số liệu thống kê tóm tắt sẽ được
❖ Standardized Residual Plots: Có thể thu được biểu đồ của phần hiển thị cho các giá trị dự đoán được
dư được chuẩn hóa và các biểu đồ xác suất chuẩn so sánh việc chuẩn hóa và phần còn lại được tiêu
phân phối phần dư được chuẩn hóa với phân phối chuẩn hóa. chuẩn hóa (*ZPRED and *ZRESID).
93

❖ Stepping Method Criteria: Các tùy chọn này áp dụng khi phương
pháp chọn forward, backward, hoặc stepwise đã được chỉ định.
➢ Use Probability of F: Một biến được nhập vào mô hình nếu
mức ý nghĩa của giá trị F của nó nhỏ hơn giá trị Entry và bị
loại bỏ nếu mức ý nghĩa lớn hơn giá trị Removal. Mục Entry
phải nhỏ hơn Removal và cả hai giá trị phải dương. Để nhập
nhiều biến hơn vào mô hình, hãy tăng giá trị Entry. Để xóa các
biến khác khỏi mô hình, hãy giảm giá trị Removal.
➢ Use F Value. Một biến được nhập vào mô hình nếu giá trị F của
nó lớn hơn giá trị Entry và bị xóa nếu giá trị F nhỏ hơn giá trị
Removal. Mục Entry phải lớn hơn Removal và cả hai giá trị
phải dương. Để nhập nhiều biến hơn vào mô hình, hãy giảm
giá trị Entry. Để xóa nhiều biến hơn khỏi mô hình, hãy tăng giá
trị Removal.
94

❖ Include constant in equation: Theo mặc định, mô hình hồi quy bao
gồm hằng số. Bỏ chọn tùy chọn này buộc hồi quy đi qua gốc tọa
độ, điều này hiếm khi được thực hiện. Một số kết quả hồi quy qua
gốc tọa độ không thể so sánh với kết quả hồi quy bao gồm hằng
số. Ví dụ, 𝑅 2 không thể được giải thích theo cách thông thường.
❖ Missing Values: Bạn có thể chọn một trong các tùy chọn sau:
➢ Exclude cases listwise: Chỉ những trường hợp có giá trị hợp lệ
cho tất cả các biến mới được đưa vào phân tích.
➢ Exclude cases pairwise: Các trường hợp có dữ liệu đầy đủ cho
cặp biến có mối tương quan được sử dụng để tính toán hệ số
tương quan mà phân tích hồi quy dựa trên chúng.
➢ Replace with mean: Tất cả các trường hợp được sử dụng để
tính toán, với giá trị trung bình của biến được thay thế cho các
quan sát bị thiếu.
95

❖ Hộp thoại Table Style chỉ định các


điều kiện để tự động thay đổi
thuộc tính của bảng tổng hợp dựa
trên các điều kiện cụ thể.
❖ Hộp thoại Table Style có thể được
truy cập từ hộp thoại Style Output
hoặc từ các hộp thoại cho các thủ
tục thống kê cụ thể.
❖ Các hộp thoại thủ tục thống kê hỗ
trợ hộp thoại Table Style là Tương
quan hai biến, Chéo bảng, Bảng
tùy chỉnh, Mô tả, Tần số, Hồi quy
Logistic, Hồi quy tuyến tính và
trung bình.
96
❖ Number of samples. Đối với các khoảng phần trăm và BCa được
tạo ra, nên sử dụng ít nhất 1000 mẫu.
❖ Set seed for Mersenne Twister. Thiết lập một hạt giống cho phép
bạn sao chép các phân tích. Sử dụng điều khiển này tương tự
như đặt Mersenne Twister làm trình tạo đang hoạt động và chỉ
định điểm bắt đầu cố định trên hộp thoại Trình tạo số ngẫu
nhiên, với sự khác biệt quan trọng là việc đặt hạt giống trong hộp
thoại này sẽ giữ nguyên trạng thái hiện tại của trình tạo số ngẫu
nhiên và khôi phục trạng thái đó sau khi phân tích hoàn tất.
❖ Confidence Intervals: Chỉ định mức độ tin cậy lớn hơn 50 và dưới
100. Khoảng phần trăm chỉ cần sử dụng các giá trị bootstrap
được sắp xếp theo thứ tự tương ứng với các phân vị khoảng tin
cậy.
❖ Sampling: Phương pháp lấy mẫu Simple là lấy mẫu lại trường
hợp với sự thay thế từ tập dữ liệu ban đầu. Phương pháp
Stratified là lấy mẫu lại trường hợp với sự thay thế từ tập dữ liệu
ban đầu, trong các tầng được xác định bởi sự phân loại chéo của
các biến tầng.
HỒI QUI BINARY LOGISTIC
98

❖ Mô hình: Yi = 1 + 2Xi + i (*)


➢ Trong đó, X là biến độc lập, Y là biến ngẫu nhiên rời rạc, nhận hai giá trị có
thể có 0 và 1.
❖ Gọi: i = P(Y=1/X=Xi), 1- i=P(Y=0/X=Xi).
❖ Mô hình (*) được gọi là mô hình xác xuất tuyến tính.
❖ Do E(i)=0, từ đó có E(Y/Xi) = 1 + 2Xi
❖ E(Y/Xi) = 1i + 0(1- i) = i ,
❖ Do đó E(Y/Xi) = 1 + 2Xi = i
❖ Mặt khác do 0 ≤ i ≤ 1, nên 0 ≤ E(Y/Xi) ≤ 1.
99

❖ Trong LPM các yếu tố ngẫu nhiên không thuần nhất, tức phương sai sai số thay
đổi: Var (i) = i(1- i).
❖ Sai số ngẫu nhiên không tuân theo phân phối chuẩn, nó chỉ nhân 2 giá trị.
1 − 1 −2Xi Khi 𝑌𝑖 =1
➢ 𝑖 = ቊ
1 −2Xi Khi𝑌𝑖 =0
❖ Ước lượng của E(Y/X) - chưa chắc đã thoả mãn điều kiện
❖ 0 ≤ Ŷi≤ 1
➢ Tuy 0 ≤E(Y/X) = i ≤ 1 nhưng khi dùng OLS để ước lượng mô hình LPM
không có gì đảm bảo 0 ≤ Ŷi≤ 1
100

❖ Bước 1: Dùng phương pháp OLS để ước lượng Yi = 1 + 2Xi + i , từ đó thu


được Ŷi.
❖ Bước 2: Do 𝑖 không thuần nhất, var (i) = i(1- i), nên cần phải thực hiện
phép biến đổi biến số. Do i chưa biết, nên dùng ước lượng của pi là Ŷi. Chúng
ta sẽ loại bỏ các quan sát có Ŷi <0 hoặc Ŷi >1. đặt ei= Ŷi(1- Ŷi), sau đó biến đổi
biến số và ước lượng mô hình sau:
𝑌𝑖 𝛽1 𝑋𝑖 𝜀𝑖
❖ = + 𝛽2 +
Ŷi(1− Ŷi) Ŷi(1− Ŷi) Ŷi(1− Ŷi) Ŷi(1− Ŷi)
❖ Bước 3: Dùng kết quả để suy ra cho mô hình ban đầu.
101

❖ Biến phụ thuộc là một phép đo nhị phân:


➢ Đại diện cho các sự kiện rời rạc (e.g., mua vs không mua) hoặc các đối
tượng chỉ có hai loại (e.g., tốt vs xấu).
❖ Sử dụng đường cong logistic:
➢ Vì biến phụ thuộc chỉ có thể nhận hai giá trị (1 hoặc 0), cần một dạng mối
quan hệ phi tuyến tính để các giá trị dự đoán sẽ không bao giờ dưới 0 hoặc
Y
trên 1. Y=1
➢ Không thể với hồi quy bội, do đó
sử dụng đường cong logistic.
Logistic Regression
➢ Cũng vi phạm các giả thiết Model
về hồi quy bội, cũng yêu cầu Y= X
hình thức mô hình khác nhau. 0
Multiple Regression Model
102

❖ Để khắc phục hạn chế của mô hình LPM, trong kinh tế lượng thường sử dụng
mô hình hồi qui logistic.
❖ Mô hình hồi qui Binary logistic có dạng
eβ1+β2Xi
❖ 𝑖 = E(Y𝑖 /X 𝑖 ) =
1+eβ1+β2Xi
❖ Với E(Y𝑖 /X 𝑖 ) là xác suất để Y=1.
❖ Đặt 𝑧𝑖 = 𝛽1 +𝛽2 X 𝑖 , vậy:
ezi
❖ P(Y = 1/X 𝑖 ) = E(Y𝑖 /X 𝑖 )=
1+ezi
❖ Khi đó:
ezi
❖ P Y = 0/X 𝑖 = 1 − P(Y = 1/X 𝑖 )=1-
1+ezi
103

❖ Thực hiện so sánh 2 xác suất xảy ra và không xảy ra, kết quả như sau:
odd = P Y = 1/X 𝑖 /P Y = 0/X 𝑖
i
= P(Y = 1/X 𝑖 )/(1 − P(Y = 1/X 𝑖 )) =
1−i
ez ez
= ( z )/(1- z )=e
zi
i i

1+e i 1+e i

Tiến hành Log 2 vế, kết quả như sau:


Ln(odd) = Ln(𝑒 𝑧𝑖 ) = 𝑧𝑖 = 𝛽1 +𝛽2 X 𝑖
Đối với mẫu, mô hình ngẫu nhiên sẽ là Ln(odd) = 𝑧𝑖 = 𝑏1 +𝑏2 X 𝑖 +𝑒𝑖
❖ Mô hình hồi qui logistic tổng quát
ezi
➢ Hàm hồi qui tổng thể: i = E(𝑌𝑖 /X2i, X3i, …, Xki) =
1+ezi
với zi = 1+2X2i+3X3i+…+kXki
ezi
➢ Hàm hồi qui mẫu: pi= với zi= b1+b2X2i+b3X3i+…+bkXki
1+ezi
104

❖ zi không chỉ tuyến tính đối với biến số mà còn tuyến tính đối với tham số.
❖ Khi zi biến thiên từ -  đến , i biến thiên từ 0 đến 1. Như vậy dù i chỉ thuộc
(0,1) nhưng zi vẫn không bị giới hạn.
❖ Dù zi là tuyến tính của X nhưng xác xuất không là hàm tuyến tính của X.
❖ Do odd= i/(1-i) phản ánh cơ hội, khả năng, sự ưa thích Y=1, nên cho biết
mức thay đổi của zi khi X tăng một đơn vị 1 cho biết Ln sự ưa thích Y= 1 khi
X=0.
105

❖ Hồi quy logistic không giả thiết về mối quan hệ tuyến tính giữa các biến phụ
thuộc và độc lập.
❖ Các biến độc lập không cần tuân theo phân phối chuẩn, không cần phương sai
bằng nhau trong mỗi nhóm.
❖ Không bắt buộc phải có tính phương sai đồng nhất. Các sai số ngẫu nhiên
(phần dư) không cần phải được phân phối chuẩn.
❖ Biến phụ thuộc trong hồi quy logistic phải là biến nhị phân (2 loại).
❖ Các danh mục (nhóm) như một biến phụ thuộc phải được loại trừ lẫn nhau và
đầy đủ; một trường hợp chỉ có thể nằm trong một nhóm và mọi trường hợp
phải là thành viên của một trong các nhóm.
❖ Mô hình có một hoặc nhiều biến độc lập, có thể là biến liên tục (tức là biến
khoảng hoặc biến tỷ lệ) hoặc biến phân loại (tức là biến thứ bậc hoặc biến định
danh).
106

❖ Cần có mối quan hệ tuyến tính giữa bất kỳ biến độc lập liên tục nào và phép
biến đổi logit của biến phụ thuộc.
❖ Cần có các mẫu lớn hơn so với hồi quy tuyến tính vì các hệ số tối đa sử dụng
phương pháp Maximum Likelihood là các ước lượng mẫu lớn.
➢ Nên sử dụng tối thiểu 50 trường hợp cho mỗi biến dự báo (Field, 2013).
➢ Hosmer, Lemeshow và Sturdivant (2013) đề xuất một mẫu tối thiểu gồm 10
quan sát cho mỗi biến độc lập trong mô hình, nhưng lưu ý rằng nên tìm 20
quan sát cho mỗi biến nếu có thể.
➢ Leblanc và Fitzgerald (2000) đề xuất tối thiểu 30 quan sát cho mỗi biến độc
lập.
107

❖ Sử dụng hình thức cụ thể của đường cong logistic, có hình chữ S, để ở trong
phạm vi từ 0 đến 1.
❖ Để ước lượng mô hình hồi quy logistic, đường cong của các giá trị dự đoán
này được khớp vào dữ liệu thực tế, giống như đã được thực hiện với mối
quan hệ tuyến tính trong hồi quy bội.
(a) Poorly Fitted Relationship (b) Well-Deined Relationship
1 1

Y Y

0 0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 1
X X 0
108

❖ Hai bước cơ bản:


➢ Chuyển xác suất thành giá trị tỷ lệ odd và logit.
➢ Ước lượng mô hình bằng cách sử dụng cách tiếp cận hợp lý cực đại,
không sử dụng bình phương tối thiểu như trong hồi quy bội thông
thường.
❖ Chuyển đổi logistic có hai bước cơ bản:
➢ Phục hồi xác suất là tỷ lệ odd,
➢ Tính toán các giá trị logit.
❖ Giá trị Logit được giới hạn
ở cả 1 và 0.
109

❖ Ước lượng hợp lý tối đa (Maximum Likelihood Estimation )


➢ Tối đa hóa khả năng một sự kiện sẽ xảy ra - sự kiện là người trả lời được chỉ
định cho nhóm này so với nhóm khác.
➢ Thước đo cơ bản để đánh giá mức độ phù hợp của thủ tục ước tính khả
năng xảy ra tối đa là giá trị khả năng xảy ra.
❖ So sánh các giá trị khả năng xảy ra theo ba bước:
➢ Ước tính Mô hình Null - đóng vai trò là “đường cơ sở” để so sánh sự cải
thiện về sự phù hợp của mô hình.
➢ Mô hình đề xuất ước tính - mô hình chứa các biến độc lập được đưa vào hồi
quy logistic.Đánh giá –
➢ Sự khác biệt 2LL.
110

❖ Phương pháp ước lượng các tham số hồi qui logistic là phương pháp maximum
likelihood.
❖ Trong hàm hồi qui zi = 1+2X2i+3X3i+…+kXki, các hệ số hồi qui khó giải thích
ý nghĩa nên thường biến đổi như sau:
❖ Tỷ số odd:
i
=𝑒 1+2X2i+3X3i+…+kXki
P(Y=1/X2,…,Xk)
➢ odd = =
P(Y=0/X2,…,Xk) 1−i

=𝑒 b1+b2X2i+b3X3i+…+bkXki
𝑝𝑖
➢ odd =
1−𝑝𝑖
❖ Như vậy, khi Xj tăng lên một đơn vị thì xác suất xảy ra của Y với xác suất không
xảy ra sẽ tăng (𝑒 bj )lần trong điều kiện các nhân tố khác không đổi.
111

❖ Xây dựng cặp giả thuyết:


➢ H0 :  j = 0
➢ H0 :  j ≠ 0
❖ Tiêu chuẩn kiểm định Wald:
bj
➢ Wald − Chi squared = ( )2
se(bj)
112

❖ Đại lượng Pseudo R2:


➢ Được diễn giải theo cách tương tự như hệ số xác định trong hồi quy bội.
➢ Các đại lượng Pseudo R2 khác nhau rất nhiều về cường độ và không có
phiên bản nào được coi là được ưa thích nhất.
➢ Tuy nhiên, đối với tất cả các Pseudo R2, các giá trị có xu hướng thấp hơn
nhiều so với mô hình hồi quy bội.
113

❖ Độ chính xác dự đoán – khả năng phân loại các quan sát thành nhóm kết
quả chính xác.
➢ Tất cả các đo lường chính xác dự đoán dựa trên giá trị cắt (cut-off
values) được chọn để phân loại.
➢ Giá trị cắt cuối cùng được chọn nên dựa trên so sánh các đo lường chính
xác dự đoán trên các giá trị cắt. Mặc dù 0,5 thường là mức cắt giảm mặc
định, các giá trị khác có thể cải thiện đáng kể độ chính xác dự đoán.
❖ Tạo ra bốn kết quả:
➢ Giá trị âm đúng (True Negatives)
➢ Giá trị dương đúng (True Positives)
➢ Giá trị âm sai (False Negatives)
➢ Giá trị dương sai (False Positives)
114

❖ Các đo lường chung về độ chính xác dự đoán:


➢ Chính xác (aka, Hit Ratio): độ chính xác dự đoán của kết hợp dương và âm .
➢ Youden index – sự kết hợp của tỷ lệ dương đúng (Sensitivity) và tỷ lệ âm đúng
(Specificity) trừ 1.
❖ Độ chính xác dự đoán của kết quả thực tế
➢ Sensitivity: tỷ lệ dương đúng – tỷ lệ phần trăm kết quả dương được dự đoán
chính xác.
➢ Specificity: tỷ lệ âm đúng – tỷ lệ phần trăm kết quả âm được dự đoán chính xác.
❖ Độ chính xác dự đoán của kết quả dự đoán
➢ PPV (positive predictive value): tỷ lệ phần trăm dự đoán dương là chính xác.
➢ NPV (negative predictive value): tỷ lệ phần trăm dự đoán âm chính xác.
115

❖ Đường cong (ROC curve)


➢ Mô tả đồ họa về sự đánh đổi các giá trị độ nhạy và độ đặc hiệu trên toàn
bộ phạm vi giá trị cắt.
➢ Vùng AUC lớn (area under the curve) cho biết phù hợp hơn.
❖ Hosmer và Lemeshow
➢ Chỉ kiểm định thống kê độ chính xác dự đoán;
➢ Không có ý nghĩa cho thấy mô hình cũng phù hợp.
❖ Mở File helping3.sav
❖ Thực hiện hồi qui Binary Logistic: Analyze > Regression > Binary Logistic.
❖ Khi đó, màn hình Logistic Regression sẽ xuất hiện. Trong đó có những mục:
➢ Dependent
➢ Covariates
➢ Method
➢ Selection Variable
➢ Categorical
➢ Save
➢ Options
➢ Boostrap…
117

❖ 𝐷𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡: Nơi nhập các biến phụ thuộc:


Đối với hồi qui Binary logistic, biến phụ
thuộc phải là biến phân loại với chỉ hai loại.
❖ 𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑡𝑒𝑠: Chứa danh sách tất cả các hiệp
biến được chỉ định trong hộp thoại chính,
tự nó hoặc là một phần của tương tác, trong
bất kỳ lớp nào. Nếu một số trong số này là
các biến chuỗi hoặc là biến phân loại, chỉ có
thể sử dụng chúng dưới dạng hiệp biến
phân loại.
118

❖ Đối với mỗi biến trong số các biến này được


phân loại, hãy chọn biến và nhấp vào để di
chuyển nó vào hộp 𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑐𝑎𝑙 𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑡𝑒𝑠. Có
thể xử lý biến phân loại theo một số cách, bằng
cách đặt 𝐶𝑜𝑛𝑡𝑟𝑎𝑠𝑡 (tương phản) trong hộp
𝐶ℎ𝑎𝑛𝑔𝑒 ở phía dưới bên phải của Màn hình bên.
Cụ thể có các phương pháp Contrast sau:
➢ Indicator
➢ Simple
➢ Difference
➢ Helmert
➢ Polynomial
➢ Deviation
119

❖ 𝑴𝒆𝒕𝒉𝒐𝒅: Cho phép chọn các thủ tục


xây dựng mô hình hồi qui, gồm các
thủ tục:
➢ Enter: Một thủ tục để lựa chọn
biến trong đó tất cả các biến
trong một khối được nhập trong
một bước duy nhất.
➢ Forward (Conditional): Phương
pháp lựa chọn từng bước với
kiểm tra đầu vào dựa trên tầm
quan trọng của thống kê điểm và
kiểm tra loại bỏ dựa trên xác suất
của thống kê tỷ lệ hợp lý dựa trên
ước tính tham số có điều kiện.
➢ Forward (Likelihood Ratio): Phương pháp lựa chọn từng bước với kiểm tra mục
nhập dựa trên tầm quan trọng của thống kê điểm và kiểm tra loại bỏ dựa trên xác
suất của thống kê tỷ lệ hợp lý dựa trên ước lượng hợp lý từng phần tối đa.
➢ Forward (Wald): Phương pháp lựa chọn từng bước với kiểm tra mục nhập dựa
trên tầm quan trọng của thống kê điểm và kiểm tra loại bỏ dựa trên xác suất của
thống kê Wald.
➢ Backward Elimination (Conditional): Lựa chọn ngược từng bước. Kiểm tra loại bỏ
dựa trên xác suất của thống kê tỷ lệ hợp lý dựa trên ước lượng tham số có điều
kiện.
➢ Backward Elimination (Likelihood Ratio): Lựa chọn ngược từng bước. Kiểm tra
loại bỏ dựa trên xác suất của thống kê tỷ lệ khả năng xảy ra dựa trên ước tính khả
năng từng phần tối đa.
➢ Backward Elimination (Wald): Lựa chọn ngược từng bước. Kiểm tra loại bỏ dựa
trên xác suất của thống kê Wald.
121

❖ Nhằm xác định các trường hợp được xác


định bởi quy tắc lựa chọn được đưa vào ước
lượng mô hình.
❖ Analyze > Regression > Binary Logistic…
❖ Ví dụ: nếu chuyển biến 𝒈𝒆𝒏𝒅𝒆𝒓 vào cửa sổ
𝑺𝒆𝒍𝒆𝒄𝒕𝒊𝒐𝒏 𝑽𝒂𝒓𝒊𝒂𝒃𝒍𝒆, nút 𝑹𝒖𝒍𝒆 … sẽ sáng
lên. Nhấp chuột vào nút này sẽ mở ra một
cửa sổ hộp thoại nhỏ
𝑳𝒐𝒈𝒊𝒔𝒕𝒊𝒄 𝑹𝒆𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏: 𝑺𝒆𝒕 𝑹𝒖𝒍𝒆 cho phép
chọn giá trị của biến (trong trường hợp này,
1 = women, 2 = men) mà bạn muốn chọn
cho quy trình phân tích. Sau đó sẽ tiến hành
phân tích với các đối tượng hoặc trường
hợp được chọn.
122
❖ 𝑆𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠 𝑎𝑛𝑑 𝑃𝑙𝑜𝑡𝑠: Các tùy chọn có sẵn là:
➢ Classification plots,
➢ Hosmer-Lemeshow goodness-of-fit
➢ Casewise listing of residuals,
➢ Correlations of estimates,
➢ Iteration history, and
➢ CI for exp(B).
❖ 𝐷𝑖𝑠𝑝𝑙𝑎𝑦: Chọn kết quả hiển thị ở mỗi bước hay
bước cuối (At each step hoặc, At last step).
❖ 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑓𝑜𝑟 𝑆𝑡𝑒𝑝𝑤𝑖𝑠𝑒: Xác suất thêm hay
loại biến mỗi bước.
❖ 𝐼𝑛𝑐𝑙𝑢𝑑𝑒 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡 𝑖𝑛 𝑚𝑜𝑑𝑒𝑙: Cho phép hiện
hằng số trong mô hình hay không
❖ Giá trị xác suất cutoff để phân loại: giá trị mặt
nhiên là 0,5.
123

❖ 𝑆𝑎𝑣𝑒. . . : Có thể lưu kết quả của hồi quy logistic dưới dạng các
biến mới trong tập dữ liệu đang hoạt động:
➢ 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑 𝑉𝑎𝑙𝑢𝑒𝑠 Lưu các giá trị được dự đoán bởi mô
hình. Các tùy chọn có sẵn là Probabilities và Group
membership.
➢ 𝐼𝑛𝑓𝑙𝑢𝑒𝑛𝑐𝑒: Lưu giá trị từ số liệu thống kê đo lường mức độ
ảnh hưởng của các trường hợp đối với các giá trị được dự
đoán. Các tùy chọn có sẵn là Cook's, Leverage values, và
DfBeta(s).
➢ 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑠: Lưu phần dư. Các tùy chọn có sẵn là
Unstandardized, Logit, Studentized, Standardized, and
Deviance.
➢ 𝐸𝑥𝑝𝑜𝑟𝑡 𝑚𝑜𝑑𝑒𝑙 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝑡𝑜 𝑋𝑀𝐿 𝑓𝑖𝑙𝑒. Các ước lượng
tham số và (tùy chọn) hiệp phương sai của chúng được xuất
sang tệp được chỉ định ở định dạng XML (PMML). Bạn có thể
sử dụng tệp mô hình này để áp dụng thông tin mô hình.
➢ 𝐼𝑛𝑐𝑙𝑢𝑑𝑒 𝑡ℎ𝑒 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑀𝑎𝑡𝑟𝑖𝑥: Bao gồm ma trận hiệp
phương sai hay không.
❖ Kiểm định Omnibus của hệ số mô hình ❖ Tóm tắt mô hình (Model Summary)
Chi-square df Sig. −2 Log
Step 1 Step 114.843 1 .000 Cox & Snell Nagelkerke
Step likelihoo
Block 114.843 1 .000 R Square R Square
d
Model 114.843 1 .000 1 629.506 .193 .257
Step 2 Step 29.792 1 .000 2 599.713 .236 .315
Block 144.635 2 .000
Model 144.635 2 .000

Term Definition/Description
Sử dụng phương pháp Forward: LR để nhập các biến vào mô hình, SPSS phải mất
Steps 1 và 2
hai bước để nhập tất cả các biến đã cải thiện đáng kể mô hình.
Thước đo này và các thước đo tóm tắt mô hình khác được sử dụng để chỉ ra mức
độ phù hợp của mô hình với dữ liệu. Các giá trị −2 log likelihood nhỏ hơn có
−2 Log Likelihood
nghĩa là mô hình phù hợp với dữ liệu hơn; một mô hình hoàn hảo có −2 log
likelihood bằng không.
Cox & Snell And Nagelkerke R Ước lượng giá trị kích thước hiệu quả 𝑅2 , cho biết tỷ lệ phần trăm của biến phụ
Square thuộc có thể được tính bởi tất cả các biến dự báo được đưa vào mô hình.
12
125
5
Predicted
Observed Cathelp Percentage Correct
Not helpful Helpful
Not helpful 176 89 66.4
Cathelp
Step 1 Helpful 79 193 71.0
Overall percentage 68.7

Not helpful 181 84 68.3


Step 2 Cathelp
Helpful 75 197 72.4

Overall Percentage 70.4


126
B S.E. Wald df Sig. Exp(B) a. Variable(s) entered on step 1:
Step Effict 1.129 .122 85.346 1 .000 3.094 effict.
b. Variable(s) entered on step 2:
1a Constant −5.302 .585 82.019 1 .000 .005 sympatht.
Step Sympatht .467 .089 27.459 1 .000 1.596
2b Effict 1.114 .128 76.197 1 .000 3.046
Constant −7.471 .775 93.006 1 .000 .001

Term Definition/Description
B Giá trị trọng số của B được sử dụng trong phương trình; độ lớn của B, cùng với thang đo của biến mà
B được sử dụng để làm trọng số, cho biết ảnh hưởng của biến dự báo đối với biến phụ thuộc.
S.E Sai số tiêu chuẩn; một thước đo về sự phân tán của B.
Wald Một thước đo mức độ ý nghĩa của B đối với biến đã cho; các giá trị cao hơn, kết hợp với bậc tự do, cho
biết mức độ quan trọng.
Sig. Mức ý nghĩa của kiểm định Wald.
Exp(B) 𝑒 𝐵 được sử dụng để giúp giải thích ý nghĩa của các hệ số hồi quy.
127

❖ Đây là ma trận tương quan cho tất Constant Effic Sympatht


cả các biến trong phương trình
Constant 1.000 −.986
hồi quy và nó chỉ được in ra nếu Step 1
bạn yêu cầu Ước lượng tương Effic −.986 1.000
quan. Nó rất hữu ích vì nếu một số
Constant 1.000 −.825 −.619
biến có tương quan cao thì hồi
quy có thể có đa cộng tuyến và Step 2 Sympatht −.619 .085 1.000
không ổn định
Effic −.825 1.000 .085
HỒI QUI LOGISTIC BỘI
❖ Trong thực tiễn, biến phụ thuộc phân loại không chỉ có hai loại mà còn nhiều
loại khác nhau (polytomous variable), ví dụ: thành phần kinh tế, ưu thích về
các loại sản phẩm,… Như vậy, biến phụ thuộc là biến định danh gồm nhiều loại.
Trong những trường hợp này, cần dùng hồi qui Multinomial logistic.
❖ Khi các danh mục không được sắp xếp, hồi quy Logistic bội là một chiến lược
thường được sử dụng.
❖ Giả sử biến phụ thuộc có các loại M. Một giá trị (thường là giá trị đầu tiên, giá
trị cuối cùng hoặc giá trị có tần số cao nhất) của biến phụ thuộc được chỉ định
làm danh mục tham chiếu. Xác suất thành viên trong các danh mục khác được
so sánh với xác suất thành viên trong danh mục tham chiếu.
❖ Đối với một biến phụ thuộc có các loại M, điều này đòi hỏi phải tính toán các
phương trình M−1, một phương trình cho mỗi loại liên quan đến danh mục
tham chiếu, để mô tả mối quan hệ giữa biến phụ thuộc vưới các biến giải thích.
130
❖ Giả sử biến phụ thuộc có M loại (Danh mục). Nếu loại/danh mục đầu tiên là
tham chiếu, thì, với m = 2,...,m:
𝑃 𝑌𝑖 =𝑚
➢ 𝐿𝑛 = 𝛼𝑚 + σ𝐾
𝑘=1 𝛽𝑚𝑘 𝑋𝑖𝑘 = 𝑍𝑚𝑖
𝑃 𝑌𝑖 =1
❖ Do đó, đối với mỗi trường hợp, sẽ có (M-1) log odds dự đoán , một cho mỗi
danh mục so với danh mục tham chiếu. (Lưu ý rằng khi 𝑚 = 1 bạn nhận được
ln(1) = 0 = 𝑍11 , và exp(0) = 1.)
❖ Khi có nhiều hơn 2 nhóm, xác suất tính toán phức tạp hơn một chút so với hồi
quy logistic nhị phân. Cho m = 2, … , M
exp 𝑍𝑚𝑖
➢ 𝑃 𝑌𝑖 = 𝑚 =
1+σ𝑀
ℎ=2 exp 𝑍ℎ𝑖
❖ Đối với danh mục tham chiếu
1
➢ 𝑃 𝑌𝑖 = 1 =
1+σ𝑀
ℎ=2 exp 𝑍ℎ𝑖
❖ Hồi quy logistic không giả thiết về mối quan hệ tuyến tính giữa các biến phụ thuộc
và độc lập.
❖ Các biến độc lập không cần tuân theo phân phối chuẩn, không cần phương sai
bằng nhau trong mỗi nhóm.
❖ Không bắt buộc phải có tính phương sai đồng nhất. Các sai số ngẫu nhiên (phần
dư) không cần phải được phân phối chuẩn.
❖ Biến phụ thuộc trong hồi quy logistic phải là biến nhị phân (2 loại).
❖ Các danh mục (nhóm) như một biến phụ thuộc phải được loại trừ lẫn nhau và đầy
đủ; một trường hợp chỉ có thể nằm trong một nhóm và mọi trường hợp phải là
thành viên của một trong các nhóm.
❖ Mô hình có một hoặc nhiều biến độc lập, có thể là biến liên tục (tức là biến khoảng
hoặc biến tỷ lệ) hoặc biến phân loại (tức là biến thứ bậc hoặc biến định danh).
❖ Không có đa cộng tuyến
❖ Không có phần tử ngoại lai
❖ Cần có mối quan hệ tuyến tính giữa bất kỳ biến độc lập liên tục nào và phép biến
đổi logit của biến phụ thuộc.
❖ Cần có các mẫu lớn hơn so với hồi quy tuyến tính vì các hệ số tối đa sử dụng
phương pháp Maximum Likelihood là các ước lượng mẫu lớn.
➢ Nên sử dụng tối thiểu 50 trường hợp cho mỗi biến dự báo (Field, 2013).
➢ Hosmer, Lemeshow và Sturdivant (2013) đề xuất một mẫu tối thiểu gồm 10 quan
sát cho mỗi biến độc lập trong mô hình, nhưng lưu ý rằng nên tìm 20 quan sát cho
mỗi biến nếu có thể.
➢ Leblanc và Fitzgerald (2000) đề xuất tối thiểu 30 quan sát cho mỗi biến độc lập.
133
❖ Hồi quy logistic không yêu cầu phân phối chuẩn đa biến, nhưng nó yêu cầu lấy
mẫu độc lập ngẫu nhiên và tính tuyến tính giữa X và logit.
❖ Mô hình có khả năng chính xác nhất ở gần giữa các bản phân phối và kém chính
xác hơn đối với các điểm cực đoan. Mặc dù có thể ước tính P(Y=1) cho bất kỳ tổ
hợp giá trị nào, nhưng có lẽ không phải tất cả các tổ hợp đều thực sự tồn tại trong
tổng thể.
❖ Các mô hình có thể bị bóp méo nếu các biến quan trọng bị loại bỏ. Thật dễ dàng để
kiểm định sự đóng góp của các biến bổ sung bằng cách sử dụng phân tích thứ bậc.
Tuy nhiên, việc thêm các biến không liên quan có thể làm giảm tác động của các
biến thú vị hơn.
❖ Đa cộng tuyến sẽ không tạo ra các ước tính sai lệch, nhưng giống như trong hồi
quy thông thường, sai số chuẩn của các hệ số trở nên lớn hơn và sự đóng góp duy
nhất của các biến trùng lặp có thể trở nên rất nhỏ và khó phát hiện về mặt thống
kê.
134

❖ Nhiều dữ liệu hơn là tốt hơn. Các mô hình có thể không ổn định khi mẫu nhỏ. Theo
dõi các ngoại lai có thể bóp méo các mối quan hệ. Với các biến tương quan và đặc
biệt là với các mẫu nhỏ, một số tổ hợp giá trị có thể được biểu diễn rất thưa thớt.
❖ Các ước tính không ổn định và thiếu sức mạnh khi dựa trên các ô có giá trị dự kiến
nhỏ. Có lẽ các danh mục nhỏ có thể được thu gọn một cách có ý nghĩa.
❖ Vẽ dữ liệu để đảm bảo rằng mô hình là phù hợp.
❖ Hãy cẩn thận để không giải thích tỷ lệ chênh lệch là tỷ lệ rủi ro.
HỒI QUI LOGISTIC BỘI DÙNG SPSS
136
❖ Mở File Cereal.
❖ Analyze > Regression > Multinomial Logistic
Regression...
❖ Khi đó, màn hình Multinomial Logistic
Regression sẽ xuất hiện. Trong đó có những
mục:
➢ Dependent
➢ Factor(s)
➢ Covariates
➢ Model…
➢ Statistics…
➢ Criteria…
➢ Options
Data. Biến phụ thuộc phải được phân loại. Các
➢ Save… biến độc lập có thể là nhân tố hoặc hiệp biến. Nói
➢ Boostrap… chung, các nhân tố phải là các biến phân loại và
hiệp biến phải là các biến liên tục.
137

❖ Mặc nhiên, thủ tục Multinomial Logistic


Regression chọn loại cuối cùng làm loại
tham chiếu (reference category). Tuy
nhiên, chúng ta có thể tùy chỉnh.
❖ 𝑅𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒 𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑦. Chỉ định loại đầu,
cuối hay tùy chỉnh loại tham chiếu.
❖ 𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑦 𝑂𝑟𝑑𝑒𝑟. Theo thứ tự tăng dần, giá
trị thấp nhất xác định loại đầu tiên và giá trị
cao nhất xác định loại cuối cùng. Theo thứ
tự giảm dần, giá trị cao nhất xác định loại
đầu tiên và giá trị thấp nhất xác định loại
cuối cùng.
138

❖ Case processing summary: Bảng này chứa thông tin


về các biến phân loại được chỉ định.
❖ Model: Thống kê cho mô hình tổng thể.
➢ 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅 − 𝑠𝑞𝑢𝑎𝑟𝑒: Hiển thị Cox and Snell,
Nagelkerke, và McFadden 𝑅2 statistics.
➢ 𝑆𝑡𝑒𝑝 𝑠𝑢𝑚𝑚𝑎𝑟𝑦: Bảng này tóm tắt các tác động
được nhập vào hoặc loại bỏ ở mỗi bước trong một
phương pháp từng bước.
➢ 𝑀𝑜𝑑𝑒𝑙 𝑓𝑖𝑡𝑡𝑖𝑛𝑔 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛: Các bảng so sánh
thông tin về các mô hình
➢ 𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝑐𝑟𝑖𝑡𝑒𝑟𝑖𝑎: Nêu các tiêu chuẩn thông
tin Akaike’s information criterion (AIC) và
Schwarz’s Bayesian information criterion (BIC).
139

➢ Cell probabilities. Các bảng với tần số quan sát và


kỳ vọng (với phần dư) và tỷ lệ mẫu hiệp biến và
loại tương ứng.
➢ Classification table. Bảng phân loại với kết quả dự
báo và quan sát.
➢ Goodness of fit chi-square statistics. Các thống kê
Pearson và likelihood-ratio chi-square.
➢ Monotinicity measures. Hiển thị một bảng với
thông tin về số lượng cặp phù hợp, cặp bất hòa....
Somers ' D, Goodman và Kruskal's Gamma,
Kendall's tau-a và Concordance Index C cũng được
hiển thị trong bảng này.
140

❖ Parameters. Thống kê liên quan đến các tham số mô hình.


➢ Estimates: In ước lượng các tham số mô hình, với mức
độ tin cậy do người dùng chỉ định.
➢ Likelihood ratio test. In các kiểm định tỷ lệ hợp lý cho
các hiệu ứng một phần của mô hình. Kiểm định cho mô
hình tổng thể được in tự động.
➢ Asymptotic correlations. In ma trận tham số ước tính
tương quan.
➢ Asymptotic covariances. In ma trận tham số ước tính
hiệp phương sai.
➢ Confidence Interval (%): Khoảng tin cậy mặc định là
95% nhưng có thể tùy chỉnh.
❖ Define Subpopulations. Cho phép chọn một tập hợp con
của các factor và covariates để xác định các mẫu hiệp biến
được sử dụng bởi xác suất ô và các kiểm định độ phù hợp.
141

❖ Iterations: Cho phép bạn chỉ định số lần tối đa bạn muốn
quay vòng qua thuật toán.
❖ Log-likelihood convergence: Sự hội tụ được giả định nếu
thay đổi tuyệt đối trong log hàm hợp lý nhỏ hơn giá trị
được chỉ định.
❖ Parameter convergence: Sự hội tụ được giả định nếu sự
thay đổi tuyệt đối trong các ước tính tham số nhỏ hơn giá
trị này. Delta: Cho phép bạn chỉ định giá trị không âm nhỏ
hơn 1. Giá trị này được thêm vào mỗi ô trống của sự
chuyển đổi chéo của danh mục phản hồi theo mẫu đồng
biến. Điều này giúp ổn định thuật toán và ngăn chặn sự
thiên vị trong các ước tính.
❖ Singularity tolerance: Cho phép bạn chỉ định dung sai
được sử dụng để kiểm tra các điểm kỳ dị (singularities).
142

❖ 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛 𝑆𝑐𝑎𝑙𝑒: Cho phép bạn chỉ định giá trị tỷ lệ


phân tán sẽ được sử dụng để ước tính ma trận hiệp
phương sai tham số.
❖ 𝑆𝑡𝑒𝑝𝑤𝑖𝑠𝑒 𝑂𝑝𝑡𝑖𝑜𝑛𝑠: Các tùy chọn này cung cấp cho bạn
quyền kiểm soát các tiêu chí thống kê khi các phương
pháp từng bước được sử dụng để xây dựng mô hình.
❖ 𝐸𝑛𝑡𝑟𝑦 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦: Đây là xác suất của thống kê tỷ lệ
hợp lý cho mục nhập biến. Xác suất được chỉ định
càng lớn, biến càng dễ dàng nhập mô hình.
❖ 𝐸𝑛𝑡𝑟𝑦 𝑡𝑒𝑠𝑡: Đây là phương pháp để nhập thuật ngữ
trong các phương pháp từng bước.
143

❖ 𝑅𝑒𝑚𝑜𝑣𝑎𝑙 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦: Đây là xác suất của thống kê tỷ lệ


hợp lý để loại bỏ biến. Xác suất được chỉ định càng lớn,
biến càng dễ dàng duy trì trong mô hình.
❖ 𝑅𝑒𝑚𝑜𝑣𝑎𝑙 𝑇𝑒𝑠𝑡: Đây là phương pháp để loại bỏ các điều
khoản trong các phương pháp từng bước.
❖ 𝑀𝑖𝑛𝑖𝑚𝑢𝑚 𝑆𝑡𝑒𝑝𝑝𝑒𝑑 𝐸𝑓𝑓𝑒𝑐𝑡𝑠 𝑖𝑛 𝑀𝑜𝑑𝑒𝑙 : Khi sử dụng các
phương pháp loại bỏ lùi hoặc lùi lại từng bước, điều này
chỉ định số lượng thuật ngữ tối thiểu để bao gồm trong mô
hình.
❖ 𝑀𝑎𝑥𝑖𝑚𝑢𝑚 𝑆𝑡𝑒𝑝𝑝𝑒𝑑 𝐸𝑓𝑓𝑒𝑐𝑡𝑠 𝑖𝑛 𝑀𝑜𝑑𝑒𝑙: Khi sử dụng các
phương pháp chuyển tiếp hoặc chuyển tiếp từng bước,
điều này chỉ định số lượng thuật ngữ tối đa để bao gồm
trong mô hình.
❖ 𝐻𝑖𝑒𝑟𝑎𝑟𝑐ℎ𝑖𝑐𝑎𝑙𝑙𝑦 𝑐𝑜𝑛𝑠𝑡𝑟𝑎𝑖𝑛 𝑒𝑛𝑡𝑟𝑦 𝑎𝑛𝑑 𝑟𝑒𝑚𝑜𝑣𝑎𝑙 𝑜𝑓 𝑡𝑒𝑟𝑚𝑠:
Tùy chọn này cho phép bạn chọn có đặt ra các hạn chế đối
với việc bao gồm các điều khoản mô hình hay không.
144

❖ 𝑆𝑎𝑣𝑒𝑑 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠: Cho phép các biến lưu những thông tin sau:
➢ 𝐸𝑠𝑡𝑖𝑚𝑎𝑡𝑒𝑑 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑒 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑖𝑒𝑠. Đây là xác suất ước tính
của việc phân loại một yếu tố / mô hình hiệp biến thành các
loại phản hồi.
➢ 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦. Đây là loại phản hồi có xác suất dự
kiến lớn nhất cho một mô hình nhân tố/ hiệp biến.
➢ 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑖𝑒𝑠. Đây là xác suất phản ứng
tối đa của ước tính.
➢ 𝐴𝑐𝑡𝑢𝑎𝑙 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦. Đây là xác suất ước tính của
việc phân loại một yếu tố / mô hình hiệp biến vào loại quan
sát được
❖ 𝐸𝑥𝑝𝑜𝑟𝑡 𝑚𝑜𝑑𝑒𝑙 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝑡𝑜 𝑋𝑀𝐿 𝑓𝑖𝑙𝑒: Tham số ước tính và
(tùy chọn) hiệp phương sai của chúng được xuất sang tệp được
chỉ định ở định dạng XML (PMML)
➢ 𝐼𝑛𝑐𝑙𝑢𝑑𝑒 𝑡ℎ𝑒 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑀𝑎𝑡𝑟𝑖𝑥: Bao gồm ma trận hiệp
phương sai không.

You might also like