Professional Documents
Culture Documents
Chuong 6. Phan Tich Hoi Qui.1
Chuong 6. Phan Tich Hoi Qui.1
Chuong 6. Phan Tich Hoi Qui.1
❖ Phân tích hồi qui là một phương pháp nhằm nghiên cứu mối quan hệ phụ
thuộc của một biến vào một hay nhiều biến khác.
❖ Nhiệm vụ:
➢ Ước lượng giá trị trung bình của tiêu thức kết quả.
➢ Kiểm định về bản chất của sự phụ thuộc giữa các biến.
➢ Dự đoán giá trị của tiêu thức kết quả, gồm có dự đoán giá trị trung bình và
cá biệt của tiêu thức kết quả dựa vào giá trị của tiêu thức nguyên nhân đã
biết.
❖ Vận dụng phân tích hồi qui vào số liệu kinh tế nhằm kiểm nghiệm các mô hình
do các nhà kinh tế toán đề xuất và xác định các ước lượng bằng số.
❖ Phân tích hồi qui các vấn đề kinh tế hiện thời dựa trên vận dụng đồng thời lý
thuyết và thực tế được thực hiện bởi các suy đoán thích hợp.
❖ Các nhà hoạch định chính sách muốn xem xét mối quan hệ phụ thuộc giữa chi
tiêu của các hộ gia đình với thu nhập, qui mô, tài sản…
❖ Cac nha quan tri san xuat muon xem xet moi quan he phu thuoc giữa chi phí
san xuat vơi khối lượng sản phẩm, giữa kết quả sản xuất với các các yếu tó đầu
vào như vốn, lao động, công nghệ...
❖ Cac nha nghien cưu marketing muon xem xet moi quan he phu thuoc giữa khối
lượng sản phẩm bán ra với giá cả, doanh thu phụ thuộc như thế nào vào chi phí
quảng cáo…
❖ Cac nha kinh te nong nghiep muon nghien cưu moi quan he phu thuoc giữa nang suat
thu hoach vơi nhiệt độ, giống cây trồng, lượng phân bón, vùng…
❖ San lương thu hoach phu thuoc vao lương phan bon, lương nươc tươi tiêu,…;
❖ Cac nha phan tích thi trương chưng khoan nghien cưu moi liên hệ giá của cổ phiếu với
các đặc trưng của công ty phát hành cổ phiếu đó, cũng như với tình hình chung của
nền kinh tế.
❖ Doanh thu bán hàng phụ thuộc vào giá bán, chi phí quảng cáo, thu nhập của khách
hàng;
❖ GDP cua nè n kinh te phu thuoc vao von, lao đong, nguò n tai nguyen, cong nghe… ;
❖ Tiêu dùng của dân cư phụ thuộc vào thu nhập khả dụng, thời gian, mùa, vùng;
❖ Ty suat sinh cua phu nữ phu thuoc vao ty le chet của trẻ em, mức thu nhập bình quân
đầu người, trình độ văn hoá;
❖ Thu nhap cua ngươi lao đong phu thuoc vao trính đo chuyen mon, nghè nghiep, so
nam kinh nghiem...
❖ Mô hình hồi qui là mô hình trong đó biến phụ thuộc phụ thuộc vào ít nhất một
biến giải thích.
❖ Những ứng dụng:
➢ Doanh thu bán hàng phụ thuộc vào giá bán, chi phí quảng cáo, thu nhập của
khách hàng.
➢ Chi phí sản xuất phụ thuộc vào khối lượng sản phẩm sản xuất, qui trình
công nghệ, trình độ lành nghề của người lao động.
➢ Tiêu dùng của dân cư phụ thuộc vào thu nhập khả dụng, thời gian, mùa,
vùng...
❖ Khái quát, chúng ta có n quan sát và mỗi quan sát gồm k trị số (𝑌𝑖 , 𝑋2𝑖 , … , 𝑋𝑘𝑖 ),
𝑖 = 1, 𝑛
7
Trong đó:
➢ bj (∀j = 1, k) gọi các hệ số hồi qui. Với b1 gọi là hệ số chặn và các bj (∀j = 2, k) gọi
là các hệ số góc hay còn gọi là hệ số hồi qui riêng.
➢ ei gọi là phần dư.
9
❖ Nhận xét: đơn vị tính của các biến ảnh hưởng đến việc giải thích ý nghĩa các hệ
số hồi qui. Để loại trừ ảnh hưởng này, biến được chuẩn hóa như sau:
ഥ
Yi −Y ഥj
Xji −X
➢ Yi∗ = và X ji∗ =
sY sXjj
❖ Hãy xem xét mô hình sau đây, được gọi là mô hình hồi quy hàm mũ:
➢ 𝑌 = α𝑋𝛽 𝑒
❖ có thể được thể hiện theo cách khác là:
➢ ln 𝑌 = ln α + 𝛽ln 𝑋 +
Trong đó: ln = logaric tự nhiên (i.e., log theo cơ số 𝑒, và 𝑒 = 2.718)
❖ Mô hình này được gọi là mô hình log-log hay log đôi.
❖ Bây giờ hãy đặt 𝛼 ∗ = ln𝛼 và 𝑌𝑖∗ = ln 𝑌𝑖 và 𝑋 ∗ = lnX chúng ta có thể viết như
sau:
➢ 𝑌 ∗ = 𝛼 ∗ + 𝛽X ∗ +
❖ Ước lượng OLS 𝑎∗ và 𝑏 sẽ là những ước lượng không không chệch tuyến tính
tốt nhất tương ứng của 𝛼 ∗ và .
❖ Hệ số góc β đo lượng hệ số của Y tương ứng với X, nghĩa là, phần trăm thay đổi
của Y ứng với một phần trăm thay đổi của X.
14
Quantity demanded
Y= X i–
dụng, là hệ số co dãn β đo độ co dãn của Y
đối với X.
❖ Do đó, nếu Y đại diện cho số lượng nhu cầu
hàng hóa và X đơn giá của nó, β đo lường độ
X
co dãn giá của cầu, một thông số có lợi ích Price
kinh tế đáng kể. Nếu mối quan hệ giữa số
ln X
Log of price
❖ Hàm sản xuất Cobb-Douglas tổng quát
➢ 𝐿𝑛𝑌𝑖 = 1 + 2 𝐿𝑛𝑋2𝑖 + ⋯ + 𝑘 𝐿𝑛𝑋𝑘𝑖 + 𝑖
❖ Với 𝐿𝑛𝑌𝑖 = 𝐿𝑛(𝑌𝑖 ), 𝐿𝑛𝑋𝑗𝑖 = 𝐿𝑛(𝑋𝑗𝑖 ) và Ln là ký hiệu của logaric theo cơ số tự
nhiên.
❖ Như vậy, từ biến 𝑌𝑖 và 𝑋𝑗𝑖 chúng ta hình thành các biến mới 𝐿𝑛𝑌𝑖 và 𝐿𝑛𝑋𝑗𝑖 . Dựa
vào số liệu biến mới, thực hiện hồi qui như cách đã trình bày ở trên.
❖ Ý nghĩa kinh tế của các số góc 𝛽𝑗 (j=2,...,k): trong điều kiện các nhân tố khác
không đổi, khi nhân tố 𝑋𝑗 tăng lên 1% thì Y bình quân tăng 𝛽𝑗 %. Trong mô hình
này, 𝛽𝑗 chính là hệ số co giãn của Y theo 𝑋𝑗 .
16
❖ Chúng ta có thể nhớ lại công thức lãi kép nổi tiếng sau đây:
➢ 𝑌 = 𝑌0 1 + 𝑟 𝑡
❖ trong đó r là tốc độ tăng trưởng của Y. Lấy logarit tự nhiên của mô hình, chúng
ta có thể viết:
➢ ln 𝑌 = ln 𝑌0 + 𝑡 ln 1 + 𝑟
❖ Đặt 𝛽1 = ln 𝑌0 và 𝛽2 = ln(1 + 𝑟) chúng ta có thể viết lại như sau:
➢ ln 𝑌 = 𝛽1 + 𝛽2 𝑡
❖ Thêm thuật ngữ nhiễu vào mô hình, chúng ta có được:
➢ ln 𝑌 = 𝛽1 + 𝛽2 𝑡 + ε
❖ Mô hình này được gọi là mô hình semilog vì chỉ có một biến xuất hiện ở dạng
logarit.
17
❖ Không giống như mô hình tăng trưởng, trong đó chúng ta quan tâm đến việc
xác định phần trăm tăng trưởng của Y cho một sự thay đổi tuyệt đối của X, giả
sử bây giờ chúng ta muốn tìm sự thay đổi tuyệt đối của Y cho một phần trăm
thay đổi của X. Một mô hình có thể thực hiện mục đích này có thể được viết là:
➢ 𝑌 = 𝛼 + 𝛽ln 𝑋 + ε
❖ Mô hình này được gọi là mô hình lin-log.
❖ Hãy để chúng ta giải thích hệ số độ dốc β:
➢ β = Mức thay đổi của Y/mức thay đổi của lnX = Mức thay đổi của Y/tốc độ
thay đổi của X
18
❖ Các mô hình thuộc loại sau đây được gọi là mô hình nghịch đảo.
1
➢𝑌 = + 𝛽 +ε
𝑋
❖ Mặc dù mô hình này là phi tuyến theo biến X nhưng là mô hình là tuyến tính
trong α và β và do đó là một mô hình hồi quy tuyến tính.
❖ Mô hình này có các đặc trưng: Khi X tăng vô thời hạn, phần β(1/X) tiệm cận
bằng không (lưu ý: β là hằng số) và Y tiệm cận giá trị giới hạn hoặc tiệm cận .
Do đó, các mô hình này đã xây dựng trong chúng một giá trị tiệm cận hoặc giới
hạn mà biến phụ thuộc sẽ lấy khi giá trị của biến X tăng vô thời hạn.
20
Y Y Y
X 0 – - X
0 0 X /
–
X
❖ Hồi quy đa thức bậc kth tổng quát có thể được viết như sau:
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + ⋯ + 𝛽𝑘 𝑋 𝑘 + ε
❖ Lưu ý rằng trong các loại hồi quy đa thức này chỉ có một biến giải thích ở phía bên tay phải
nhưng nó xuất hiện với nhiều bậc khác nhau, do đó làm cho chúng trở thành mô hình hồi
quy bội. Ngẫu nhiên, lưu ý rằng nếu 𝑋𝑖 được giả định là cố định hoặc không phải là cố định,
các bậc của X cũng trở thành cố định hoặc không tự nhiên.
❖ Mô hình parabol được biểu diễn bằng phương trình sau:
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝜀
được gọi là hàm bậc hai, hay nói chung hơn là đa thức bậc hai theo biến X—lũy thừa cao nhất
của X đại diện cho bậc của đa thức.
❖ Mô hình lập phương được biểu diễn bằng phương trình sau:
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝛽3 𝑋 3 + 𝜀
được gọi là hàm lập phương, hay nói chung hơn, đa thức bậc ba theo biến X—lũy thừa cao
nhất của X đại diện cho bậc của đa thức.
23
Y
❖ Hình chữ S này của đường cong tổng chi phí có thể được
biểu diễn bởi đa thức bậc ba hoặc lập phương sau: TC
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝛽3 𝑋 3 + 𝜀
Cost
❖ Đường cong chi phí cận biên hình chữ U và đường cong chi
phí trung bình (AC) theo sản phẩm:
❖ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝜀
❖ Ghi chú: X
Output
➢ Lý thuyết giá cơ bản cho thấy rằng trong ngắn hạn, các
MC
đường cong chi phí cận biên (MC) và chi phí trung bình
(AC) của sản xuất thường có hình chữ U — ban đầu, AC
khi sản lượng tăng cả MC và AC giảm, nhưng sau một
Cost
mức sản lượng nhất định, cả hai đều hướng lên trên,
một lần nữa là nhược điểm của định luật lợi nhuận
giảm dần. X
Output
❖ Quadratic: 𝐸 𝑌𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2
❖ Cubic: 𝐸 𝑌𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2 + 𝛽3 𝑡 3
❖ Power: 𝐸 𝑌𝑡 = 𝛽0 𝑡𝛽1
❖ S: 𝐸 𝑌𝑡 = exp 𝛽0 + 𝛽1 /𝑡
❖ Growth: 𝐸 𝑌𝑡 = exp 𝛽0 + 𝛽1 𝑡
❖ Exponential: 𝐸 𝑌𝑡 = 𝛽0 𝑒 𝛽1 𝑡
1 −1
❖ Logistic: 𝐸 𝑌𝑡 = + 𝛽0 𝛽1𝑡
𝑢
25
❖ Dạng ma trận
➢ B = (X T X)−1 X T Y
❖ Công thức tính
𝑆𝑆𝑅
➢ 𝑅2 =
𝑆𝑆𝑇
❖ Tính chất: 0 R2 1:
➢ R2= 1: Mô hình hồi qui phù hợp “hoàn hảo”.
➢ R2= 0: Mô hình hồi qui không phù hợp, tức biến phụ thuộc không có quan
hệ với các biến giải thích.
❖ Ý nghĩa:
➢ Đánh giá mức độ phù hợp của mô hình: giá trị của hệ số xác định càng lớn
thì mô hình càng phù hợp.
➢ Phản ảnh tỷ lệ % phần biến động của biến phụ thuộc giải thích được bằng
đường hồi qui trong toàn bộ biến động của nó.
❖ Công thức tính
𝑆𝑆𝐸 Τ 𝑛 − 𝑘 𝑒𝑖2 Τ 𝑛 − 𝑘
𝑅ത 2 = 1 − =1−
𝑆𝑆𝑇Τ 𝑛 − 1 𝑦𝑖2 Τ 𝑛 − 1
❖ Tính chất:
➢ Giá trị của hệ số xác định điều chỉnh có thể âm;
➢ Nếu k >1, thì hệ số xác định điều chỉnh nhỏ hơn hệ số xác định.
➢ Mối liên hệ giữa hệ số xác định và hệ số xác định điều chỉnh:
𝑛−1
𝑅ത 2 = 1 − × (1 − 𝑅 2 )
𝑛−𝑘
❖ Trong SPSS, hệ số xác định và hệ số xác định được tính mặt nhiên trong thủ tục
hồi qui.
❖ Một số từ tiếng Anh
➢ Model Summary: Tóm tắc mô hình
➢ R Square: hệ số xác định
➢ Adjusted R Square: Hệ số xác định điều chỉnh
➢ Std. Error of the Estimate: sai số mô hình
Model Summary
Nhận xét: R Square = 0,699: mô hình phù
hợp và trong 100% phần biến động của chi
Adjusted R Std. Error of
Model R R Square Square the Estimate tiêu thì do 2 nhân tố thu nhập và qui mô gia
3,049465 đình chiếm 69,9%.
a
1 0,836 0,699 0,682
a. Predictors: (Constant), X3, X2
❖ Khi thực hiện các suy đoán thống kê về các tham số hồi qui, chúng ta có thể
đưa ra giả thuyết khác nhau về chúng. Chẳng hạn H0: j=j*.
❖ Nếu H0 đúng, chúng ta có:
➢ 𝑇 = 𝑏𝑗 − 𝛽𝑗∗ ൗ𝑆𝑒(𝑏𝑗 ൯ ~𝑇(𝑛 − 𝑘 ൯
𝑇(𝑛 − 𝑘): Phân phối T với bậc tự do (n-k)
Trong đó: Se(bj) là sai số chuẩn
Tiếp cận giá trị tới hạn
Critical Value Approach
Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
Bước 1 Bên phải: H0: j ∗j và H1: j > ∗j
H0: j= ∗j và H1: j ≠ j∗
Bên trái: H0: j ∗j và H1: j < ∗j
Bước 2 Chọn mức ý nghĩa
bj −j∗
Bước 3 Tính thống kê kiểm định: t =
Se(bj ൯
Tính giá trị tới hạn: Căn cứ vào mức ý nghĩa xác định giá trị tới hạn
Bước 4
Critical Value = t/2( n-k) Critical Value =t(n-k)
Kết luận : Bác bỏ H0
Bước 5 Bên phải: Nếu t > t(n-k)
Nếu t>t(n-k)
Bên trái: Nếu t <-t(n-k)
Tiếp cận giá trị xác suất
p-Value Approach
Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
Bước 1 H0: j= ∗j và H1: j ≠ j∗ Bên phải: H0: j ∗j và H1: j > ∗j
Bên trái: H0: j ∗j và H1: j < ∗j
Bước 2 Chọn mức ý nghĩa
bj −j∗
Bước 3 Tính thống kê kiểm định: t =
Se(bj ൯
Bước 4 Căn cứ vào giá trị thống kê kiểm định, xác định p-value = P(T>|t|)
Kết luận : Bác bỏ H0
Bước 5
Nếu p-value /2 Nếu p-value
Tiếp cận giá trị tới hạn Tiếp cận giá trị xác suất
Xây dựng cặp giả thuyết
Bước 1
H0: j= 0 và H1: j ≠ 0
❖ Ngoài việc kiểm định tất cả các hệ số góc đồng thời bằng không, trong phân
tích hồi qui còn thực kiểm định một số các hệ số góc đồng thời bằng không
nhằm kiểm định một các nhân tố có ảnh hưởng đến biến phụ thuộc hay không.
❖ Giả sử chúng ta có mô hình hồi qui:
➢ 𝑈𝑅 𝑌𝑖 = 1 + 2 𝑋2𝑖 + ⋯ + 𝑝 𝑋𝑝𝑖 + 𝑝+1 𝑋 𝑝+1 𝑖 + ⋯ + 𝑘 𝑋𝑘𝑖 + ε𝑖
❖ Mô hình này gọi là mô hình không có ràng buộc (UR: UnRestricted)
❖ Giả sử có các ràng buộc về các 𝑗 như sau:
➢ 𝑝+1 = 𝑝+2 = ⋯ = 𝑘 = 0
❖ Vậy, chúng ta có mô hình ràng buộc (R: Restricted):
➢ (R) 𝑌𝑖 = 1 + 2 𝑋2𝑖 + ⋯ + 𝑝 𝑋𝑝𝑖 + 𝑣𝑖
39
❖ Chúng ta muốn kiểm định rằng ảnh hưởng của nhân tố vốn và lao động là như
nhau đến kết quả sản xuất cần tiến hành kiểm định cặp giả thuyết sau:
➢ 𝐻0 : 2 = 3 và 𝐻0 : 2 3 Hay
➢ 𝐻0 : 2 − 3 = 0 và 𝐻0 : 2 − 3 0
❖ Khi đó, chúng ta dùng thống kê t như sau:
(𝑏2 +𝑏3 ) (𝑏2 +𝑏3 )
➢𝑡= =
𝑆𝑒(𝑏2 +𝑏3 ) 𝑉𝑎𝑟(𝑏2 )+𝑉𝑎𝑟(𝑏3 )+2𝐶𝑜𝑣(𝑏2 ,𝑏3 )
44
❖ Ví dụ: Căn cứ vào tài liệu về giá trị tăng thêm (Y: tỷ), lao động (X2: ngàn người) và vốn (X3: tỷ
đồng) trong một ngành, thực hiện hồi qui:
➢ 𝐿𝑛𝑌𝑖 = 𝛽1 + 𝛽2 𝐿𝑛𝑋2𝑖 + 𝛽3 𝑙𝑛𝑋3𝑖 + 𝜀𝑖
➢ Kết quả như trên Bảng sau:
❖ Ngoài ra còn biết thêm ma trận phương sai hiệp phương sai của các hệ số hồi qui như sau
3,3599224841
➢ Cov(𝐵) = −0,708358022 0,16405926
0,064108786 −0,021748475 0,005829925
45
❖ Chúng ta muốn kiểm định về hiệu quả tăng theo qui mô cần tiến hành kiểm
định cặp giả thuyết sau:
➢ 𝐻0 : 2 + 3 1 𝑣à 𝐻0 : 2 + 3 > 1
❖ Khi đó, chúng ta dùng thống kê t như sau:
(𝑏2 +𝑏3 )−1
➢𝑡=
𝑉𝑎𝑟(𝑏2 )+𝑉𝑎𝑟(𝑏3 )+2𝐶𝑜𝑣(𝑏2 ,𝑏3 )
0,96068622+0,35879839−1
➢=
0,16405926+0,005829925−2×0,021748475)
➢ = 1,028724
❖ Tra bảng phân phối t với mức ý nghĩa 0,05, chúng ta được 𝑡0,05 12 =1,782.
❖ Vì t < t0,05(12) nên chấp nhận H0 với mức ý nghĩa 5% hay nói khác hiệu quả
giảm theo qui mô.
46
❖ Khi chúng ta sử dụng mô hình hồi quy liên quan đến dữ liệu chuỗi thời gian, có thể
xảy ra sự thay đổi về cấu trúc trong mối quan hệ giữa biến hồi quy và Y và các biến
hồi quy. Điều này có thể dẫn đến các giá trị của các tham số của mô hình thay đổi
trong toàn bộ khoảng thời gian.
❖ Xem dữ liệu ở Slides trang sau.
❖ Bây giờ chúng ta có thể có ba mô hình hồi quy
➢ Giai đoạn 1970-1981: 𝑌𝑡 = 𝜆1 + 𝜆2 𝑋𝑡 + ε1𝑡 𝑛1 = 12 (1)
Giai đoạn 1982-1995: 𝑌𝑡 = 𝛾1 + 𝛾2 𝑋𝑡 + ε2𝑡 𝑛2 = 14 (2)
Giai đoạn 1970-1995: 𝑌𝑡 = 𝛼1 + 𝛼2 𝑋𝑡 + ε𝑡 𝑛 = 𝑛1 + 𝑛2 = 26 (3)
❖ Hồi quy (3) giả định rằng không có sự khác biệt giữa hai khoảng thời gian và do đó
ước tính mối quan hệ giữa tiết kiệm và thu nhập khả dụng trong toàn bộ khoảng
thời gian bao gồm 26 quan sát. Nói cách khác, hồi quy này giả định rằng hệ số
chặn cũng như hệ số góc không đổi trong toàn bộ thời kỳ; tức là không có sự thay
đổi cấu trúc. Nếu đây thực sự là tình huống, thì 𝛼1 = 𝜆1 = 𝛾1 và 𝛼2 = 𝜆2 = 𝛾2 .
47
Observation Savings Income Observation Savings Income
1970 61.0 727.1 1983 167.0 2522.4
1971 68.6 790.2 1984 235.7 2810.0
1972 63.6 855.3 1985 206.2 3002.0
1973 89.6 965.0 1986 196.5 3187.6
1974 97.6 1054.2 1987 168.4 3363.1
1975 104.4 1159.2 1988 189.1 3640.8
1976 96.4 1273.0 1989 187.8 3894.5
1977 92.5 1401.4 1990 208.7 4166.8
1978 112.6 1580.1 1991 246.4 4343.7
1979 130.1 1769.5 1992 272.6 4613.7
1980 161.8 1973.3 1993 214.4 4790.2
1981 199.1 2200.2 1994 189.4 5021.7
1982 205.5 2347.3 1995 249.3 5320.8
48
❖ Vì hai mẫu độc lập nên có thể cộng RSS1 và RSS2 để được tổng bình các phần
dư không ràng buộc RSSUR , chúng ta được:
➢ RSSUR = RSS1 + RSS2 với df = 𝑛1 + 𝑛2 − 2𝑘
❖ Chúng ta có:
RSSR −RSSUR /𝑘
➢𝐹= ∼ 𝐹 𝑘, 𝑛1 +𝑛2 −2𝑘
RSSUR / 𝑛1 +𝑛2 −2𝑘
❖ Chúng ta không bác bỏ giả thuyết không về độ ổn định của tham số nếu giá trị F
được tính toán trong một ứng dụng không vượt quá giá trị F tới hạn thu được
từ bảng F ở mức ý nghĩa đã chọn (hoặc giá trị p).
❖ Trong trường hợp này, chúng ta có thể sử dụng hồi quy gộp (3).
❖ Ngược lại, nếu giá trị F được tính toán vượt quá giá trị F tới hạn, chúng ta bác
bỏ giả thuyết về độ ổn định của tham số và kết luận rằng các hồi quy (1) và (2)
là khác nhau, trong trường hợp đó, hồi quy gộp (3) có giá trị đáng ngờ.
5050
➢ 𝐸(𝑌𝑖 /𝐷𝑖 = 0, 𝑋𝑖 , 𝑋 ∗ ) = 1 + 2 𝑋𝑖
1 − 3 𝑋 ∗ X*
❖ Hồi qui thể hiện sau giá trị X* (khúc II):
➢ 𝐸 𝑌𝑖 /𝐷𝑖 = 1, 𝑋𝑖 , 𝑋 ∗ = 1 − 3 𝑋 ∗ + 2 + 3 𝑋𝑖
❖ Như vậy, 2 là hệ số góc của hồi qui của khúc I, và 2 + 3 là hệ số góc của hồi
qui khúc II. Xem đồ thị.
52
❖ Trong mô hình hồi qui bội, có nhiều biến giải thích và chúng ta có thể thực hiện
tính toán nhiều hệ số tương quan giữa chúng. Kết quả có thể bố trí thành một
ma trận gọi là ma trận hệ số tương quan như sau:
𝑟11 𝑟12 𝑟13 . . . 𝑟1𝑘 1 𝑟12 𝑟13 . . . 𝑟1𝑘
𝑟21 𝑟22 𝑟23 . . . 𝑟2𝑘 𝑟21 1 𝑟23 . . . 𝑟2𝑘
❖ 𝑅 = ... ... ... ... ... = ... ... ... ... ...
𝑟1𝑘 𝑟𝑘2 𝑟𝑘3 . . . 𝑟𝑘𝑘 𝑟1𝑘 𝑟𝑘2 𝑟𝑘3 . . . 1
❖ Trong đó chỉ số dưới 1 thể hiện biến phụ thuộc Y (𝑟12 chính là hệ số tương
quan giữa biến phụ thuộc Y và 𝑋2 ) và 𝑟11 = 𝑟22 = ⋯ = 𝑟𝑘𝑘 = 1
❖ Chúng ta nhận thấy ma trận hệ số tương quan đối xứng qua đường chéo chính.
Chính vì tính chất này mà để đơn giản, chúng ta có thể biểu diễn ma trận hệ số
tương quan như sau
53
❖ Chúng ta nhận thấy ma trận hệ số tương quan đối xứng qua đường chéo chính.
Chính vì tính chất này mà để đơn giản, chúng ta có thể biểu diễn ma trận hệ số
tương quan như sau :
1
𝑟 1
❖ 𝑅 = 21
... ... ...
𝑟1𝑘 𝑟𝑘2 𝑟𝑘3 ... 1
54
❖ Ðể kiểm định giả thuyết, tìm khoảng tin cậy và thực hiện các suy đoán thống kê liên
quan đến các tham số hồi qui, chúng ta cần phải tìm các phương sai và hiệp phương
sai của các hệ số hồi qui. Trong mô hình hồi qui bội, thực hiện tính các phương sai và
hiệp phương sai cần được thực hiện bằng ma trận.
❖ Ma trận hiệp phương sai của các hệ số hồi qui có dạng
𝜎ො = 𝑒𝑖2 ൗ 𝑛 − 2
Đại lượng còn được dùng để ước lượng phương sai của các phần dư.
Đại lượng này được trình bày trong kết xuất của SPSS với tên gọi là sai số chuẩn
của ước lượng (Std. Error of the Estimate)
57
❖ Phần dư từ mô hình hồi quy đóng vai trò quan trọng vai trò trong việc đánh giá
mức độ phù hợp của mô hình.
❖ Trong khi phân tích hồi qui, chúng ta có thể tính các phần dư như sau:
➢ Phần dư chuẩn hóa (The standardized residuals)
𝑒𝑖 𝑒𝑖
✓ 𝑑𝑖 = =
𝑀𝑆𝐸 𝜎ƶ 2
➢ Phần dư Students hóa (The studentized residual)
𝑒𝑖
✓ 𝑟𝑖 = 𝑖 = 1,2, … , 𝑛
𝜎ƶ 2 1−ℎ𝑖𝑖
➢ Trong đó, ℎ𝑖𝑖 là phần tử thứ i trên đường chéo chính của ma trận
T −1 T
✓H=X X X X
✓ Ma trận này được gọi là ma trận "hat“
➢ Yƶ = 𝐗𝐵 = 𝐗 𝑋 𝑇 𝐗 −1 𝑋 𝑇 𝐲 = 𝐇𝐲
58
ƶ Vì
❖ Ma trận H biến đổi các giá trị quan sát của y thành một vectơ các giá trị phù hợp Y.
mỗi hàng của ma trận X tương ứng với một vectơ, giả sử 𝑋𝑖 = (1 𝑋2𝑖 𝑋3𝑖 ⋯ 𝑋𝑘𝑖 ), một
cách khác để viết các phần tử đường chéo của ma trận H là
➢ ℎ𝑖𝑖 = 𝑋𝑖 𝑋 𝑇 𝑋 −1 𝑋𝑖𝑇
❖ Theo giả thiết về các sai số mô hình phân phối độc lập với trung bình bằng 0 và
phương sai 𝜎 2 , chúng ta có thể chỉ ra rằng phương sai của phần dư thứ 𝑖 𝑒𝑖 là
➢ 𝑉 𝑒𝑖 = 𝜎 2 1 − ℎ𝑖𝑖 , 𝑖 = 1,2, … , 𝑛
❖ Hơn nữa, các phần tử ℎ𝑖𝑖 phải nằm trong khoảng 0<ℎ𝑖𝑖 ≤1 và các phần tử ℎ𝑖𝑖 trung bình
là p/n , trong đó p = k + 1. Điều này ngụ ý rằng phần dư được tiêu chuẩn hóa sẽ đánh
giá thấp độ lớn của phần dư thực; do đó, phần dư Students hóa sẽ là một thống kê tốt
hơn để kiểm tra trong việc đánh giá các ngoại lệ tiềm năng.
❖ Lưu ý rằng phần dư studentized lớn hơn phần dư chuẩn hóa tương ứng.
❖ Qui tắc thực hành: Stevens gợi ý rằng bất kỳ phần tử ℎ𝑖𝑖 nào (còn gọi là leverage) lớn
hơn 3p/n đều cần được kiểm tra cẩn thận.
59
❖ Trong phân tích hồi qui, ngoài những phân dư như đã trình bày còn có những
phân dư khác như:
➢ Phần dư được xóa (The deleted residuals):
✓ Phần dư cho một trường hợp khi trường hợp đó bị loại khỏi việc tính toán
các hệ số hồi quy. Đó là sự khác biệt giữa giá trị của biến phụ thuộc và giá
trị dự đoán được điều chỉnh.
➢ Nếu chúng ta đặt:
✓ Y𝑖 giá trị quan sát ứng với quan sát thứ i
✓ Yƶ (𝑖) giá trị từ hồi qui ứng với quan sát thứ I dựa trên mô hình được ước
lượng khi đã xoát quan sát thứ i:.
➢ Khi đó, phần dư xóa (chưa chuẩn hóa) thứ i:
✓ 𝑑𝑖 = Y𝑖 − Yƶ (𝑖)
60
➢ Phần dư Students hóa đã xóa (Studentized deleted):
✓ Phần dư đã xóa của một trường hợp chia cho sai số chuẩn của nó:
𝑑𝑖 𝑒𝑖
▪ 𝑡𝑖 = =
𝑠 𝑑𝑖 𝑀𝑆𝐸(𝑖) 1−ℎ𝑖𝑖
❖ Khi sử dụng hồi quy, đôi khi chúng tôi thấy rằng một số tập hợp con của các
quan sát có ảnh hưởng bất thường. Đôi khi những quan sát có ảnh hưởng này
tương đối xa vùng lân cận nơi phần còn lại của dữ liệu được thu thập.
❖ Chúng ta muốn kiểm tra các điểm có ảnh hưởng để xác định xem chúng có
kiểm soát nhiều thuộc tính của mô hình hay không. Nếu những điểm có ảnh
hưởng này là những điểm “xấu”, hoặc có sai sót dưới bất kỳ hình thức nào thì
nên loại bỏ chúng. Mặt khác, có thể không có gì sai với những điểm này, nhưng
ít nhất chúng ta muốn xác định liệu chúng có tạo ra kết quả phù hợp với phần
còn lại của dữ liệu hay không.
❖ Trong mọi trường hợp, ngay cả khi một điểm có ảnh hưởng là một điểm hợp lệ,
nếu nó kiểm soát các thuộc tính quan trọng của mô hình, thì chúng ta muốn
biết điều này, vì nó có thể tác động đến việc sử dụng mô hình.
62
❖ Cook’s Distance 𝐷𝑖 được tính toán như sau:
𝑟𝑖2ℎ𝑖𝑖
➢ 𝐷𝑖 = 𝑖 = 1,2, … , 𝑛 (*)
k 1−ℎ𝑖𝑖
➢ Từ phương trình (*), chúng ta thấy rằng 𝐷𝑖 bao gồm phần dư students bình
phương, phản ánh mức độ phù hợp của mô hình với quan sát thứ 𝑖 𝑦𝑖 [Xem
lại 𝑟𝑖 = 𝑒𝑖 / (1 − ℎ𝑖𝑖 ) ) và một thành phần đo khoảng cách của điểm đó so
với phần còn lại của dữ liệu {ℎ𝑖𝑖 /(1−ℎ𝑖𝑖 ) là thước đo khoảng cách của điểm
thứ 𝑖 tính từ tâm của 𝑛−1 điểm còn lại}.
➢ Chú ý:
✓ Nếu 𝐷𝑖 lớn hơn 0,5 thì điểm dữ liệu đáng được nghiên cứu thêm vì nó có
thể có ảnh hưởng.
✓ Giá trị 𝐷𝑖 >1 sẽ chỉ ra rằng điểm đó có ảnh hưởng. Một trong hai thành
phần của 𝐷𝑖 (hoặc cả hai) có thể đóng góp vào một giá trị lớn.
63
❖ Các giá trị Leverage:
➢ Đo lường mức độ ảnh hưởng của một điểm đối với sự phù hợp của hồi quy.
Leverage trung tâm nằm trong khoảng từ 0 (không ảnh hưởng đến độ phù hợp)
đến (N-1)/N.
❖ Mahalanobis’ Distance:
➢ Đo lường giá trị của một trường hợp của các biến độc lập khác với giá trị trung
bình của tất cả các trường hợp. Khoảng cách Mahalanobis lớn xác định một
trường hợp có giá trị cực trị (ngoại lai) của một hoặc nhiều biến độc lập. Khoảng
cách của Mahalanobis (𝐷2 ) cho biết trường hợp này cách tâm của tất cả các
trường hợp bao xa đối với các biến dự báo. Trị số lớn cho thấy một quan sát là
ngoại lai của các biến độc lập.
➢ Nếu có thể khẳng định rằng các biến độc lập tuân theo phân phối chuẩn đa biến,
thì các giá trị tới hạn có thể được so sánh với một bảng giá trị đã thiết lập. Nếu n
lớn vừa phải (50 trở lên), thì 𝐷 2 xấp xỉ tỷ lệ với ℎ𝑖𝑖 . Do đó, 𝐷 2 ≈ 𝑛 − 1 ℎ𝑖𝑖 có thể
được dùng.
64
❖ Tabachnick và Fidell (2001) đề xuất sử dụng bảng giá trị tới hạn Chi-Square
như một phương tiện để phát hiện xem một biến có phải là ngoại lai đa biến
hay không. Sử dụng mức ý nghĩa α với df bằng số biến độc lập để xác định giá
trị tới hạn mà khoảng cách Mahalanobis phải lớn hơn. Tất cả các giá trị khoảng
cách Mahalanobis phải được kiểm tra xem liệu giá trị đó có vượt quá giá trị tới
hạn đã thiết lập hay không.
65
❖ Trong phân tích hồi qui thường dùng các đại lượng sau để đo lường ảnh hưởng
➢ Difference in Fits (DFFITS) với công thức như sau:
𝑦ƶ 𝑖 −𝑦ƶ (𝑖)
✓ DFFITS𝑖 =
𝑀𝑆𝐸(𝑖) ℎ𝑖𝑖
➢ Qua công thức có thể thấy, tử số đo lường sự khác biệt giữa hai giá trị dự đoán thu
được khi điểm dữ liệu thứ i gồm và không gồm trong khi thực hiện hồi qui. Mẫu số
là độ lệch chuẩn ước lượng của sự khác biệt trong khi thực hiện hồi qui. Do đó, sự
khác biệt về mức độ phù hợp định lượng số lượng độ lệch chuẩn mà giá trị phù
hợp thay đổi khi điểm dữ liệu thứ i bị bỏ qua.
➢ Một quan sát được coi là có ảnh hưởng nếu giá trị tuyệt đối của giá trị DFFITS của
nó lớn hơn:
𝑘+1
✓ 2
𝑛−𝑘−1
✓ Trong đó n= số lượng quan sát và k= số lượng tham số bao gồm cả phần chặn.
66
➢ DfBeta(s). Chúng rất hữu ích trong việc phát hiện mỗi hệ số hồi quy sẽ thay
đổi bao nhiêu nếu quan sát thứ i bị xóa. Công thức:
𝑏𝑗 −𝑏𝑗−1
✓ DFBETAj = .
SE 𝑏𝑗−1
➢ DfBeta chuẩn hóa (Standardized DfBeta). Sự khác biệt được chuẩn hóa
trong giá trị beta.
➢ DFBETAS có sẵn trên SPSS, với SPSS gọi đây là DFBETAS được chuẩn hóa.
Bất kỳ DFBETA nào có giá trị > |2| đều cho thấy một sự thay đổi khá lớn và
cần được nghiên cứu. Do đó, mặc dù khoảng cách của Cook là thước đo ảnh
hưởng tổng hợp, DFBETAS chỉ ra hệ số cụ thể nào đang bị ảnh hưởng nhiều
nhất.
67
❖ Để tìm các đối tượng có điểm số dự đoán khác hẳn so với điểm y thực tế của
chúng (nghĩa là chúng không phù hợp với mô hình), có thể sử dụng phần dư
chuẩn hóa (ri). Nếu mô hình đúng, thì chúng có phân phối chuẩn với giá trị
trung bình là 0 và độ lệch chuẩn là 1. Do đó, khoảng 95% ri phải nằm trong hai
độ lệch chuẩn của giá trị trung bình và khoảng 99% nằm trong ba độ lệch
chuẩn. Do đó, bất kỳ phần dư chuẩn hóa nào lớn hơn khoảng 3 về giá trị tuyệt
đối đều là bất thường và cần được kiểm tra cẩn thận (Stevens, 2002).
Tabachnick và Fidell (2001) đề xuất đo lường phần dư chuẩn hóa ở mức alpha
là 0,001, do đó sẽ cho chúng ta giá trị tới hạn là +3,29.
❖ Khi dự đoán cần xác định giá trị của các biến giải thích: X20;X30;...Xk0.
❖ Dự đoán, gồm dự đoán giá trị trung bình và dự đoán giá trị riêng biệt
➢ Dự đoán điểm: cho cả hai trường hợp:
Ŷ0=b1+b2X20+…+bkXk0
➢ Dự đoán khoảng (Ước lượng khoảng):
✓ Dự đoán giá trị trung bình
ˆ -t (n − k) Se(Y
Y ˆ ) E(Y X ) Y
ˆ +t (n − k) Se(Y
ˆ )
0 /2 0 0 0 /2 0
❖ Phù hợp với dữ liệu: giá trị nhận được từ hồi qui phải hợp logic;
❖ Vững về lý thuyết: mô hình phải phù hợp với các lý thuyết kinh tế;
❖ Có các biến giải thích ngoại sinh yếu: có nghĩa là, những biến giải thích phải
không tương quan với sai số ngẫu nhiên;
❖ Các tham số phải ổn định: giá trị của các tham số hồi qui ước lượng phải ổn
định;
❖ Phải có liên kết dữ liệu: các phần dư được ước lượng từ mô hình phải ngẫu
nhiên;
❖ Hoàn thiện: không thể cải thiện mô hình để tạo ra một mô hình tốt hơn.
71
❖ Nếu biến bị bỏ sót 𝑋3 có tương quan với biến trong mô hình 𝑋2 (hệ số tương
quan giữa chúng là 𝑟23 khác không) thì 𝑎1 và 𝑎2 là các ước lượng bị chệch, tức
E(𝑎1 ) 𝛽1 và E(𝑎2 ) 𝛽2 ;
❖ Thậm chí nếu 𝑋2 và 𝑋3 không tương quan, 𝑎1 bị chệch, mặc dù 𝑎2 không bị
chệch;
❖ Phương sai sai số ngẫu nhiên 𝜎 2 là ước lượng bị chệch;
❖ Phương sai của 𝑎2 là ước lượng bị chệch của phương sai của ước lượng 𝑏2 ;
❖ Khoảng tin cậy và kiểm định giả thuyết thường cho những kết luận sai lệch về
tồn tại thống kê của các tham số;
❖ Dự đoán dựa trên mô hình sai không đáng tin cậy
74
❖ Các ước lượng OLS của các tham số của mô hình sai là không chệch và vững;
❖ Phương sai sai số 𝜎 2 là ước lượng chính xác;
❖ Khoảng tin cậy và các kiểm định giả thuyết thông thường là đáng tin cậy;
❖ Tuy nhiên, các ước lượng của các α sẽ không hiệu quả, đó là, phương sai của
chúng lớn hơn phương sai của các ước lượng của mô hình đúng.
75
❖ Xem mô hình:
➢ 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 +· · · +𝛽𝑘 𝑋𝑘𝑖 + 𝜀𝑖
❖ Nếu cho rằng thừa một biến thì dùng tiêu chuẩn T để kiểm định giả thuyết
➢ 𝐻0 : 𝛽𝑗 = 0
❖ Nếu cho rằng thừa một số biến thì dùng tiêu chuẩn F để kiểm định giả thuyết
➢ 𝐻0 : 𝛽𝑗 = ⋯ = 𝛽𝑝 = 0
76
❖ Kiểm định RESET (REgression Specification Error Test) của Ramsey. RESET as a
General Test for Functional Form Misspecification
➢ Xét mô hình ban đầu: 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 +𝑖 (*)
❖ Kiểm định RESET như sau:
➢ Từ mô hình ban đầu, ước lượng bằng OLS và tính Ŷ𝑖 .
➢ RESET thêm các đa thức Ŷ𝑖 vào phương trình để phát hiện các dạng hàm sai.
➢ Để triển khai RESET, chúng ta phải quyết định đưa bao nhiêu số hạng của các giá
trị Ŷ𝑖 vào hồi quy mở rộng. Thực hiện hồi qui 𝑌𝑖 theo các biến cũ và thêm các biến
mới, như 𝑌𝑖2 , 𝑌𝑖3 … như sau:
𝑝
✓𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝛿2 𝑌𝑖2 + 𝛿3 𝑌𝑖3 … + 𝛿𝑝 𝑌𝑖 + 𝜀𝑖 (**)
➢ Nếu cho rằng mô hình (*) được xác định chính xác. Do đó, trong kiểm định RESET,
thống kê F được dùng để kiểm định 𝐻0 : 𝛿2 = ⋯ = 𝛿𝑝 = 0 trong mô hình mở rộng.
➢ Nếu 𝐻0 bị bác bỏ, thì mô hình ban đầu chỉ định sai.
❖ Chú ý: Trong mô hình mở rộng (**), bậc của Ŷ𝑖 là bậc hai và bậc ba đã được chứng
minh là hữu ích trong hầu hết các ứng dụng.
77
❖ Hệ số xác định 𝑅2 ,
❖ Hệ số xác định điều chỉnh,
❖ Tiêu chuẩn thông tin AIC
❖ Tiêu chuẩn thông tin SIC:
❖ Tiêu chuẩn Mallow’s Cp
78
σe 2
SSE
❖ Công thức tính ACI = e2k/n i = e2k/n
n n
2𝑘 SSE
❖ Công thức tình theo Log: Ln ACI = + Ln( )
𝑛 n
➢ Trong đó k là số biến giải thích (bao gồm cả số hạng chặn) và n là số quan
sát.
❖ Tính chất: AIC chịu sự nghiêm ngặt hơn so với hệ số xác định khi thêm biến
vào trong mô hình.
❖ Ý nghĩa:
➢ Khi so sánh các mô hình, mô hình có AIC nhỏ sẽ được chọn.
➢ Nó còn thường được sử dụng để xác định độ trễ trong mô hình tự hồi qui
AR(p).
79
σe 2
SSE
❖ Công thức tính SCI = nk/n i = nk/n
n n
𝑘 SSE
❖ Công thức tình theo Log: Ln SCI = 𝐿𝑛( ) + Ln( )
𝑛 n
➢ Trong đó k là số biến giải thích (bao gồm cả số hạng chặn) và n là số quan
sát.
❖ Tính chất: SIC chịu sự nghiêm ngặt hơn AIC.
❖ Ý nghĩa: Khi so sánh các mô hình, mô hình có AIC nhỏ sẽ được chọn.
80
❖ Giả sử chúng ta có mô hình gồm k biến giải thích và có số hạng chặn. Đặt 𝜎ො 2 là
ước lượng của giá trị thật σ2. Nhưng giả sử rằng chúng ta chỉ chọn p biến giải
thích (p<k) và xác định SSE từ hồi qui có p biến giải thích. Mallows đã xác định
tiêu chuẩn chọn mô hình như sau và được gọi là tiêu chuẩn Cp.
SSEp
❖ Công thức tính Cp = ෝ2
− (n − 2p)
𝜎
❖ Ý nghĩa: Trong khi chọn mô hình theo tiêu chuẩn Cp, chúng ta sẽ tìm mô hình
có giá trị Cp nhỏ, gần bằng p
81
❖ Mở File helping1.sav
❖ Thực hiện hồi qui: Analyze > Regression > Linear...
❖ Khi đó, màn hình Linear Regression sẽ xuất hiện.
Trong đó có những mục:
➢ Dependent
➢ Independent(s)
➢ Method
➢ Selection Variable
➢ Case Labels
➢ WLS Weight
➢ Statistics…
➢ Plot…
➢ Save…
➢ Options…
➢ Style…
➢ Boostrap…
82
❖ Dependent box: Nhập duy nhất biến phụ thuộc là biến định lượng.
❖ Independent(s) box: Nhập một hay nhiều biến độc lập.
❖ Mục chọn Block 1 of 1 cho phép bạn tạo và tiến hành nhiều hơn một phân tích
hồi quy trong một phiên duy nhất. Sau khi bạn đã chọn biến phụ thuộc và các
biến độc lập, đồng thời chọn tất cả các tùy chọn mà bạn mong muốn liên quan
đến phân tích, hãy nhấp vào nút Next nằm bên dưới Block 1 of 1. Biến phụ
thuộc sẽ vẫn còn, tất cả các tùy chọn và thông số kỹ thuật đã chọn sẽ vẫn còn,
nhưng các biến độc lập sẽ hoàn nguyên về các thông số kỹ thuật của danh sách
biến để phân tích hồi quy lần thứ hai. Bạn có thể chỉ định bao nhiêu phân tích
khác nhau trong một phiên tùy thích; một cú nhấp vào nút nhấn OK sẽ chạy
chúng theo thứ tự như khi chúng được tạo.
83
❖ Scatterplots. Vẽ bất kỳ hai trong số những biến sau đây: biến phụ
thuộc, biến phụ thuộc đã chuẩn hóa, phần dư được chuẩn hóa,
phần dư đã xóa, giá trị dự đoán đã điều chỉnh, phần dư được
Studentized hóa hoặc phần dư đã xóa được Studentized với phần
dư được chuẩn hóa để kiểm tra tính tuyến tính và phương sai
đồng nhất.
❖ Source variable list: Liệt kê biến phụ thuộc (DEPENDNT) và các
biến sau: Standardized predicted values (*ZPRED), Standardized
residuals (*ZRESID), Deleted residuals (*DRESID).
❖ Produce all partial plots: Hiển thị các biểu đồ phân tán của phần
dư của mỗi biến độc lập và phần dư của biến phụ thuộc khi cả
hai biến được hồi quy riêng biệt trên phần còn lại của các biến Nếu bất kỳ biểu đồ nào được yêu
độc lập. cầu, số liệu thống kê tóm tắt sẽ được
❖ Standardized Residual Plots: Có thể thu được biểu đồ của phần hiển thị cho các giá trị dự đoán được
dư được chuẩn hóa và các biểu đồ xác suất chuẩn so sánh việc chuẩn hóa và phần còn lại được tiêu
phân phối phần dư được chuẩn hóa với phân phối chuẩn hóa. chuẩn hóa (*ZPRED and *ZRESID).
93
❖ Stepping Method Criteria: Các tùy chọn này áp dụng khi phương
pháp chọn forward, backward, hoặc stepwise đã được chỉ định.
➢ Use Probability of F: Một biến được nhập vào mô hình nếu
mức ý nghĩa của giá trị F của nó nhỏ hơn giá trị Entry và bị
loại bỏ nếu mức ý nghĩa lớn hơn giá trị Removal. Mục Entry
phải nhỏ hơn Removal và cả hai giá trị phải dương. Để nhập
nhiều biến hơn vào mô hình, hãy tăng giá trị Entry. Để xóa các
biến khác khỏi mô hình, hãy giảm giá trị Removal.
➢ Use F Value. Một biến được nhập vào mô hình nếu giá trị F của
nó lớn hơn giá trị Entry và bị xóa nếu giá trị F nhỏ hơn giá trị
Removal. Mục Entry phải lớn hơn Removal và cả hai giá trị
phải dương. Để nhập nhiều biến hơn vào mô hình, hãy giảm
giá trị Entry. Để xóa nhiều biến hơn khỏi mô hình, hãy tăng giá
trị Removal.
94
❖ Include constant in equation: Theo mặc định, mô hình hồi quy bao
gồm hằng số. Bỏ chọn tùy chọn này buộc hồi quy đi qua gốc tọa
độ, điều này hiếm khi được thực hiện. Một số kết quả hồi quy qua
gốc tọa độ không thể so sánh với kết quả hồi quy bao gồm hằng
số. Ví dụ, 𝑅 2 không thể được giải thích theo cách thông thường.
❖ Missing Values: Bạn có thể chọn một trong các tùy chọn sau:
➢ Exclude cases listwise: Chỉ những trường hợp có giá trị hợp lệ
cho tất cả các biến mới được đưa vào phân tích.
➢ Exclude cases pairwise: Các trường hợp có dữ liệu đầy đủ cho
cặp biến có mối tương quan được sử dụng để tính toán hệ số
tương quan mà phân tích hồi quy dựa trên chúng.
➢ Replace with mean: Tất cả các trường hợp được sử dụng để
tính toán, với giá trị trung bình của biến được thay thế cho các
quan sát bị thiếu.
95
❖ Trong LPM các yếu tố ngẫu nhiên không thuần nhất, tức phương sai sai số thay
đổi: Var (i) = i(1- i).
❖ Sai số ngẫu nhiên không tuân theo phân phối chuẩn, nó chỉ nhân 2 giá trị.
1 − 1 −2Xi Khi 𝑌𝑖 =1
➢ 𝑖 = ቊ
1 −2Xi Khi𝑌𝑖 =0
❖ Ước lượng của E(Y/X) - chưa chắc đã thoả mãn điều kiện
❖ 0 ≤ Ŷi≤ 1
➢ Tuy 0 ≤E(Y/X) = i ≤ 1 nhưng khi dùng OLS để ước lượng mô hình LPM
không có gì đảm bảo 0 ≤ Ŷi≤ 1
100
❖ Để khắc phục hạn chế của mô hình LPM, trong kinh tế lượng thường sử dụng
mô hình hồi qui logistic.
❖ Mô hình hồi qui Binary logistic có dạng
eβ1+β2Xi
❖ 𝑖 = E(Y𝑖 /X 𝑖 ) =
1+eβ1+β2Xi
❖ Với E(Y𝑖 /X 𝑖 ) là xác suất để Y=1.
❖ Đặt 𝑧𝑖 = 𝛽1 +𝛽2 X 𝑖 , vậy:
ezi
❖ P(Y = 1/X 𝑖 ) = E(Y𝑖 /X 𝑖 )=
1+ezi
❖ Khi đó:
ezi
❖ P Y = 0/X 𝑖 = 1 − P(Y = 1/X 𝑖 )=1-
1+ezi
103
❖ Thực hiện so sánh 2 xác suất xảy ra và không xảy ra, kết quả như sau:
odd = P Y = 1/X 𝑖 /P Y = 0/X 𝑖
i
= P(Y = 1/X 𝑖 )/(1 − P(Y = 1/X 𝑖 )) =
1−i
ez ez
= ( z )/(1- z )=e
zi
i i
1+e i 1+e i
❖ zi không chỉ tuyến tính đối với biến số mà còn tuyến tính đối với tham số.
❖ Khi zi biến thiên từ - đến , i biến thiên từ 0 đến 1. Như vậy dù i chỉ thuộc
(0,1) nhưng zi vẫn không bị giới hạn.
❖ Dù zi là tuyến tính của X nhưng xác xuất không là hàm tuyến tính của X.
❖ Do odd= i/(1-i) phản ánh cơ hội, khả năng, sự ưa thích Y=1, nên cho biết
mức thay đổi của zi khi X tăng một đơn vị 1 cho biết Ln sự ưa thích Y= 1 khi
X=0.
105
❖ Hồi quy logistic không giả thiết về mối quan hệ tuyến tính giữa các biến phụ
thuộc và độc lập.
❖ Các biến độc lập không cần tuân theo phân phối chuẩn, không cần phương sai
bằng nhau trong mỗi nhóm.
❖ Không bắt buộc phải có tính phương sai đồng nhất. Các sai số ngẫu nhiên
(phần dư) không cần phải được phân phối chuẩn.
❖ Biến phụ thuộc trong hồi quy logistic phải là biến nhị phân (2 loại).
❖ Các danh mục (nhóm) như một biến phụ thuộc phải được loại trừ lẫn nhau và
đầy đủ; một trường hợp chỉ có thể nằm trong một nhóm và mọi trường hợp
phải là thành viên của một trong các nhóm.
❖ Mô hình có một hoặc nhiều biến độc lập, có thể là biến liên tục (tức là biến
khoảng hoặc biến tỷ lệ) hoặc biến phân loại (tức là biến thứ bậc hoặc biến định
danh).
106
❖ Cần có mối quan hệ tuyến tính giữa bất kỳ biến độc lập liên tục nào và phép
biến đổi logit của biến phụ thuộc.
❖ Cần có các mẫu lớn hơn so với hồi quy tuyến tính vì các hệ số tối đa sử dụng
phương pháp Maximum Likelihood là các ước lượng mẫu lớn.
➢ Nên sử dụng tối thiểu 50 trường hợp cho mỗi biến dự báo (Field, 2013).
➢ Hosmer, Lemeshow và Sturdivant (2013) đề xuất một mẫu tối thiểu gồm 10
quan sát cho mỗi biến độc lập trong mô hình, nhưng lưu ý rằng nên tìm 20
quan sát cho mỗi biến nếu có thể.
➢ Leblanc và Fitzgerald (2000) đề xuất tối thiểu 30 quan sát cho mỗi biến độc
lập.
107
❖ Sử dụng hình thức cụ thể của đường cong logistic, có hình chữ S, để ở trong
phạm vi từ 0 đến 1.
❖ Để ước lượng mô hình hồi quy logistic, đường cong của các giá trị dự đoán
này được khớp vào dữ liệu thực tế, giống như đã được thực hiện với mối
quan hệ tuyến tính trong hồi quy bội.
(a) Poorly Fitted Relationship (b) Well-Deined Relationship
1 1
Y Y
0 0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 1
X X 0
108
❖ Phương pháp ước lượng các tham số hồi qui logistic là phương pháp maximum
likelihood.
❖ Trong hàm hồi qui zi = 1+2X2i+3X3i+…+kXki, các hệ số hồi qui khó giải thích
ý nghĩa nên thường biến đổi như sau:
❖ Tỷ số odd:
i
=𝑒 1+2X2i+3X3i+…+kXki
P(Y=1/X2,…,Xk)
➢ odd = =
P(Y=0/X2,…,Xk) 1−i
=𝑒 b1+b2X2i+b3X3i+…+bkXki
𝑝𝑖
➢ odd =
1−𝑝𝑖
❖ Như vậy, khi Xj tăng lên một đơn vị thì xác suất xảy ra của Y với xác suất không
xảy ra sẽ tăng (𝑒 bj )lần trong điều kiện các nhân tố khác không đổi.
111
❖ Độ chính xác dự đoán – khả năng phân loại các quan sát thành nhóm kết
quả chính xác.
➢ Tất cả các đo lường chính xác dự đoán dựa trên giá trị cắt (cut-off
values) được chọn để phân loại.
➢ Giá trị cắt cuối cùng được chọn nên dựa trên so sánh các đo lường chính
xác dự đoán trên các giá trị cắt. Mặc dù 0,5 thường là mức cắt giảm mặc
định, các giá trị khác có thể cải thiện đáng kể độ chính xác dự đoán.
❖ Tạo ra bốn kết quả:
➢ Giá trị âm đúng (True Negatives)
➢ Giá trị dương đúng (True Positives)
➢ Giá trị âm sai (False Negatives)
➢ Giá trị dương sai (False Positives)
114
❖ 𝑆𝑎𝑣𝑒. . . : Có thể lưu kết quả của hồi quy logistic dưới dạng các
biến mới trong tập dữ liệu đang hoạt động:
➢ 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑 𝑉𝑎𝑙𝑢𝑒𝑠 Lưu các giá trị được dự đoán bởi mô
hình. Các tùy chọn có sẵn là Probabilities và Group
membership.
➢ 𝐼𝑛𝑓𝑙𝑢𝑒𝑛𝑐𝑒: Lưu giá trị từ số liệu thống kê đo lường mức độ
ảnh hưởng của các trường hợp đối với các giá trị được dự
đoán. Các tùy chọn có sẵn là Cook's, Leverage values, và
DfBeta(s).
➢ 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑠: Lưu phần dư. Các tùy chọn có sẵn là
Unstandardized, Logit, Studentized, Standardized, and
Deviance.
➢ 𝐸𝑥𝑝𝑜𝑟𝑡 𝑚𝑜𝑑𝑒𝑙 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝑡𝑜 𝑋𝑀𝐿 𝑓𝑖𝑙𝑒. Các ước lượng
tham số và (tùy chọn) hiệp phương sai của chúng được xuất
sang tệp được chỉ định ở định dạng XML (PMML). Bạn có thể
sử dụng tệp mô hình này để áp dụng thông tin mô hình.
➢ 𝐼𝑛𝑐𝑙𝑢𝑑𝑒 𝑡ℎ𝑒 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑀𝑎𝑡𝑟𝑖𝑥: Bao gồm ma trận hiệp
phương sai hay không.
❖ Kiểm định Omnibus của hệ số mô hình ❖ Tóm tắt mô hình (Model Summary)
Chi-square df Sig. −2 Log
Step 1 Step 114.843 1 .000 Cox & Snell Nagelkerke
Step likelihoo
Block 114.843 1 .000 R Square R Square
d
Model 114.843 1 .000 1 629.506 .193 .257
Step 2 Step 29.792 1 .000 2 599.713 .236 .315
Block 144.635 2 .000
Model 144.635 2 .000
Term Definition/Description
Sử dụng phương pháp Forward: LR để nhập các biến vào mô hình, SPSS phải mất
Steps 1 và 2
hai bước để nhập tất cả các biến đã cải thiện đáng kể mô hình.
Thước đo này và các thước đo tóm tắt mô hình khác được sử dụng để chỉ ra mức
độ phù hợp của mô hình với dữ liệu. Các giá trị −2 log likelihood nhỏ hơn có
−2 Log Likelihood
nghĩa là mô hình phù hợp với dữ liệu hơn; một mô hình hoàn hảo có −2 log
likelihood bằng không.
Cox & Snell And Nagelkerke R Ước lượng giá trị kích thước hiệu quả 𝑅2 , cho biết tỷ lệ phần trăm của biến phụ
Square thuộc có thể được tính bởi tất cả các biến dự báo được đưa vào mô hình.
12
125
5
Predicted
Observed Cathelp Percentage Correct
Not helpful Helpful
Not helpful 176 89 66.4
Cathelp
Step 1 Helpful 79 193 71.0
Overall percentage 68.7
Term Definition/Description
B Giá trị trọng số của B được sử dụng trong phương trình; độ lớn của B, cùng với thang đo của biến mà
B được sử dụng để làm trọng số, cho biết ảnh hưởng của biến dự báo đối với biến phụ thuộc.
S.E Sai số tiêu chuẩn; một thước đo về sự phân tán của B.
Wald Một thước đo mức độ ý nghĩa của B đối với biến đã cho; các giá trị cao hơn, kết hợp với bậc tự do, cho
biết mức độ quan trọng.
Sig. Mức ý nghĩa của kiểm định Wald.
Exp(B) 𝑒 𝐵 được sử dụng để giúp giải thích ý nghĩa của các hệ số hồi quy.
127
❖ Nhiều dữ liệu hơn là tốt hơn. Các mô hình có thể không ổn định khi mẫu nhỏ. Theo
dõi các ngoại lai có thể bóp méo các mối quan hệ. Với các biến tương quan và đặc
biệt là với các mẫu nhỏ, một số tổ hợp giá trị có thể được biểu diễn rất thưa thớt.
❖ Các ước tính không ổn định và thiếu sức mạnh khi dựa trên các ô có giá trị dự kiến
nhỏ. Có lẽ các danh mục nhỏ có thể được thu gọn một cách có ý nghĩa.
❖ Vẽ dữ liệu để đảm bảo rằng mô hình là phù hợp.
❖ Hãy cẩn thận để không giải thích tỷ lệ chênh lệch là tỷ lệ rủi ro.
HỒI QUI LOGISTIC BỘI DÙNG SPSS
136
❖ Mở File Cereal.
❖ Analyze > Regression > Multinomial Logistic
Regression...
❖ Khi đó, màn hình Multinomial Logistic
Regression sẽ xuất hiện. Trong đó có những
mục:
➢ Dependent
➢ Factor(s)
➢ Covariates
➢ Model…
➢ Statistics…
➢ Criteria…
➢ Options
Data. Biến phụ thuộc phải được phân loại. Các
➢ Save… biến độc lập có thể là nhân tố hoặc hiệp biến. Nói
➢ Boostrap… chung, các nhân tố phải là các biến phân loại và
hiệp biến phải là các biến liên tục.
137
❖ Iterations: Cho phép bạn chỉ định số lần tối đa bạn muốn
quay vòng qua thuật toán.
❖ Log-likelihood convergence: Sự hội tụ được giả định nếu
thay đổi tuyệt đối trong log hàm hợp lý nhỏ hơn giá trị
được chỉ định.
❖ Parameter convergence: Sự hội tụ được giả định nếu sự
thay đổi tuyệt đối trong các ước tính tham số nhỏ hơn giá
trị này. Delta: Cho phép bạn chỉ định giá trị không âm nhỏ
hơn 1. Giá trị này được thêm vào mỗi ô trống của sự
chuyển đổi chéo của danh mục phản hồi theo mẫu đồng
biến. Điều này giúp ổn định thuật toán và ngăn chặn sự
thiên vị trong các ước tính.
❖ Singularity tolerance: Cho phép bạn chỉ định dung sai
được sử dụng để kiểm tra các điểm kỳ dị (singularities).
142
❖ 𝑆𝑎𝑣𝑒𝑑 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠: Cho phép các biến lưu những thông tin sau:
➢ 𝐸𝑠𝑡𝑖𝑚𝑎𝑡𝑒𝑑 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑒 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑖𝑒𝑠. Đây là xác suất ước tính
của việc phân loại một yếu tố / mô hình hiệp biến thành các
loại phản hồi.
➢ 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦. Đây là loại phản hồi có xác suất dự
kiến lớn nhất cho một mô hình nhân tố/ hiệp biến.
➢ 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑖𝑒𝑠. Đây là xác suất phản ứng
tối đa của ước tính.
➢ 𝐴𝑐𝑡𝑢𝑎𝑙 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦. Đây là xác suất ước tính của
việc phân loại một yếu tố / mô hình hiệp biến vào loại quan
sát được
❖ 𝐸𝑥𝑝𝑜𝑟𝑡 𝑚𝑜𝑑𝑒𝑙 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝑡𝑜 𝑋𝑀𝐿 𝑓𝑖𝑙𝑒: Tham số ước tính và
(tùy chọn) hiệp phương sai của chúng được xuất sang tệp được
chỉ định ở định dạng XML (PMML)
➢ 𝐼𝑛𝑐𝑙𝑢𝑑𝑒 𝑡ℎ𝑒 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑀𝑎𝑡𝑟𝑖𝑥: Bao gồm ma trận hiệp
phương sai không.