Professional Documents
Culture Documents
A6 HQTQ
A6 HQTQ
A6 HQTQ
Yi = β0 + β1Xi + ε i
Phương trình hồi quy tổng thể chung
(tiếp)
Y Yi = β0 + β1Xi + ε i
Giá trị thực tế
εi Độ dốc = β1
Giá trị lý thuyết Sai số ngẫu
nhiên
Trung bình của các sai số ngẫu nhiên ei có giá trị bằng 0
ei = ( y i - yˆ i ) = y i - (b0 + b1x i )
2.2. Phương pháp bình phương
nhỏ nhất (OLS)
= min (y i −yˆ i )2
b = xy − x y
1 2x
◼ Cách 2:
b = y − b x
0 1
Ý nghĩa của các hệ số trong
phương trình hồi quy
◼ b0 là tham số tự do, thể hiện giá trị của y khi x = 0,
là ảnh hưởng trung bình của tất cả các tiêu thức
nguyên nhân khác ngoài x tới y.
◼ b1 là hệ số hồi quy, nói lên ảnh hưởng trực tiếp của
x đến y. Khi x thay đổi 1 đơn vị thì y thay đổi
trung bình b1 đơn vị (y trung bình thay đổi b1 đơn
vị).
Ví dụ
350
300
250
200
Gi nh
150
100
50
0
0 500 1000 1500 2000 2500 3000
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
200
150
100
50
Hệ sô tự do 0
= 98.248 0 1000 2000 3000
Diện tích ( ét vuông)
◼ Được sử dụng để đánh giá chiều hướng và cường độ
của mối liên hệ tương quan tuyến tính
◼ Công thức tính: xy − x y x
r= = b1
x y y
◼ Tính chất:
-1 0 +1
Mối liên hệ nghịch càng chặt chẽ Mối liên hệ thuận càng chặt chẽ
2.5. Hệ số xác định, R2
0 R 1
2
Đồ thị minh họa
(tiếp)
Y
yi
2 y
SSE = (yi - yi )
_
SST = (yi - y)2
y _2
_ SSR = (yi - y) _
y y
xi X
Đo lường các biến thiên
R 2 = r2
Adjusted R Square(hệ số r bình phương hiệu
chỉnh): sự ảnh hưởng của các biến độc lập, (1-
Rsquars) là sự ảnh hưởng của sai số t\j nhiên
và biến ngoài mô hình
Bảng kết quả SPSS
SSR 18934.9348
Regression Statistics
R =2
= = 0.58082
Multiple R 0.76211 SST 32600.5000
R Square 0.58082
Adjusted R Square 0.52842 58.08% sự thay đổi trong giá
Standard Error 41.33032 nhà được giải thích bằng sự
Observations 10
thay đổi trong diện tích
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
b1 − β1
Trong đó:
2
s
sb =
2 e
1
i
(x − x ) 2
với:
sb1 = sai số chuẩn của hệ số hồi quy
SSE
se = = sai số chuẩn của mô hình. Kết quả từ SPSS
n−2
Bảng kết quả SPSS
Regression Statistics
Multiple R 0.76211 se = 41.33032
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
b1 sb1
H0: β1 = 0 Từ kết quả SPSS:
H1: β1 0 Coefficients Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892
Square Feet 0.10977 0.03297 3.32938 0.01039
b1 − β1 0.10977 − 0
t= = t = 3.32938
sb1 0.03297
Kết quả SPSS
(tiếp)
Tiêu chuẩn kiểm định: t = 3.329
b1 sb1 t
H0: β1 = 0
H1: β1 0 Coefficients Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892
d.f. = 10-2 = 8 Square Feet 0.10977 0.03297 3.32938 0.01039
t8,.025 = 2.3060
Kết luận:
a/2=.025 a/2=.025 Bác bỏ H0
Với mức ý nghĩa 5% khi diện tích tăng lên 1 m2 thì giá
nhà tăng trong khoảng (0.0337, 0.1858) (1000$)
2.8. Kiểm định ý nghĩa của mô hình
◼ Sử dụng thống kê F
◼ Mô hình hồi quy có ý nghĩa thống kê hay không?
H1: R2 0 H1: b1 0
2.8. Kiểm định ý nghĩa của mô hình
(tiếp)
ŷ 0 = b 0 + b1x 0
Ví dụ:
Dự đoán giá nhà với diện
tích là 2000 mét vuông:
1 (x 0 − x) 2
ŷ 0 t n − 2,α/2s e + 2
n (x i − x)
Với ŷ 0 l giá trị dự đo n điể của y với giá trị cụ
thể của tiêu thức nguyên nhân x0
Ví dụ
Với mức ý nghĩa 5%, dự đoán mức giá trung bình
của nhà có diện tích 2000 mét vuông
y0 = 317.85 ($1,000s)
1 (x 0 − x) 2
ŷ 0 t n -2,α/2s e + = 317.85 37.12
n (x i − x) 2
Vậy mức giá trung bình trong khoảng từ $280,660 đến
$354,900
Dự đoán khoảng
Dự đoán giá trị cá biệt
Giá trị cá biệt của tiêu thức kết quả với một
giá trị cụ thể của tiêu thức nguyên nhân:
1 (x 0 − x) 2
ŷ 0 t n − 2,α/2s e 1 + + 2
n (x i − x)
Ví dụ
Với mức ý nghĩa 5%, dự đoán giá nhà của nhà có
diện tích 2000 mét vuông
y0 = 317.85 ($1,000s)
1 (X 0 − X) 2
ŷ 0 t n -1,α/2s e 1+ + = 317.85 102.28
n (X i − X) 2
Ch. 11-42
3. Hồi quy tương quan phi tuyến
◼ Tỷ số tương quan
4. Hồi quy tuyến tính bội
4.1. Phương trình hồi quy tuyến tính bội
Ý tưởng: Xác định xem có mối liên hệ tuyến tính giữa 1
biến phụ thuộc (Y) và nhiều biến độc lập (Xi) hay không
Y = β0 + β1X1 + β 2 X 2 + + βk Xk + ε
Phương trình hồi quy bội
yˆ i = b0 + b1x1i + b 2 x 2i + + bk x ki
yi
ei = (yi – yi)
<
x2i
x2
x1i Xác định các hệ số
trong phương trình bằng
phương pháp
x1
bình phương nhỏ nhất
4.2. Ước lượng
hệ số hồi quy riêng phần
y = n.b 0 + b1 x1 +b 2 x 2 + ...b k x k
x1y = b 0 x1 + b1 x1 +b 2 x1x 2 + ...b k x1x k
2
x 2 y = b 0 x 2 + b1 x x
1 2 +b 2 x 2 + ...b k x 2 x k
2
.....
.....
.....
x k y = b 0 x k + b1 x1 x k +b 2 x 2 x k + ...b k x k
2
4.3. Hệ số hồi quy chuẩn hóa
Sx k
Hệ số hồi quy chuẩn hóa: Beta k = b k .
Sy
dùng để so sánh các hệ số hồi quy với nhau
Ví dụ:
Hồi quy bội với 2 biến độc lập
◼ Một nhà phân phối bánh ngọt muốn đánh giá ảnh
hưởng của các nhân tố tới nhu cầu thị trường
Ch. 12-52
Kết quả hồi quy bội
Regression Statistics
Multiple R 0.72213
R Square 0.52148
Adjusted R Square 0.44172 Luong = 306.526 - 24.975(Gia) + 74.131(CPQC)
Standard Error 47.46341
Observations 15
ANOVA df SS MS F Significance F
Regression 2 29460.027 14730.013 6.53861 0.01201
Residual 12 27033.306 2252.776
Total 14 56493.333
bi − 0
t= (df = n – k – 1)
se b i
Trong đó:
se b i = se 2b i =
SSE
=
(yi − ŷi )
2
n − K −1 n − K −1
Kiểm định hệ số hồi quy
Regression Statistics
t-value của biến Gi l t = -2.306,
Multiple R 0.72213
R Square 0.52148
với p-value .0398
Adjusted R Square 0.44172
Standard Error 47.46341 t-value của biến Chi phí quảng c o
Observations 15 l t = 2.855, với p-value .0145
ANOVA df SS MS F Significance F
Regression 2 29460.027 14730.013 6.53861 0.01201
Residual 12 27033.306 2252.776
Total 14 56493.333
Ví dụ: Tìm khoảng tin cậy 95% cho hệ số hồi quy của giá bán (x1):
-24.975 ± (2.1788 x 10.832)
Vậy khoảng tin cậy là: -48.576 < β1 < -1.374
4.5. Khoảng tin cậy của hệ số hồi quy
Ví dụ: Kết quả SPSS cho biết hai giới hạn của khoảng tin cậy:
Với khoảng tin cậy 95%, khi giá bán tăng lên 1$ thì lượng
bánh bán ra hàng tuần sẽ giảm trong khoảng 1.37 đến 48.58 cái.
4.6. Hệ số xác định R2
Regression Statistics
SSR 29460.0
Multiple R 0.72213
R = 2
= = .52148
R Square 0.52148 SST 56493.3
Adjusted R Square 0.44172
Standard Error 47.46341
52.1% sự biến động của lượng
Observations 15 b nh b n ra được giải thích bởi gi
b n v chi phí quảng c o
ANOVA df SS MS F Significance F
Regression 2 29460.027 14730.013 6.53861 0.01201
Residual 12 27033.306 2252.776
Total 14 56493.333
Copyright © 2010 Pearson Education, Inc. Publishing as Prentice Hall Ch. 12-61
4.7. Kiểm định ý nghĩa của mô hình
MSR SSR/k
F= =
MSE SSE/(n − k − 1)
◼ Cơ sở ra quyết định là
ANOVA df SS MS F Significance F
Regression 2 29460.027 14730.013 6.53861 0.01201
Residual 12 27033.306 2252.776
Total 14 56493.333
Copyright © 2010 Pearson Education, Inc. Publishing as Prentice Hall Ch. 12-64
Kiểm định
sự phù hợp của mô hình
H0: β1 = β2 = 0 Thống kê F:
H1: β1 và β2 không cùng bằng 0 F = 6.5386
a = .05
df1= 2 df2 = 12
Quyết định:
Gi trị tới hạn: Vì thống kê F nằm trong
Fa = 3.885 miền bác bỏ (p-value < .05)
nên bác bỏ H0
a = .05
Kết luận:
0 F Với ức ý nghĩa 5%, có ít nhất ột
Chưa đủ Bác bỏ H0
cơ sở biến độc lập ảnh hưởng tới Y
bác bỏ H0
F.05 = 3.885
4.8. Dự đoán dựa vào mô hình hồi quy bội
thực hiện dự đoán đối với một quan sát mới có dữ liệu:
(x1,n+1, x 2,n+1, . . . , x K,n+1)
Giá trị dự đoán không chệch tốt nhất của y^n+1 là:
◼ Không nên dự đoán khi giá trị của X nằm ngoài khoảng
dữ liệu sử dụng để ước lượng các tham số của
phương trình hồi quy mẫu vì dữ liệu chưa đủ để đảm
bảo mô hình tuyến tính mở rộng có ý nghĩa.
4.8. Dự đoán dựa vào mô hình hồi quy bội
Người quản lý của một đại lý xe ô tô đã sử dụng rất quan tâm đến
giá bán lại của chiếc xe đã qua sử dụng. Ông ta thấy rằng số năm sử
dụng của xe rất quan trọng trong việc xác định giá trị bán lại. Ông
thu thập dữ liệu về số năm sử dụng và giá trị bán lại của 15 chiếc xe
và chạy phân tích hồi quy với giá trị của chiếc xe (nghìn USD) là
biến phụ thuộc và số năm sử dụng của xe (theo năm) là biến độc lập.
Thật không may, ông ta làm đổ cà phê vào bản in và mất một số kết
quả, được ký hiệu từ "A" đến "F". Phần kết quả còn lại được cho
bên dưới.
DẠNG CÂU HỎI THI