Professional Documents
Culture Documents
Bai Giai BT Chuong 4
Bai Giai BT Chuong 4
Bai Giai BT Chuong 4
Ghi chú: trong các bài tập bên dưới, để giảm khối lượng tính toán, sinh viên được sử
dụng kết quả SSE /σ 2 ∼ χ2 (n − 2) mà không cần chứng minh.
Bài tập 4.1:
a) Pn Pn
Trước tiên, ta sẽ chứng tỏ rằng i=1 xi ei = 0 và i=1 Ŷi ei = 0. Thật vậy
n
X n
X n
X
xi ei = xi (Yi − Ŷi ) = (Yi − β̂0 − β̂1 xi )
i=1 i=1 i=1
Xn Xn
= xi Yi − (Ȳ − β̂1 x̄) − β̂1 xi = xi (Yi − Ȳ − βˆ1 (xi − x̄))
i=1 i=1
n
X
= (xi − x̄ + x̄)(Yi − Ȳ − βˆ1 (xi − x̄))
i=1
Xn n
X n
X
= (xi − x̄)(Yi − Ȳ ) − β̂1 2
(xi − x̄) + x̄(Yi − Ȳ − βˆ1 (xi − x̄))
i=1 i=1 i=1
n
X n
X
= Sxy − βˆ1 Sxx + x̄ (Yi − Ȳ ) − β̂1 x̄ (xi − x̄)
i=1 i=1
Ta có:
n
X n
X
2
SST = (Yi − Ȳ ) = (Yi − Ŷi + Ŷi − Ȳ )2
i=1 i=1
1
n
X n
X n
X
2 2
= (Yi − Ŷi ) + (Ŷi − Ȳ ) + 2 (Yi − Ŷi )(Ŷi − Ȳ )
i=1 i=1 i=1
n
X n
X n
X
= (Yi − Ŷi )2 + (Ŷi − Ȳ )2 + 2 ei (Ŷi − Ȳ )
i=1 i=1 i=1
n
X n
X n
X n
X
2 2
= (Yi − Ŷi ) + (Ŷi − Ȳ ) + 2 Ŷi ei − 2Ȳ ei
i=1 i=1 i=1 i=1
Xn Xn
= (Yi − Ŷi )2 + (Ŷi − Ȳ )2 = SSE + SSR .
i=1 i=1
b) Ta có:
X
SSE = (Yi − Ŷi )2
X
= (Yi − Ȳ − βˆ1 (xi − x̄))2
X X 2X
= (Yi − Ȳ )2 − 2βˆ1 (xi − x̄)(Yi − Ȳ ) + βˆ1 (xi − x̄)2
= SST −2β̂1 Sxy + β̂1 × β̂1 Sxx
Sxy
= SST −2βˆ1 Sxy + βˆ1 Sxx
sxx
= SST −βˆ1 Sxy .
Vì SSE /σ 2 ∼ χ2 (n − 2), ta có
SSE
2
E [SSE] = σ E = (n − 2)σ 2 .
σ2
(Sử dụng kết quả: nếu biến ngẫu nhiên X ∼ χ2 (n) thì E(X) = n)
e)
n
! Pn Pn
1 X S xy Y i (x i − x̄)(Y i − Ȳ )
Cov(Ȳ , βˆ1 ) = Cov Yi , = Cov i=1
, i=1
n i=1 Sxx n Sxx
Pn Pn Pn
i=1 Yi i=1 Yi (xi − x̄) Ȳ i=1 (xi − x̄)
= Cov , −
n Sxx Sxx
Pn Pn
i=1 Yi Yi (xi − x̄)
= Cov , i=1
n Sxx
Pn n n
!
1 i=1 Yi
X X
= Cov , xi Yi − x̄ Yi
Sxx n i=1 i=1
" Pn n
! n n
!#
1 i=1 Y i
X x̄ X X
= Cov , xi Yi − Cov Yi , Yi
Sxx n i=1
n i=1 i=1
" n n
! n
!#
1 1 X X x̄ X
= Cov Yi , xi Yi − Var Yi
Sxx n i=1 i=1
n i=1
2
" n n
#
1 1X x̄ X
= xi Var(Yi ) − Var(Yi )
Sxx n i=1 n i=1
" n
#
1 σ2 X x̄ 2
= xi − nσ = 0.
Sxx n i=1 n
c)
Cov(βˆ0 , βˆ1 ) = Cov(Ȳ − βˆ1 x̄, βˆ1 ) = Cov(Ȳ , βˆ1 ) − Cov(β̂1 x̄, βˆ1 )
σ2
= −x̄ Cov(β̂1 , βˆ1 ) = −x̄ Var(βˆ1 ) = −x̄
Sxx
2 2
−σ x̄ −σ x̄
= Pn 2
= Pn 2 2
i=1 (xi − x̄) i=1 xi − nx̄
−σ 2 ni=1 xi /n −σ 2 ni=1 xi
P P
= Pn 2 Pn = Pn 2 .
n i=1 xi − ( ni=1 xi )2
2
P
i=1 xi − ( i=1 xi ) /n
d) Ta có:
a) Theo giả định của mô hình hồi quy tuyến tính thì Yi ∼ N (β0 + β1 xi , σ 2 ),
i = 1, . . . , n. Mặt khác,
Pn n n
Sxy i=1 (xi − x̄)(Yi − Ȳ ) (xi − x̄)
X X
ˆ
β1 = = = Yi = ki Yi ,
Sxx Sxx i=1
Sxx i=1
1
với ci = − x̄ki , i = 1, . . . , n, là các hằng số. Tức là β̂0 là một tổ hợp tuyến
n
tính của các biến ngẫu nhiên có phân phối chuẩn độc lập với nhau, suy ra β̂0
tuân theo phân phối chuẩn. (Theo định lý về tính tuyến tính của dãy các biến
3
ngẫu nhiên độc lập có phân phối chuẩn)
do E(εi ) = 0 ∀ i = 1, . . . , n.
Ta lại có:
n n n
X X 1 X
ci = − x̄ki = 1 − x̄ki
i=1 i=1
n i=1
n n
X X (xi − x̄)
=1− x̄ki = 1 − x̄ = 1 − 0 = 1,
i=1 i=1
Sxx
n n n n n
X (xi − x̄)xi
X X 1 1X X
ci x i = − x̄ki xi = xi − x̄ ki xi = x̄ − x̄
i=1 i=1
n n i=1 i=1 i=1
Sxx
Pn
(xi − x̄)(xi − x̄) Sxx
= x̄ − x̄ i=1 = x̄ − x̄ = 0.
Sxx Sxx
x̄2
2 1
Vậy Var(β̂0 ) = σ + .
n Sxx
b) Từ kết quả ở câu a), ta có
σ2
2 1
β̂0 ∼ N β0 , σ + .
n Sxx
Đặt,
β̂0 − E(β̂0 ) β̂0 − β0
Z0 = q =s .
2
Var(β̂0 ) 1 x̄
σ2 +
n Sxx
P(−zα/2 ≤ Z0 ≤ zα/2 ) = 1 − α
4
β̂ 0 − β0
⇔P−zα/2 ≤ s ≤ zα/2
=1−α
2
1 x̄
σ2 +
n Sxx
s s !
2 2
1 x̄ 1 x̄
⇔ P β̂0 − zα/2 σ 2 + ≤ β0 ≤ β̂0 + zα/2 σ 2 + = 1 − α.
n Sxx n Sxx
Vậy khoảng tin cậy 100(1 − α)% cho β0 khi biết σ 2 có dạng:
s s
2
x̄2
2
1 x̄ 2
1
β̂0 − zα/2 σ + ≤ β0 ≤ β̂0 + zα/2 σ + ,
n Sxx n Sxx
với zα/2 là phân vị trên mức α/2 của biến ngẫu nhiên chuẩn tắc.
2) Trường hợp không biết σ 2 : ta thay σ 2 bởi ước lượng
SSE
σ̂ 2 = .
n−2
Gọi s
x̄2
1
SE(β̂0 ) = σ̂ 2 + ,
n Sxx
và đặt
β̂0 − β0 β̂0 − β0
T0 = s = .
2 SE(β̂0 )
1 x̄
σ̂ 2 +
n Sxx
Ta sẽ chứng tỏ rằng thống kê T0 tuân theo phân phối Student với n − 2 bậc tự
do. Thật vậy,
β̂0 − β0 β̂0 − β0
s =s
x̄2 σ̂ 2 2 1 x̄2
2
1
σ̂ + σ +
n Sxx σ2 n Sxx
s
β̂0 − β0 SSE Z0
=s / 2
=r
1 x̄2
(n − 2)σ SSE /σ 2
σ2 + n−2
n Sxx
Do Z0 ∼ N (0, 1) và SSE /σ 2 ∼ χ2 (n−2), theo định nghĩa của phân phối Student
ta có
Z
r 0 ∼ t(n − 2).
SSE /σ 2
n−2
5
Tức là T0 ∼ t(n − 2). Khi đó, tương tự như trường hợp biết σ 2 , khoảng tin cậy
(đối xứng) 100(1 − α)% cho β0 được xây dựng thông qua thống kê T0 như sau:
n−2 n−2
P −tα/2 ≤ T0 ≤ tα/2 = 1 − α.
Biến đổi tương tự như trong trường hợp biết σ 2 , ta thu được
β0 − tn−2 n−2
α/2 SE(β̂0 ) ≤ β0 ≤ β0 + tα/2 SE(β̂0 ),
với tn−2
α/2 là phân vị trên mức α/2 của biến ngẫu nhiên có phân phối Student với
n − 2 bậc tự do.
a) Theo giả định của mô hình hồi quy tuyến tính thì Yi ∼ N (β0 + β1 xi , σ 2 ),
i = 1, . . . , n. Mặt khác,
Pn n n
Sxy i=1 (xi − x̄)(Yi − Ȳ ) (xi − x̄)
X X
ˆ
β1 = = = Yi = ki Yi ,
Sxx Sxx i=1
Sxx i=1
n
! n
!
X X
E(β̂1 ) = E ki Yi =E ki (β0 + β1 xi + i )
i=1 i=1
n n n
!
X X X
= β0 ki + β1 ki xi + E ki i
i=1 i=1 i=1
Xn Xn n
X n
X n
X
= β0 ki + β1 ki xi + ki E(i ) = β0 ki + β1 ki xi ,
i=1 i=1 i=1 i=1 i=1
Vậy E(β̂1 ) = β1 .
6
n
! n n n
X X X X
Var(β̂1 ) = Var ki Yi = Var(ki Yi ) = ki2 Var(Yi ) = σ 2
ki2 .
i=1 i=1 i=1 i=1
n n
X X (xi − x̄)2 Sxx 1
Do ki2 = 2
= 2
= , vậy
i=1 i=1
Sxx Sxx Sxx
σ2
Var(β̂1 ) = .
Sxx
σ2
β̂1 ∼ N β1 , .
Sxx
Đặt,
β̂1 − E(β̂1 ) β̂1 − β1
Z1 = q = r 2 .
Var(β̂1 ) σ
Sxx
Thì ta có Z1 ∼ N (0, 1). Ta xét hai trường hợp sau:
1) Trường hợp biết σ 2 : khoảng tin cậy (đối xứng) 100(1 − α)% cho β1 được
xây dựng bởi việc sử dụng thống kê Z1 như sau
P(−zα/2 ≤ Z1 ≤ zα/2 ) = 1 − α
β̂1 − β1
⇔P −z α/2 ≤ r ≤ z α/2
=1−α
σ2
Sxx
s s
2 2
σ σ
⇔ P β̂1 − zα/2 ≤ β1 ≤ β̂1 + zα/2 = 1 − α.
Sxx Sxx
Vậy khoảng tin cậy 100(1 − α)% cho β1 khi biết σ 2 có dạng:
s s
2
σ σ2
β̂1 − zα/2 ≤ β1 ≤ β̂1 + zα/2 ,
Sxx Sxx
với zα/2 là phân vị trên mức α/2 của biến ngẫu nhiên chuẩn tắc.
2) Trường hợp không biết σ 2 : ta thay σ 2 bởi ước lượng
SSE
σ̂ 2 = .
n−2
Gọi s
σ̂ 2
SE(β̂1 ) = ,
Sxx
7
và đặt
β̂1 − β1 β̂1 − β1
T1 = r 2 = .
σ̂ SE(β̂1 )
Sxx
Ta sẽ chứng tỏ rằng thống kê T1 tuân theo phân phối Student với n − 2 bậc tự
do. Thật vậy,
s
β̂1 − β1 β̂ − β β̂1 − β1 SSE Z1
r 2 = r1 2 12 = r / 2
=r
σ̂ σ̂ σ σ 2 (n − 2)σ SSE /σ 2
Sxx σ 2 Sxx Sxx n−2
Do Z1 ∼ N (0, 1) và SSE /σ 2 ∼ χ2 (n−2), theo định nghĩa của phân phối Student
ta có
Z
r 1 ∼ t(n − 2).
SSE /σ 2
n−2
Tức là T1 ∼ t(n − 2). Khi đó, tương tự như trường hợp biết σ 2 , khoảng tin cậy
(đối xứng) 100(1 − α)% cho β1 được xây dựng thông qua thống kê T1 như sau:
n−2 n−2
P −tα/2 ≤ T1 ≤ tα/2 = 1 − α.
Biến đổi tương tự như trong trường hợp biết σ 2 , ta thu được
β1 − tn−2 n−2
α/2 SE(β̂1 ) ≤ β0 ≤ β0 + tα/2 SE(β̂1 ),
với tn−2
α/2 là phân vị trên mức α/2 của biến ngẫu nhiên có phân phối Student với
n − 2 bậc tự do.
a)
Mô hình hồi quy tuyến tính đơn:
Y = β0 + β1 X + ε.
Vì β̂0 và β̂1 đều tuân theo phân phối chuẩn suy ra µ̂Y |x0 tuân theo phân phối
chuẩn. Ta tính kỳ vọng và phương sai của µ̂Y |x0 .
8
Do E(β̂i ) = βi , i = 0, 1, ta tính được
E(µ̂Y |x0 ) = β0 + β1 x0 .
σ2
Cov(β̂0 , β̂1 ) = −x̄ .
Sxx
Suy ra
x̄2 σ2 σ2
2 1
Var(µ̂Y |x0 ) = σ + + x20 − 2x0 x̄
n Sxx Sxx Sxx
2 2
1 x̄ x 2x0 x̄
= σ2 + + 0 −
n Sxx Sxx Sxx
2
1 (x̄ − x0 )
= σ2 + .
n Sxx
b) Đặt
µ̂Y |x − µY |x0 β̂0 + β̂1 x0 − (β0 + β1 x0 )
Z=p 0 = s .
Var(µ̂Y |x0 ) 1 (x̄ − x 0 )2
σ2 +
n Sxx
Ta có Z ∼ N (0, 1).
Tương tự như việc tìm khoảng tin cậy cho β̂0 và β̂1 , trong trường hợp biết σ 2 ,
khoảng tin cậy 100(1 − α)% cho µ̂Y |x0 được xây dựng thông qua thống kê Z từ
P −zα/2 ≤ Z ≤ zα/2 = 1 − α.
Ta thu được
s s
1 (x̄ − x0 )2 1 (x̄ − x0 )2
µ̂Y |x0 −zα/2 σ2 + ≤ µY |x0 ≤ µ̂Y |x0 +zα/2 σ2 + ,
n Sxx n Sxx
là khoảng tin cậy 100(1 − α)% cho trung bình của biến đáp ứng khi biết σ 2 .
Trường hợp σ 2 không biết, ta sử dụng ước lượng
SSE
σ̂ 2 =
n−2
9
trong công thức phương sai của µ̂Y |x0 . Gọi
s
2
1 (x̄ − x 0 )
SE(µ̂Y |x0 ) = σ̂ 2 + ,
n Sxx
và đặt
µ̂Y |x0 − µY |x0
T = .
SE(µ̂Y |x0 )
Ta sẽ chứng tỏ rằng T có phân phối Student với n − 2 bậc tự do. Thật vậy,
Do Z ∼ N (0, 1) và SSE /σ 2 ∼ χ2 (n − 2), theo định nghĩa của phân phối Student
ta có
Z
r ∼ t(n − 2).
SSE /σ 2
n−2
Tức là T ∼ t(n − 2). Khi đó, khoảng tin cậy 100(1 − α)% cho µY |x0 được xây
dựng thông qua thống kê T như sau:
P(−tn−2 n−2
α/2 ≤ T ≤ tα/2 ) = 1 − α
µ̂Y |x0 − µY |x0
n−2 n−2
⇔ P −tα/2 ≤ ≤ tα/2 = 1 − α
SE(µ̂Y |x0 )
⇔ P µ̂Y |x0 − tn−2
α/2 SE(µ̂ Y |x 0 ) ≤ µ Y |x 0 ≤ µ̂ Y |x 0 + t n−2
α/2 SE(µ̂ Y |x0 ) = 1 − α.
Vậy với độ tin cậy 100(1 − α)% thì ta có khoảng tin cậy cho trung bình của biến
đáp ứng như sau:
s s
2
1 (x̄ − x0 )2
n−2 2
1 (x̄ − x 0 ) n−2 2
µ̂Y |x0 −tα/2 σ̂ + ≤ µY |x0 ≤ µ̂Y |x0 +tα/2 σ̂ + .
n Sxx n Sxx
Ŷ = βˆ0 + βˆ1 x,
10
Ta dùng Ŷ0 để dự báo giá trị Y0 = β0 + β1 x0 + . Đặt
η = Y0 − Ŷ0 .
Thì η tuân theo phân phối chuẩn với kỳ vọng và phương sai cho bởi:
Vậy
1 (x̄ − x0 )2
2
η∼N 0, σ 1+ + .
n Sxx
b) Các bước xây dựng khoảng tin cậy cho giá trị dự báo tương lai Y0 hoàn toàn
tương tự như trong trường hợp xây dựng khoảng tin cậy cho trung bình biến
đáp ứng (xem câu b), bài tập 4.4). Ta có khoảng tin cậy 100(1 − α)% cho giá
trị dự báo tương lai Y0 tại x0 như sau:
s s
2
1 (x̄ − x0 )2
n−2 2
1 (x̄ − x 0 ) n−2 2
Ŷ0 −tα/2 σ̂ 1 + + ≤ Y0 ≤ Ŷ0 +tα/2 σ̂ 1 + + .
n Sxx n Sxx
Bài tập 4.6: Theo đề bài, ta có mô hình hồi quy như sau
Sytolic = β0 + β1 × Age + .
Sxy
βb1 = = 0.7520,
Sxx
và
βb0 = y − βb1 x = 96.4714.
Đường thẳng hồi quy bình phương nhỏ nhất là
11
b) Vẽ đồ thị phân tán và đường thẳng hồi quy
Bài tập 4.7: Theo đề bài, ta có mô hình hồi quy như sau
CE = β0 + β1 DI + .
Sxy
βb1 = = 0.83994,
Sxx
và
βb0 = y − βb1 x = 0.62875.
Đường thẳng hồi quy bình phương nhỏ nhất là
CE = 0.62875 + 0.83994DI.
12
b) Vẽ đồ thị phân tán và đường thẳng hồi quy
và
βb0 = y − βb1 x = −474.76.
Đường thẳng hồi quy bình phương nhỏ nhất là
b) Khoảng tin cậy 100(1 − α)% cho β0 được cho bởi công thức như sau,
s s
2
x2
n−2 2
1 x n−2 2
1
β0 − tα/2 σ̂
b + ≤ β0 ≤ β0 + tα/2 σ̂
b + .
n Sxx n Sxx
Áp dụng công thức trên ta có được 95% khoảng tin cậy cho β0 là
−3418.97137 ≤ β0 ≤ 2469.45575.
13
Khoảng tin cậy 100(1 − α)% cho β1 được cho bởi công thức như sau,
s s
2
n−2 σ̂ σ̂ 2
βb1 − tα/2 ≤ β1 ≤ βb1 − tn−2
α/2 .
Sxx Sxx
Áp dụng công thức này ta có được 95% khoảng tin cậy cho β1 là
−45.44075 ≤ β1 ≤ 95.33164.
Khoảng tin cậy 100(1 − α)% cho giá trị quan trắc tương lai Y0 được cho bởi
s s
2
1 (x − x0 )2
n−2 2
1 (x − x 0 ) n−2 2
Y0 −t1−α/2 σ
b b 1+ + ≤ Y0 ≤ Y0 −t1−α/2 σ
b b 1+ + .
n Sxx n Sxx
−918.8047 ≤ Y0 ≤ 2713.288.
Sxy
rxy = √ = 0.2776.
Sxx SST
14
Bài tập 4.9: Mô hình hồi quy
Nicotine = β0 + β1 Weight + .
Sxy
βb1 = = 0.003056,
Sxx
và
c) Khoảng tin cậy 100(1 − α)% cho β0 được cho bởi công thức như sau,
s s
2 2
n−2 1 x n−2 1 x
βb0 − tα/2 σ̂ 2 + ≤ β0 ≤ βb0 + tα/2 σ̂ 2 + .
n Sxx n Sxx
Áp dụng công thức trên ta có được 95% khoảng tin cậy cho β0 là
15
0.7357 ≤ β0 ≤ 1.101.
Khoảng tin cậy 100(1 − α)% cho β1 được cho bởi công thức như sau,
s s
2
n−2 σ̂ σ̂ 2
βb1 − tα/2 ≤ β1 ≤ βb1 − tn−2
α/2 .
Sxx Sxx
Áp dụng công thức này ta có được 95% khoảng tin cậy cho β1 là
−0.0115 ≤ β1 ≤ 0.0176.
Áp dụng công thức trên ta tính được khoảng tin cậy 95% cho µY |x0 bằng
16