Download as pdf or txt
Download as pdf or txt
You are on page 1of 28

Chƣơng 9: TƢƠNG QUAN VÀ HỒI QUY

MẪU.

1
Y    X 
N (0,  2 )

Yi     X i   i , i  1, 2,..., n
 i , i  1, 2,..., n
N (0,  2 )

 i , i  1, 2,..., n
N (0,  2 )

2
2. Ƣớc lƣợng đƣờng hồi quy tuyến tính :
Mức độ phù hợp của mô hình được đánh giá bởi tổng bình
phương các độ lệch theo phương Oy
n
Q  ,      yi     xi  
2

i 1

Đường thẳng phù hợp nhất được gọi là đường thẳng hồi quy
tuyến tính được xác định bởi phương pháp bình phương cực
tiểu , tức là đường thẳng có tổng bình phương các độ lệch
theo phương Oy là nhỏ nhất : y=a+bx sao cho
Q  a, b   min Q( ,  )
 ,
Ta ký hiệu : 2
n n
1n
 n
S xx   ( xi  x)  ( xi  x) xi  xi    xi 
2 2

i 1 i 1 i 1 n  i 1  3
1  n  n 
 
n n n
S xy   ( xi  x)( yi  y )  ( xi  x) yi  xi yi    xi   yi   n. xy  x. y
i 1 i 1 i 1 n  i 1  i 1 
2
n n n
1 n 
S yy   ( yi  y )  ( yi  y ) xi  yi    yi 
2 2

i 1 i 1 i 1 n  i 1 
Định lý 1.1 : Ta có các ước lượng của α và β là a và b được
tính theo các công thức sau
S xy xy  x. y
b  , a  y  bx
S xx 1
S xx
n

Định nghĩa 1.2: Với

mỗi i , y i  a  bxi được gọi là giá trị ước
đoán và ei  yi  y i được gọi là thặng dư hay sai số ước đoán
a. Tổng bình phương sai số trung bình đo độ phân tán của dữ liệu quanh
giá trị trung bình
n
SST  S yy   ( yi  y ) 2
i 1
4
b. Tổng bình phương sai số ước đoán đo độ phân tán của dữ liệu không do
mô hình hồi quy gây ra n 
SSE   ( yi  y i ) 2
i 1

c. Tổng bình phương hồi quy đo độ phân tán của dữ liệu do mô hình hồi
quy gây ra n 
SSR   ( y i  y )
2

i 1

Định lý 1.2 ( Đẳng thức cơ bản của phân tích hồi quy ):
SST = SSR + SSE
Chú ý : Ta có thể tính SSR,SSE theo công thức sau
SSE  S yy  b.S xy , SSR  b.S xy
3. Ƣớc lƣợng phƣơng sai σ² :

SSE
S 
2

n2
5
4. Ƣớc lƣợng khoảng của hệ số góc , hệ số chặn :
Định lý 1.4: Khoảng tin cậy với độ tin cậy  cho hệ số góc β là
S
b T1(n 2)
S xx

Định lý 1.5: Khoảng tin cậy với độ tin cậy  cho hệ số chặn α là
1 n 2
S  xi
n i 1
a T1(n 2)
S xx
1 n 2
Chú ý :
S

S  xi
n i 1 được gọi là sai số chuẩn cho hệ số góc β và hệ
S xx
số chặn α . S xx

5. Ý nghĩa: Đường hồi quy tuyến tính mẫu là đường thẳng xấp xỉ nội
suy từ bảng số liệu của X và Y theo phương pháp bình phương tối
tiểu.Nếu X và Y có tương quan xấp xỉ tuyến tính thì đường hồi quy
tuyến tính mẫu cho ta một dự báo đơn giản: X  x0  Y  y0  a  bx0

6
Bảng phân phối tần số mẫu đồng thời hay bảng tƣơng
quan mẫu

Giả sử X,Y là 2 đại lượng ngẫu nhiên gốc của cùng 1 tổng
thể. Bảng phân phối tần số mẫu đồng thời của X,Y là:

X
Y y1 y2 ... yh
x1 n11 n12 ... n1h
x2 n21 n22 ... n2 h
... ... ... ... ...
xk nk 1 nk 2 ... nkh
7
Bảng phân phối tần số lề :

Y y1 y2 ... yh ni
X
x1 n11 n12 ... n1h n1
x2 n21 n22 ... n2 h n2
... ... ... ... ... ...
xk nk 1 nk 2 ... nkh nk
mj m1 m2 ... mh n
8
$1.Đƣờng hồi quy tuyến tính
1.Đƣờng hồi quy mẫu.
Định nghĩa 1.1: Ký hiệu

 y .n , i  1, k    x , Y  ,1, k
h
1
Yxi  (Y / X  xi )  j ij i i xi
ni j 1

Đường gấp khúc M 1M 2 ...M k được gọi là


đường hồi quy mẫu cua Y theo X.
2. Đƣờng hồi quy tuyến tính mẫu.
Định nghĩa 1.2: Đường hồi quy tuyến tính mẫu của
Y theo X là đường thẳng y=a+bx sao cho:
k
Q  a, b   min Q( ,  )  min  Y xi     xi   .ni
2

 ,  ,
i 1

9
y  a  bx
M2
Yx2

Yx3 M3

Yx1 M1

0 x1 x2 x3

10
2
k k
1 k

S xx   ( xi  x) 2 .ni  xi 2 .ni    xi .ni 
i 1 i 1 n  i 1 
1 k  h 
 
k h
S xy   xi y j nij    xi ni    y j m j   n. xy  x. y
i 1 j 1 n  i 1   j 1 
2
h h
1 h 
S yy   ( y j  y ) .m j  y j .m j    y j .m j 
2 2

j 1 j 1 n  j 1 
Định lý: S xy xy  x. y
b  , a  y  bx
S xx 1
S xx
n
Ý nghĩa: Đường hồi quy tuyến tính mẫu là đường thẳng
xấp xỉ nội suy từ bảng số liệu của X và Y theo phương
pháp bình phương tối tiểu.Nếu X và Y có tương quan
xấp xỉ tuyến tính thì đường hồi quy tuyến tính mẫu cho
ta một dự báo đơn giản:
X  x0  Y  y0  a  bx0
11
§2. Hệ số tƣơng quan mẫu và hệ số xác định.
Định nghĩa 2.1: Hệ số tương quan mẫu giữa X và Y là:
S xy S xx
rXY  b
S xx .S yy S yy
Ý nghĩa: Hệ số tương quan mẫu là một ước lượng của hệ số
tương quan giữa X và Y ở chương 3, $6. Như vậy , hệ số
tương quan mẫu đặc trưng cho độ ràng buộc tuyến tính
giữa X và Y: Trị tuyệt đối của hệ số tương quan mẫu càng
gần 1, thì X,Y càng gần có quan hệ tuyến tính. Ta có :
Miền giá trị của r Mức độ tuyến tính
|r| ≤ 0,3 Không có hoặc rất yếu
0,3 < |r| ≤ 0,5 Yếu
0,5 < |r| ≤ 0,8 Trung bình
0,8 < |r| Mạnh
12
Ý nghĩa: Ngoài ra , nếu hệ số tương quan mẫu là một số
dương thì ta dự đoán X và Y có xu hướng có quan hệ
đồng biến . Ngược lại là nghịch biến . Ta có :
2 S xx
S xy S yy  b.S xy SSE SSR
R  rXY  b .
2 2
 b.  1  1 
S yy S yy S yy SST SST
Định nghĩa 2.2: Hệ số R² được gọi là hệ số xác định .
Ý nghĩa : Hệ số xác định là phần trăm của độ phân tán
toàn thể theo phương Oy do mô hình hồi quy tuyến tính
gây ra . Thông thường , người ta mong muốn hệ số xác
định ít nhất là 0,5 .
Chú ý : Trong bài thi kiểm tra yêu cầu trình bày lời giải bài
tương quan và hồi quy như sau : Viết công thức tính ,
sau đó ghi các giá trị số có trong công thức ( các giá trị
này có thể lấy ra từ hộp thoại máy tính ghi tới 4 chữ số
sau dấu phẩy ) rồi ghi đáp số (cũng có thể lấy từ hộp
thoại máy tính và ghi tới 4 chữ số sau dấu phẩy).
13
3.Cách dùng máy tính bỏ túi:.
a)Loại ES: • Mở tần số (1 lần): Shift Mode Stat On(Off)
xi yj nij
MODE STAT a+bx

Chú ý : Khi đóng cột tần số , máy tính sẽ tự hiểu các


tần số đều bằng 1
SHIFT START VAR x  x, y  y

SHIFT START REG r  rxy

SHIFT START REG a  a


SHIFT START REG b  b

SHIFT START SUM  xy  n.xy


14
b)Loại MS : : MODE REG LIN
Cách xóa dữ liệu cũ : SHIFT CLR SCL =
Cách nhập dữ liệu : xi , y j ; nij M
.SHIFT START S-VAR x  x y  y
.SHIFT START S-VAR r  rxy
.SHIFT START S-VAR a  a
.SHIFT START S-VAR b  b
.SHIFT START S-SUM  xy  n.xy

15
Ví dụ 8.1: Số vốn đầu tư X và lợi nhuận Y trong một đơn vị
thời gian của 100 quan sát ,đươc bảng số liệu:

Y 0,3 O,7 1,0


X
1 20 10
2 30 10
3 10 20

a) Tìm đường hồi quy mẫu của Y theo X


b) Tính hệ số tương quan mẫu và cho nhận xét
c) Hãy ước lượng độ lệch σ
d) Tìm sai số chuẩn và khoảng tin cậy cho hệ số góc với
độ tin cậy 0,95 .

16
Bảng số liệu đề bài tương đương với bảng sau:

xi yj nij
1 0,3 20
1 0, 7 10
2 0, 7 30
2 1 10
3 0, 7 10
3 1 20
Nhập vào ta có:(Chú ý:Nếu muốn tìm đường hồi qui tuyến
tính của X theo Y thì phải đổi chỗ 2 cột dữ liệu X,Y.Lúc đó
phương trình là x=a+by )
17
n  n  100; x  x  2; y  y  0, 71
r  rxy  0, 7447, R 2  rXY 2  0, 5546
a  a  0, 2433, b  b  0, 2333
 y  a  bx  0, 2433  0, 2333 x
 xy  n.xy  156  xy  1, 56
n n

x 2
  xi  460,  x   xi  200
i 1
2

i 1
n n
1 1
S xx   xi 2   xi  460  2002  60
i 1 n i 1 100
S X  xn  1  0, 7785, SY  yn  1  0, 2439

S xx  (n  1) S X2  99.0, 77852  60
SST  S yy  (n  1) SY2  99.0, 24392  5,89
S xy  n( xy  x. y )  100.(1,56  2.0, 71)  14
SSR  b.S xy  0, 2333.14  3, 2662
SSE  SST  SSR  5,89  3, 2662  2, 6238
SSE 2, 6238
S2    0, 0268
n2 98 18
Giải :
a) Tìm đường hồi quy mẫu của Y theo X :
n  100; x  2; y  0, 71,  xy  156  xy  1,56
S X  xn  1  0, 7785, SY  yn  1  0, 2439
S xx  (n  1) S X2  99.0, 77852  60
S xy  n( xy  x. y )  100.(1,56  2.0, 71)  14
S xy 14
b   0, 2333, a  y  bx  0, 71  0, 2333.2  0, 2433
S xx 60
y  a  bx  0, 2433  0, 2333x
b) Tính hệ số tương quan mẫu và cho nhận xét
S yy  (n  1) SY2  99.0, 24392  5,89
S xy 14
rXY    0, 7447
S xx .S yy 60.5,89

Nhận xét : Như vậy giữa X và Y có quan hệ tuyến tính trung bình và đồng biến
19
c) Ước lượng σ
SSR  b.S xy  0, 2333.14  3, 2662,
SSE  SST  SSR  5,89  3, 2662  2, 6238
SSE 2, 6238
S2    0, 0268
n2 98
Vậy ước lượng của σ là
S  S 2  0,1637
d) Tìm khoảng tin cậy cho hệ số góc với độ tin cậy 0,95

T1(n 2)  T0,05
(98)
 t98;0,025  1,984
Sai số chuẩn cho hệ số góc là S

0,1637
 0, 0211
S xx 60

Vậy khoảng tin cậy cho hệ số góc với độ tin cậy 0,95 là

S 0,1637
b T1(n 2)  0, 2333  .1,984  0, 2333  0, 0419
S xx 60
  (0.1914, 0.2752)
20
1.Với độ tin cậy 0.95,hãy ước lượng số vốn
đầu tư và lợi nhuận trung bình
• Ta có bài toán ước lượng trung bình, TH 3b
SX
X  Z  0,15259
n
x  X  aX  x  X
SY
Y  Z  0, 04781
n
y  Y  aY  y  Y

21
1’. Hãy ước lượng lợi nhuận nếu số vốn đầu
tư là 1,5

y  a  bx  0, 2433  0, 2333.1,5  0,59325

22
2.Trước đây lợi nhuận trung bình là 0,6.Với mức ý
nghĩa 0.05,hãy kiểm tra ý kiến cho rằng lợi nhuận
trung bình đã tăng lên .
• Ta có bài toán kiểm định trung bình, TH 3b
H : a  a 0  0, 6
H : a  a 0  0, 6
(y  0, 6). n
uqs   4, 51  Z0,1  1, 645
SY
 uqs  W  (1, 645; )  a  a 0  0, 6

• Vậy lợi nhuận trung bình đã tăng lên.


23
3.Lợi nhuận lớn hơn 0,7 là lợi nhuận cao.Với mức
ý nghĩa 0.01,hãy kiểm tra ý kiến cho rằng tỷ lệ lợi
nhuận cao là 0,32.
H : p  p 0  0, 32
H : p  p 0  0, 32
30
f   0, 3
100
(0, 3  0, 32).10
uqs   0, 43
0, 32.0, 68
| uqs |  Z0,01  2, 575  p  p 0  0, 32
• Vậy ý kiến đã cho là đúng.
24
4.Lợi nhuận lớn hơn 0,7 là lợi nhuận cao.Với độ
tin cậy 0.9,hãy ước lượng số vốn trung bình cho
lợi nhuận cao .
Ta có bảng phân phối của số vốn cho lợi nhuận cao là:
X 2 3
ni 10 20
n  30, x  2, 66667, SX  0, 47946
SX
X  Z0,1  0,144
n
x  X  aX  x  X

Chú ý : Khi đóng cột tần số , máy tính sẽ tự hiểu các


tần số đều bằng 1
25
Ví dụ 8.2: Các tần số bằng 1
Dưới đây là một mẫu thống kê 2 chiều (X,Y). X là số giờ học môn học A.
trong 1 tuần và Y là điểm thi môn A. của sinh viên. Giả thiết X, Y tuân theo
phân phối chuẩn.
•Tìm khoảng ước lượng cho điểm số trung bình môn học A. của sinh viên,
với độ tin cậy 95%.
•Tìm hệ số tương quan mẫu và phương trình hồi quy tuyến tính mẫu Y theo
X. Hãy dự đoán điểm thi của một sinh viên có thời gian học môn A. hàng
tuần là 4,5 giờ.
X (giờ) 3 3 4 2 5 6 3,5 3 6 5,5 5 4,5
Y(điểm) 5 4 6,5 4 8 9 7 6 10 9,5 8,5 7,5

s 2, 0431
a) n 12; y  7, 0833; s y  2, 0431   t ( n 1)   2, 201  1, 2981
2
; n 12
Khoảng ước lượng cần tìm có dạng: ( y   ; y   )  ( 5, 7852; 8,3815)
b) Hệ số tương quan r = 0,9521 ( cần ghi công thức tính)
Các hệ số hồi quy tt: b = 1,4713; a = 0,8917 ( cần ghi công thức tính)
Phương trình đường HQTT mẫu: y = a + bx = 0,8917 + 1,4713 x
Dự đoán điểm thi của 1 sinh viên dành 4,5 giờ trong tuần học môn A là 7,5125 . 26
Ví dụ 8.3:
Người ta khảo sát về thời gian dành cho việc tự học của các sinh viên năm
hai trong đợt nghỉ học phòng dịch nCoV. Dưới đây là số liệu mẫu thu được:
Thời gian tự học trong 1 tuần 0 – 6 6 - 12 12 - 18 18 –24 24 – 30 30 – 36 36 -42
(đơn vị: giờ)

Số sinh viên tương ứng 8 32 46 40 25 18 11

•a)Hãy kiểm định xem có phải thời gian tự học trung bình trong tuần của
một sinh viên năm hai là 20 giờ hay không, xét với mức ý nghĩa 4%.

•b)Có ý kiến cho rằng 25% sinh viên năm hai có thời gian tự học trong 1 tuần
từ 30 giờ trở lên. Tỷ lệ này có cao hơn thực tế hay không, hãy kết luận với
mức ý nghĩa 5% dựa vào số liệu khảo sát.

27
n  180; x  19, 6667 s  9,3071 s  9,3331

•a)Ho: Thời gian tự học trung bình trong tuần của một sinh viên năm hai bằng 20 giờ.
H1: Thời gian tự học trung bình trong tuần của một sinh viên năm hai khác 20 giờ.
z = 2,05.
W  (, 2, 05)  (2, 05, )
x  ao 19.6667  20
zqs  n 180   0, 4792
s 9,3331
Do zqs  W nên chưa bác bỏ Ho.
b) Ho: p = 25%
H1: p < 25%
W  (, 1, 645)
29
 0, 25
f  po 180
zqs  n 180   2, 7541
po (1  po ) 0, 25(1  0, 25)

Do zqs  W nên bác bỏ Ho và chấp nhận H1.


Tỷ lệ sinh viên học ít nhất 5 giờ / 1 ngày là thấp hơn 25%.
28

You might also like