Download as pdf or txt
Download as pdf or txt
You are on page 1of 42

2/22/2021

Chương 5
ĐIỀU TRA CHỌN MẪU

Nội dung

I II III IV
XÁC SUẤT VÀ NHỮNG VẤN ĐỀ ƯỚC LƯỢNG KIỂM ĐỊNH GIẢ
QUY LUẬT CHUNG VỀ ĐIỀU KẾT QUẢ ĐIỀU THUYẾT
PHÂN PHỐI TRA CHỌN MẪU TRA CHỌN THỐNG KÊ
XÁC SUẤT MẪU

1
2/22/2021

Xác suất và quy luật phân phối xác suất

• Biến ngẫu nhiên

• Quy luật phân phối xác suất của biến ngẫu nhiên

Biến ngẫu nhiên (Random Variables)

• Biến ngẫu nhiên là biến nhận một trong các giá trị có thể có của nó tuỳ
thuộc vào sự tác động của các nhân tố ngẫu nhiên trong một phép thử.

• Biến ngẫu nhiên là biến mà các giá trị không được xác định trước qua mỗi
lần thực nghiệm (phép thử) (experiment)

• Biến ngẫu nhiên thường được ký hiệu bằng chữ in hoa X, Y, Z…; các giá
trị của nó được ký hiệu bằng chữ thường x, y, z…

• Biến ngẫu nhiên liên tục (discrete random variable)

• Biến ngẫu nhiên rời rạc (continuous random variable)

2
2/22/2021

Xác suất (Probability)

• Xác suất của một biến cố là một con số đặc trưng khả năng khách quan
xuất hiện biến cố đó khi thực hiện phép thử

Quy luật phân phối xác suất của biến ngẫu


nhiên (Probability Distribution)
Quy luật phân phối xác suất của biến ngẫu nhiên là sự tương ứng giữa
giá trị có thể có của nó và xác suất tương ứng với giá trị đó.

3
2/22/2021

Quy luật phân phối xác suất của biến ngẫu


nhiên
Các phương pháp được sử dụng phổ biến để mô tả quy luật phân phối
xác suất của biến ngẫu nhiên gồm:

• Bảng phân phối xác suất (áp dụng cho biến ngẫu nhiên rời rạc)

• Hàm phân phối xác suất (áp dụng cho cả hai loại biến ngẫu nhiên rời rạc
và liên tục)

• Hàm mật độ xác suất (áp dụng cho biến ngẫu nhiên liên tục)

Bảng phân phối xác suất (Probability table)


• Giả sử biến ngẫu nhiên rời rạc X nhận các giá trị x1 ,x2,..., xn với các xác
suất tương ứng pi = p (X = xi), i=1÷n, bảng phân phối xác suất của biến
ngẫu nhiên X là:

X x1 x2 … xn
P p1 p2 … pn
Lưu ý: 0 ≤ pi ≤ 1

𝑝 =1

𝑝 𝐴<𝑋<𝐵 = 𝑃 𝑋=𝑥 = 𝑝

4
2/22/2021

Hàm phân phối xác suất (Probability function)


• Hàm phân phối (phân bố) xác suất của biến ngẫu nhiên X, ký hiệu là F(x),
là xác suất để biến ngẫu nhiên X nhận giá trị nhỏ hơn x, với x là một số
thực bất kỳ.
F(x) = P (X < x)
• Nếu X là biến ngẫu nhiên rời rạc, hàm phân phối xác suất của X là:

𝐹 𝑥 = 𝑝

Hàm phân phối xác suất


• F(x) luôn nhận giá trị trong đoạn [0,1]: 0 ≤ F(x) ≤ 1
• Nếu a là giá trị nhỏ nhất có thể có của X và b là giá trị lớn nhất có thể có
của X thì: F (x) = 0 với x ≤ a; F (x) = 1 với x > b
• F(x) là hàm không giảm, tức với x2 > x1: F(x2) ≥ F(x1)
• Hàm phân phối xác suất của một biến ngẫu nhiên liên tục bên trái.

Hàm F(x) cho biết tỷ lệ phần trăm giá trị của X nằm về bên trái của số thực x.

5
2/22/2021

Hàm mật độ xác suất (Probability density


function)
• Hàm mật độ xác suất của biến ngẫu nhiên liên tục X, ký hiệu là f(x) là đạo hàm bậc nhất
của hàm phân bố xác suất của biến ngẫu nhiên đó.
f(x) = F’(x)
• Hàm f(x) luôn không âm: f(x) ≥ 0
• Xác suất để biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (a,b) bằng tích phân xác
định của hàm mật độ phân phối trong khoảng đó: 𝑃 𝑎 < 𝑋 < 𝑏 = ∫ 𝑓 𝑥 𝑑𝑥
• Hàm phân bố xác suất F(x) của biến ngẫu nhiên liên tục X bằng tích phân suy rộng của
hàm mật độ xác suất trong khoảng (-∞,x): 𝐹(𝑥) = ∫ 𝑓 𝑥 𝑑𝑥
• Tích phân suy rộng trong khoảng (-∞,+ ∞) của hàm mật độ xác suất bằng 1:
∫ 𝑓 𝑥 𝑑𝑥 = 1

Hàm mật độ xác suất của biến ngẫu nhiên X tại mỗi điểm cho biết mức độ tập trung
xác suất tại điểm đó.

Các tham số đặc trưng của biến ngẫu nhiên

• Kỳ vọng toán (Expected value, mean) của biến ngẫu nhiên X là một số, ký
hiệu là E(X).
• Với biến ngẫu nhiên rời rạc:

𝐸 𝑋 = 𝑥𝑝

• Với biến ngẫu nhiên liên tục với hàm mật độ xác suất f(x):

𝐸 𝑋 = 𝑥𝑓 𝑥 𝑑𝑥

6
2/22/2021

Các tham số đặc trưng của biến ngẫu nhiên

• Phương sai (Variance) của biến ngẫu nhiên X, ký hiệu là V(X) là kỳ vọng
toán của bình phương sai lệch của biến ngẫu nhiên so với kỳ vọng toán
của nó.
𝑉 𝑋 = 𝐸[𝑋 − 𝐸 𝑋 ] = 𝐸 𝑋 − [𝐸 𝑋 ]
• Với biến ngẫu nhiên rời rạc:
𝑉 𝑋 =∑ [𝑥 − 𝐸 𝑋 ] 𝑝 = ∑ 𝑥 𝑝 − [𝐸 𝑋 ]
• Với biến ngẫu nhiên liên tục:

𝑉 𝑋 =∫ [𝑥 − 𝐸 𝑋 ] 𝑓 𝑥 𝑑𝑥 = ∫ 𝑥 𝑓 𝑥 𝑑𝑥 − [𝐸 𝑋 ]

Giá trị tới hạn (Critical value)


• Giá trị tới hạn mức 𝛼 của biến ngẫu nhiên liên tục X, ký hiệu là 𝑥 , là giá trị
của X thỏa mãn điều kiện:
𝑃(𝑋 > 𝑥 ) = 𝛼
• Giá trị tới hạn 𝑥 là giá trị sao cho diện tích giới hạn bởi trục hoành,
đường cong hàm mật độ xác suất và đường thẳng x= 𝑥 bằng 𝛼
f(x)

𝑥 x

7
2/22/2021

Quy luật phân phối không – một A(p)


(Bernoulli Distribution)
• Biến ngẫu nhiên rời rạc X nhận một trong hai giá trị có thể có là 0 hoặc 1
với các xác suất tương ứng được cho bởi công thức:
P(X=x) = pxq1−x trong đó 0<p<1, q=1-p và x=0;1
→ được gọi là có phân phối theo quy luật 0-1 với tham số p, ký hiệu X ~ A(p)
• E(X) = 0 x q + 1 x p = p 𝐸 𝑋 =𝑝

• V X =𝐸 𝑋 − 𝐸 𝑋 = 𝑝 − 𝑝 = 𝑝 1 − 𝑝 = 𝑝𝑞

Áp dụng với các biến định tính chỉ có hai thuộc tính/phạm trù

Quy luật phân phối nhị thức B(n,p)


(Binomial Probability Distribution)
• Biến ngẫu nhiên rời rạc X được gọi là có phân phối theo quy luật nhị thức
với các tham số là n và p, ký hiệu X ~ B (n,p), nếu X nhận một trong các
giá trị 0, 1, 2, ... , n với xác suất tương ứng cho bởi công thức Bernoulli:
𝑃 =𝐶 𝑝 𝑞 với x = 0, 1, 2, …, n
• E(X) = np
• V(X) = npq

8
2/22/2021

Quy luật phân phối nhị thức B(n,p)


Quy luật nhị thức theo tỷ lệ
• Tần suất xuất hiện biến cố A trong n phép thử độc lập: f = X / n
• Tần suất f vẫn phân phối theo quy luật nhị thức với các tham số n, p.

• 𝐸 𝑓 =𝐸 = 𝐸 𝑋 = =𝑝

• 𝑉 𝑓 =𝑉 = 𝑉 𝑋 = =

Quy luật phân phối chuẩn (Normal


Probability Distribution)
• Biến ngẫu nhiên liên tục X nhận các giá trị trong khoảng (-∞,+∞) gọi là
tuân theo quy luật phân phối chuẩn với các tham số 𝜇 và 𝜎 , nếu hàm mật
độ xác suất của nó là:
1 ( )
𝑓 𝑥 = 𝑒
𝜎 2𝜋
• Hàm phân phối xác suất là:

1 ( )
𝐹 𝑥 = 𝑒 𝑑𝑥
𝜎 2𝜋

9
2/22/2021

Quy luật phân phối chuẩn


• Khi X ~ N (𝜇, 𝜎 ), ta có: E(X) = 𝜇 V(X) = 𝜎
• Đường cong mật độ có dạng hình chuông, đối xứng qua đường x = μ và nhận Ox
làm tiệm cận ngang. Đỉnh của hàm mật độ đạt tại:
1
f(x) m𝑎𝑥𝑓 𝑥 = 𝑓 𝜇 =
𝜎 2𝜋
1
𝜎 2𝜋

0 µ x

Quy luật phân phối chuẩn hóa (Standard


Normal Probability Distribution)
• Biến ngẫu nhiên liên tục U nhận các giá trị trong khoảng (-∞,+∞) gọi là
tuân theo quy luật phân phối chuẩn hóa nếu hàm mật độ xác suất của nó,
𝜑(u) là:
1
𝜑 𝑢 = 𝑒
2𝜋
• Hàm phân phối xác suất của biến ngẫu nhiên chuẩn hóa U được ký hiệu
là Φ(u).

Φ 𝑢 = ∫ 𝑒 𝑑𝑢

10
2/22/2021

Quy luật phân phối chuẩn hóa


• Khi U ~ N(0;1), ta có: E(U)=0 V(U)=1
• Đường cong biểu diễn mật độ của U đối xứng qua trục tung và nhận trục
hoành làm tiệm cận ngang, đỉnh đạt tại:
1
m𝑎𝑥𝜑 𝑢 = 𝜑 0 =
𝜑 𝑢 2𝜋

0 u

Quy luật phân phối chuẩn hóa


• Giá trị tới hạn chuẩn mức 𝛼, ký hiệu là 𝑢 là giá trị của biến ngẫu nhiên U có
phân phối chuẩn hóa thỏa mãn: P (U> 𝑢 )= 𝛼, với 0 ≤ 𝛼 ≤ 1
• Các giá trị của 𝑢 được tính sẵn thành bảng.
𝜑 𝑢 𝜑 𝑢
• Tính chất: 𝑢 = −𝑢
• Một số giá trị cơ bản:
• u0,025 = 1,96 P (U>1,96) = 0,025
• u0,05 = 1,645 P (U>1,645) = 0,05
 
• u0,95 = -1,645 P (U>-1,645) = 0,95
𝑢
𝑢 0 𝑢

11
2/22/2021

Quy luật phân phối chuẩn hóa


• Với biến ngẫu nhiên có phân phối chuẩn X ~ N (𝜇, 𝜎 ), có thể thông qua phép
biến đổi thích hợp để đưa về trường hợp biến ngẫu nhiên chuẩn hóa.
𝑥−𝜇
𝑍=
𝜎
• Khi đó, ta có biến ngẫu nhiên chuẩn hóa Z ~ N(0;1).
• Khi X nhận giá trị trong khoảng (a,b) thì:

1 ( ) 𝑏−𝜇 𝑎−𝜇
𝑃 𝑎<𝑋<𝑏 = 𝑓 𝑥 𝑑𝑥 = 𝑒 𝑑𝑥 = Φ −Φ
𝜎 2𝜋 𝜎 𝜎

Với Φ 𝑢 = ∫ 𝑒 𝑑𝑍

Φ −𝑢 = - Φ 𝑢 Với mọi u>5: Φ 𝑢 ≈ Φ 5 = 0,5 Φ 𝑢 = 0,5 + Φ 𝑢

Quy tắc hai xích ma và ba xích ma


• Trong một số trường hợp phải tính xác suất để biến ngẫu nhiên X phân phối
chuẩn nhận giá trị sai lệch so với kỳ vọng toán của nó, tức:
𝑋−𝜇 <𝜀 hay 𝜇 − ε < 𝑋 < 𝜇 + ε
• Do đó, ta có:
𝜀
𝑃 𝑋 − 𝜇 < 𝜀 = 𝑃 𝜇 − ε < 𝑋 < 𝜇 + ε = 2Φ ( )
𝜎
• Quy tắc hai xích ma và ba xích ma
𝑃 𝑋 − 𝜇 < 2𝜎 = 𝑃 𝜇 − 2𝜎 < 𝑋 < 𝜇 + 2𝜎 = 2Φ 2 = 0,9544
𝑃 𝑋 − 𝜇 < 3𝜎 = 𝑃 𝜇 − 3𝜎 < 𝑋 < 𝜇 + 3𝜎 = 2Φ 3 = 0,9972

12
2/22/2021

Quy tắc hai xích ma và ba xích ma


99.72%
95.44%
68.26%

m x
m – 3s m – 1s m + 1s m + 3s
m – 2s m + 2s

Tra bảng giá trị tới hạn phân phối chuẩn hóa

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
. . . . . . . . . . .
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
. . . . . . . . . . .

Với 𝛼 = 0,05, phần diện tích phía trái còn lại là 1-0,05=0,95; giá trị tới hạn
tương ứng là 1,645

13
2/22/2021

Quy luật phân phối t Student


• Biến ngẫu nhiên liên tục T gọi là phân phối theo qui luật Student với n bậc
tự do nếu hàm mật độ xác xuất của nó được xác định như sau:

( )
𝑓 𝑡 = 1+ ∀𝑡
( )

Trong đó: Γ(x) là hàm Gamma.

• Khi đó: E(T) = 0 V(T)=

Quy luật phân phối t Student


( )
• Giá trị tới hạn Studen, ký hiệu là 𝑡 là giá trị của biến ngẫu nhiên T phân
phối theo qui luật Student với n bậc tự do, thỏa mãn:
( )
𝑃(𝑇 > 𝑡 )=𝛼
( ) ( ) 𝑓 𝑡
• Tính chất: 𝑡 = −𝑡

Khi số bậc tự do tăng lên, phân phối


Student hội tụ nhanh về phân phối
chuẩn hóa.  
→ Nếu n khá lớn (n>30) có thể dùng
phân phối chuẩn hóa thay thế cho
𝑡
phân phối Student 𝑡
( ) 0 𝑡
( )

14
2/22/2021

Quy luật phân phối Fisher


• Biến ngẫu nhiên liên tục F gọi là phân phối theo quy luật Fisher với n1 và
n2 bậc tự do nếu hàm mật độ xác suất của nó được xác định là:
0 với x ≤ 0
𝑓 𝑥 =
𝑥
𝐶 với x > 0
(𝑛 + 𝑛 . 𝑥)
𝑛 +𝑛
Γ 2 .𝑛 .𝑛
𝑉ớ𝑖: 𝐶= 𝑛 𝑛
Γ 2 .Γ 2
𝑛 2𝑛 (𝑛 + 𝑛 − 2)
𝐸 𝐹 = 𝑉 𝐹 =
𝑛 −2 𝑛 (𝑛 − 2) (𝑛 − 4)

Quy luật phân phối Fisher


( , )
• Giá trị tới hạn Fisher, ký hiệu là 𝑓 là giá trị của biến ngẫu nhiên F
phân phối theo qui luật Fisher với n1 và n2 bậc tự do, thỏa mãn:
( , )
𝑃(𝐹 > 𝑓 )=𝛼
( , )
• Tính chất: 𝑓 = ( , ) f(x)

( , ) x
𝑓

15
2/22/2021

Những vấn đề chung về điều tra chọn mẫu

 Một số khái niệm liên quan

 Ưu, nhược điểm của điều tra chọn mẫu

 Trường hợp vận dụng điều tra chọn mẫu

 Các cách chọn mẫu

• Phân phối mẫu

• Định lý giới hạn trung tâm

Một số khái niệm liên quan

Điều tra chọn mẫu là loại hình điều tra không toàn bộ, trong đó người ta
chỉ chọn ra một số đơn vị đủ lớn thuộc đối tượng nghiên cứu để tiến hành
điều tra thực tế.

→Các đơn vị này được chọn theo những quy tắc nhất định để đảm bảo tính
đại biểu và kết quả của ĐTCM được dùng để suy rộng cho toàn bộ hiện
tượng.

16
2/22/2021

Một số khái niệm liên quan


Tổng thể chung là tổng thể bao gồm toàn bộ các đơn vị thuộc đối tượng
điều tra.
Tổng thể mẫu là tổng thể bao gồm một số đơn vị nhất định được chọn ra
từ tổng thể chung để tiến hành điều tra thực tế.
Suy rộng (ước lượng): từ các mức độ tính toán được trên các đơn vị điều
tra (tổng thể mẫu) suy ra các tham số tương ứng của toàn bộ hiện tượng
(tổng thể chung).
• Suy rộng số bình quân theo một tiêu thức.
• Suy rộng tỷ lệ theo một tiêu thức.

Một số khái niệm liên quan

Chỉ tiêu Tổng thể chung Tổng thể mẫu

Quy mô N n

Số bình quân µ 𝑥̅

Tỷ lệ theo một tiêu thức p f

𝜎 𝑆
Phương sai
p(1-p) f(1-f)

17
2/22/2021

Ưu, nhược điểm của điều tra chọn mẫu


Ưu điểm
 Tiết kiệm (chi phí, nhân lực)
 Có thể mở rộng nội dung điều tra
 Tài liệu thu được trên mẫu có độ chính xác cao
 Nhanh gọn, đảm bảo tính kịp thời
Nhược điểm
 Không cho biết thông tin đầy đủ về tổng thể
 Không tránh khỏi sai số khi suy rộng
 Kết quả điều tra không thể tiến hành phân tổ theo mọi phạm vi nghiên cứu

Sai số trong điều tra chọn mẫu

• Sai số do đăng ký, ghi chép

• Sai số chọn mẫu

• Vi phạm nguyên tắc chọn mẫu ngẫu nhiên

• Số lượng đơn vị mẫu không đủ lớn

• Kết cấu tổng thể mẫu khác với kết cấu tổng thể chung

18
2/22/2021

Trường hợp vận dụng của điều tra chọn mẫu

• Thay thế cho điều tra toàn bộ

• Kết hợp với điều tra toàn bộ

• Kiểm định giả thuyết thống kê

Các phương pháp chọn mẫu


Chọn ngẫu nhiên (chọn xác suất): là kỹ thuật chọn mẫu mà mỗi đơn vị
trong tổng thể có một xác suất được chọn đã biết và khác 0.
 Các phương pháp chọn mẫu ngẫu nhiên
• Chọn ngẫu nhiên giản đơn
• Chọn hệ thống
• Chọn phân tầng
• Chọn phân cụm
• Chọn nhiều giai đoạn

19
2/22/2021

Các phương pháp chọn mẫu


Chọn phi ngẫu nhiên (chọn phi xác suất): là kỹ thuật chọn mẫu mà các đơn vị
của mẫu được chọn dựa trên những đánh giá cá nhân hoặc sự thuận tiện.
→ Xác suất được chọn của mỗi đơn vị trong tổng thể là không biết.
 Các phương pháp chọn mẫu phi ngẫu nhiên
• Chọn thuận tiên
• Chọn theo chủ đích
• Chọn theo hạn ngạch
• Chọn kiểu quả cầu tuyết

Lưu ý
• Các mẫu ngẫu nhiên là các mẫu được chọn có sử dụng các nguyên lý xác
suất
• Nó cho phép xác định phân phối mẫu của một thống kê mẫu
• Có thể xác định xác suất của bất kỳ sai số chọn mẫu nào và thực hiện suy
luận cho các đặc trưng của tổng thể

20
2/22/2021

Chọn mẫu ngẫu nhiên giản đơn


• Là một trong các phương pháp chọn mẫu phổ biến nhất, gồm:
• Chọn từ tổng thể giới hạn: xác định được qui mô TTC là N
• Chọn lặp (chọn hoàn lại, chọn nhiều lần): mỗi đơn vị của tổng thể có thể
có nhiều hơn 1 cơ hội được chọn vào mẫu nghiên cứu
Số mẫu có thể có: k  ANn  N n
• Chọn không lặp (chọn không hoàn lại, chọn một lần): mỗi đơn vị của tổng
thể chỉ có 1 cơ hội được chọn vào mẫu nghiên cứu
• Số mẫu có thể có: N!
k
n!( N  n)!
• Chọn từ tổng thể vô hạn: không xác định được qui mô TTC

Phân phối mẫu


Phân phối trung bình mẫu: là phân phối xác suất của tất cả cá giá trị có
thể của trung bình mẫu 𝒙
Từ mẫu ngẫu nhiên kích thước n, với các quan sát có giá trị là x1, x2,….xn .
Trung bình mẫu là: x1  x 2  ....  x n
x
n
Giá trị kỳ vọng của 𝑥̅ là trung bình của tổng thể chung 𝜇: E(𝑥̅ ) = m

Độ lệch chuẩn của trung bình mẫu là: 𝜎 ̅ =

𝜎 ̅ còn gọi là sai số chuẩn của trung bình

21
2/22/2021

Phân phối mẫu


Phân phối tỷ lệ mẫu
Từ mẫu ngẫu nhiên kích thước n, x là biến ngẫu nhiên thỏa mãn tiêu thức
nghiên cứu nào đó.
Tỷ lệ mẫu là: n*
f 
n
Giá trị kỳ vọng của tỷ lệ mẫu là tỷ lệ của tổng thể chung p: E(f) = 𝑝

( )
Độ lệch chuẩn của tỷ lệ mẫu là: 𝜎 =

𝜎 còn gọi là sai số chuẩn của tỷ lệ

Phân phối mẫu


• Khi một tổng thể có phân phối chuẩn, phân phối mẫu của 𝑥̅ cũng có phân
phối chuẩn với bất kỳ cỡ mẫu nào.
• Trong phần lớn các ứng dụng, phân phối mẫu của 𝑥̅ có thể được coi là xấp
xỉ chuẩn khi cỡ mẫu từ 30 trở lên.
• Trong trường hợp tổng thể có phân phối lệch nhiều hoặc có lượng biến đột
xuất, cỡ mẫu cần thiết nhỏ nhất là 50.
• Phân phối mẫu của 𝑥̅ có thể được sử dụng để cho biết thông tin xác xuất
về việc trung bình mẫu 𝑥̅ gần với trung bình tổng thể µ như thế nào.
• Phân phối mẫu của 𝒑̄ xấp xỉ phân phối chuẩn nếu np > 5 và n(1 – p) > 5.

22
2/22/2021

Định lý giới hạn trung tâm


• Khi tổng thể không có phân phối chuẩn, định lý giới hạn trung tâm sẽ giúp
xác định hình dáng của phân phối mẫu 𝑥̅

ĐỊNH LÝ GIỚI HẠN TRUNG TÂM


Khi lựa chọn các mẫu ngẫu nhiên kích thước n
từ tổng thể chung, phân phối mẫu của trung bình
mẫu 𝒙 có thể là xấp xỉ phân phối chuẩn khi cỡ mẫu
càng lớn.

Ước lượng kết quả điều tra chọn mẫu


Tổng thể chung Mẫu ngẫu nhiên Tôi tin chắc 95%
rằng trung bình
(Population) (Sample)
của tổng thể
chung m nằm
Trung bình, m, TB = 50
trong khoảng
chưa biết
40 & 60

Lấy mẫu

23
2/22/2021

Ước lượng kết quả điều tra chọn mẫu

 Ước lượng khoảng tin cậy

 Ước lượng số bình quân của tổng thể chung

 Ước lượng tỷ lệ theo một tiêu thức của tổng thể chung

 Xác định quy mô mẫu

Ước lượng khoảng tin cậy

• Đưa ra một khoảng giá trị dựa trên quan sát từ 1 tổng thể mẫu

• Tìm giá trị gần nhất đối với các tham số của tổng thể chung

• Khoảng tin cậy luôn tương ứng với 1 xác suất nhất định

• Xác suất đó không bao giờ đạt 100%

24
2/22/2021

Ước lượng khoảng tin cậy


Thống kê mẫu
Khoảng tin cậy
(Statistics)
(Confidence interval)

Giới hạn tin cậy Giới hạn tin cậy


(Giới hạn dưới) (Giới hạn trên)
Lower limit Upper limit

 Xác suất để tham số của tổng thể chung rơi vào trong khoảng tin cậy gọi là
độ tin cậy (level of confidence), là (1-α)%.
 Ví dụ: 90%, 95%, 99%...

 α là xác suất để tham số của tổng thể chung không rơi vào trong khoảng
tin cậy, gọi là mức ý nghĩa (significance level).

Ước lượng số bình quân và tỷ lệ của TTC


 Công thức ước lượng

𝒙̄ ± Phạm vi sai số chọn mẫu (𝜺𝒙 )

f± Phạm vi sai số chọn mẫu (𝜺𝒇 )

• Để ước lượng khoảng tin cậy cho trung bình của TTC, phạm vi sai số
chọn mẫu phụ thuộc vào độ lệch chuẩn của TTC б hoặc độ lệch chuẩn
của TTM S

25
2/22/2021

Ước lượng số bình quân và tỷ lệ của TTC

Phân phối mẫu Phân phối mẫu


của 𝑥̅ của f

/2 Xác suất /2 /2 Xác suất /2


(1 - ) (1 - )

𝑥̅ p
m
𝑍 .𝜎 𝑧 / 𝜎 𝑧 / 𝜎
⁄ ̅ 𝑍 ⁄ .𝜎 ̅

Ước lượng số bình quân của TTC


Trường hợp đã biết phương sai (б2) (hoặc chưa biết phương sai
nhưng mẫu lớn)
• Khoảng tin cậy hai phía:

x  z / 2 .s x  m  x  z / 2 .s x
• Khoảng tin cậy phía phải:

   m  x  z .s x
• Khoảng tin cậy phía trái:
x  z .s x  m  

26
2/22/2021

Ước lượng số bình quân của TTC


Trường hợp chưa biết phương sai
• Khoảng tin cậy hai phía:

x  t n / 21.s x  m  x  t n / 21.s x
• Khoảng tin cậy phía phải:

   m  x  t n 1.s x
• Khoảng tin cậy phía trái:

x  t n 1.s x  m  

Ước lượng tỷ lệ của TTC


• Khoảng tin cậy hai phía:

f  z / 2 .s f  p  f  z / 2 .s f
• Khoảng tin cậy phía phải:
   p  x  z .s f
• Khoảng tin cậy phía trái:

f  z .s f  p  

27
2/22/2021

Lưu ý

• Hệ số tin cậy zα là giá trị tới hạn mức α của phân phối chuẩn hoá

• Hệ số tin cậy tα là giá trị tới hạn mức α của phân phối Student

• 𝜎 ̅ và 𝜎 là sai số bình quân chọn mẫu (hoặc sai số chuẩn)

Sai số bình quân chọn mẫu


Cách chọn Hoàn lại Không hoàn lại
Suy rộng (chọn nhiều lần) (chọn một lần)

s2 s2 n
sx  sx  (1  )
Số bình quân n n N
S2 S2 n
sx  sx  (1  )
n n N
f (1  f ) f (1  f ) n
Tỷ lệ sf  sf  (1  )
n n N

28
2/22/2021

Lưu ý
• Sự khác biệt giữa hai phương pháp chọn hoàn lại và chọn không hoàn lại
chính là (1 – n/N). Do đó, ta luôn có sai số bình quân chọn mẫu theo cách
chọn hoàn lại lớn hơn sai số bình quân chọn mẫu theo cách chọn không
hoàn lại.
• Khi n nhỏ hơn rất nhiều so với N thì khi đó n/N nhỏ và (1-n/N) gần với 1.
Do vậy có thể chọn theo cách không hoàn lại nhưng sử dụng công thức
của chọn hoàn lại để tính sai số bình quân chọn mẫu cho đơn giản.

Xác định quy mô mẫu

Yêu cầu:

• Sai số nhỏ nhất

• Chi phí thấp nhất

29
2/22/2021

Xác định quy mô mẫu


Cách chọn Chọn hoàn lại Chọn không hoàn lại
Suy rộng (chọn nhiều lần) (chọn một lần)
z 2s 2 N .z 2 .s 2
Bình quân n n
 x2 N . x2  z 2 .s 2
z 2 . p(1  p) N .z 2 . p(1  p )
Tỷ lệ n n 2
 2f  f .N  z 2 . p (1  p)

Xác định quy mô mẫu


Các nhân tố ảnh hưởng tới kích thước mẫu điều tra
• Hệ số tin cậy (z)/Trình độ tin cậy
• Phương sai (độ đồng đều) của tổng thể chung (s2)

• Phạm vi sai số chọn mẫu (𝜀 ̅ hoặc 𝜀 ) (sampling error)

• Phương pháp tổ chức chọn mẫu

s s
 x  z  / 2 .s x  z  / 2 x  t  / 2,(n1) .sx  t  / 2,(n1)
n n
f (1  f )
f  z  / 2 .
n

30
2/22/2021

Lưu ý
Trong trường hợp chưa biết phương sai của TTC, có thể sử dụng một
trong các cách sau:
• Lấy phương sai (s2) lớn nhất trong các lần điều tra trước (nếu có). Trong
trường hợp ước lượng tỷ lệ, chọn tỷ lệ (p) gần 0,5 nhất.
• Lấy phương sai hoặc tỷ lệ của các cuộc điều tra khác có tính chất tương
tự (nếu có)
• Điều tra thí điểm để xác định phương sai.
• Ước lượng phương sai dựa vào khoảng biến thiên

R x max  x min
s 
6 6

Kiểm định giả thuyết thống kê


 Một số vấn đề chung về kiểm định giả thuyết thống kê

 Kiểm định giả thuyết về số trung bình

 Kiểm định giả thuyết về tỷ lệ

31
2/22/2021

Một số vấn đề chung về kiểm định giả


thuyết thống kê
• Giả thuyết thống kê

• Sai lầm và mức ý nghĩa trong kiểm định

• Tiêu chuẩn kiểm định

• Các bước tiến hành kiểm định một giả thuyết thống kê

Giả thuyết thống kê


Tôi cho rằng điểm trung
bình của cả lớp là 8.5!

Giả thiết thống kê là giả định về một vấn đề


nào đó của tổng thể chung.

• Ví dụ: tham số như trung bình, tỷ lệ,


phương sai của TTC, dạng phân phối của
TTC...

• Tham số phải được xác định trước khi © 1984-1994 T/Maker Co.

phân tích.
Thu thập thông tin từ mẫu để rút ra kết luận
về giả thiết cần kiểm định.

32
2/22/2021

Các loại giả thuyết thống kê


 Giả thiết “không”, H0

Đưa ra giả định (bằng số) để kiểm định


VD: Số lượng TV trung bình của các gia đình ở Hà Nội ít nhất
là 3 (H0: µ ≥ 3)
Bắt đầu với giả định giả thiết “không” luôn luôn ĐÚNG.
Luôn luôn có dấu ‘ = ‘
Giả thiết “không” có thể hoặc không thể bác bỏ.

Các loại giả thuyết thống kê

 Giả thiết “đối”, H1

Là sự đối lập với giả thiết “không”


VD: Số lượng TV trung bình trong các hộ gia đình ở Hà Nội ít
hơn 3 (H1: µ < 3)
Không bao giờ có dấu ‘=‘
Giả thiết đối có thể hoặc không thể chấp nhận

33
2/22/2021

Các loại kiểm định

Kiểm định 2 phía là bác bỏ giả thuyết H0 khi tham số đặc trưng của mẫu
cao hơn hoặc thấp hơn so với giá trị của giả thuyết về tổng thể chung.
Kiểm định 2 phía có 2 miền bác bỏ.

Các loại kiểm định

Kiểm định phía trái là bác bỏ giả thuyết H0 khi tham số đặc trưng của
mẫu nhỏ hơn một cách đáng kể so với giá trị của giả thuyết H0. Miền bác
bỏ nằm ở phía trái của đường phân phối.

34
2/22/2021

Các loại kiểm định

Kiểm định phía phải là bác bỏ giả thuyết H0 khi tham số đặc trưng của
mẫu lớn hơn một cách đáng kể so với giá trị của giả thuyết H0. Miền bác
bỏ nằm ở phía phải của đường phân phối.

Sai lầm và mức ý nghĩa trong kiểm định


Sai lầm khi ra quyết định:

• Sai lầm loại 1 là bác bỏ giả thuyết H0 khi nó đúng.

♣Gây ra hậu quả nghiêm trọng

♣Xác suất mắc sai lầm loại 1 là α, gọi là mức ý nghĩa

• Sai lầm loại 2 là không bác bỏ giả thuyết H0 khi nó sai.

♣Xác suất mắc sai lầm loại 2 là β

35
2/22/2021

Sai lầm và mức ý nghĩa trong kiểm định


Mức ý nghĩa α
• Là xác suất bác bỏ H0 khi nó đúng:  = P(Bác bỏ H0/H0 đúng)
Gọi là miền bác bỏ của phân bố mẫu
• Lựa chọn giá trị α
Các giá trị điển hình: 0.01, 0.05, 0.10
• Được chọn trước khi bắt đầu nghiên cứu
• Đưa ra những giá trị tới hạn cho kiểm định

Sai lầm và mức ý nghĩa trong kiểm định

H 0: m ≥ 3  Giá trị
H 1: m < 3 tới hạn
0
Miền bác bỏ 
H 0: m ≤ 3
H 1: m > 3
0
/2
H 0: m  3
H 1: m  3
0

36
2/22/2021

Tiêu chuẩn kiểm định


• Tiêu chuẩn kiểm định là quy luật phân phối xác suất nào đó được dùng
để kiểm định
• Trong tập hợp các kiểm định thống kê có cùng mức ý nghĩa  (có xác suất
mắc sai lầm loại 1 như nhau), kiểm định nào có xác suất mắc sai lầm loại
2 nhỏ nhất sẽ được xem là “tốt nhất”
• Tùy thuộc vào giả thuyết cần kiểm định mà chọn tiêu chuẩn phù hợp.
• Một số quy luật phân phối thông dụng như: quy luật phân phối chuẩn,
phân phối T-Student, phân phối 2, phân phối Fisher...

Các bước tiến hành kiểm định một giả


thuyết thống kê
• Phát biểu giả thuyết H0 và giả thuyết đối H1.
• Định rõ mức ý nghĩa .
• Chọn tiêu chuẩn kiểm định.
• Tính giá trị của tiêu chuẩn kiểm định từ mẫu quan sát.
• Kết luận bác bỏ hay chấp nhận H0 tuỳ theo giá trị của tiêu chuẩn kiểm định rơi
vào miền bác bỏ hay chấp nhận
• Nếu giá trị của tiêu chuẩn kiểm định thuộc miền bác bỏ: H0 sai, bác bỏ giả
thuyết H0, thừa nhận H1.
• Nếu giá trị của tiêu chuẩn kiểm định thuộc miền chấp nhận: với mẫu cụ thể
này chưa đủ cơ sở để bác bỏ H0.

37
2/22/2021

Phương pháp tiếp cận P-value trong kiểm


định giả thuyết
Rất nhiều phần mềm thống kê tính P-value (Sig) khi thực hiện kiểm định giả
thuyết.
P-value là xác suất lớn nhất để có thể bác bỏ giả thuyết H0.
P-value thường được xem như là mức ý nghĩa quan sát.
• Nguyên tắc ra quyết định để bác bỏ giả thuyết H0 với P-value là:
• Nếu P-value lớn hơn hoặc bằng α, chưa đủ cơ sở để bác bỏ H0.
• Nếu P-value nhỏ hơn α, bác bỏ H0.

Phương pháp tiếp cận P-value trong kiểm


định giả thuyết

 Sau khi tính được giá trị của tiêu chuẩn kiểm định từ mẫu quan sát,
tính P-value tùy theo loại kiểm định
• Với kiểm định phía trái, P-value=diện tích của đuôi trái
• Với kiểm định phía phải, P-value=diện tích của đuôi phải
• Với kiểm định hai phía, P-value=2 lần diện tích đuôi trái hoặc phải

38
2/22/2021

Phương pháp tiếp cận P-value trong kiểm


định giả thuyết
 VD. Tiêu chuẩn kiểm định của kiểm định phía phải là z = 1,56. Tính P-value.

P-value = 0.0594 Diện tích phía phải của z = 1,56 là


1 – 0,9406 = 0,0594
1.56 z
0

 VD. Tiêu chuẩn kiểm định của kiểm định hai phía là z = 2,63. Tính P-value.

Diện tích đuôi trái của z = 2,63 là 1-0,9957= 0,0043


0.0043
z P-value là 2x0,0043 = 0,0086
2.63 0

Kiểm định giả thuyết về số trung bình

• Kiểm định trung bình của 1 tổng thể chung

• Kiểm định trung bình của 2 tổng thể (tự đọc)

• Kiểm định trung bình của nhiều tổng thể (tự đọc)

39
2/22/2021

Kiểm định trung bình của 1 tổng thể chung

• Giả sử lượng biến của tiêu thức X trong tổng thể chung phân phối theo
quy luật chuẩn với trung bình là m và phương sai là s2. Ký hiệu: N (m, s2).

• Chưa biết m, nhưng có cơ sở cho rằng nó bằng m0 (H0: m = m0)

• Để kiểm định giả thuyết này, từ TTC, chọn điều tra ngẫu nhiên một mẫu
mẫu gồm n đơn vị và tính được trung bình mẫu là 𝑥̅ .

• Tính tiêu chuẩn kiểm định và kết luận.

Kiểm định trung bình của 1 tổng thể chung

Phương sai của tổng thể chung σ2 đã biết


z
x  μ 0 )
 Tiêu chuẩn kiểm định được chọn là thống kê z:
σ/ n

H0 đúng, z phân phối theo quy luật chuẩn hoá N(0,1).
H0: m ≤ m0
Kiểm định phía phải: Nếu z > Z, bác bỏ H0.
H1: m > m0
H0: m ≥ m0
Kiểm định phía trái: Nếu z < -Z, bác bỏ H0.
H1: m < m0
H0: m = m0
Kiểm định hai phía:
H1: m ≠ m0

40
2/22/2021

Kiểm định trung bình của 1 tổng thể chung

Phương sai của tổng thể chung σ2 chưa biết


x  μ 0 )
 Tiêu chuẩn kiểm định được chọn là thống kê t: t
S/ n
S 
2  ( xi  x ) 2 f i
f i  1

f i

f i  1
x  (x)
2
)
2

 H0 đúng, t phân phối theo quy luật Student với (n - 1) bậc tự do.

H0: m ≤ m0
Kiểm định phía phải: Nếu t > t,(n-1), bác bỏ H0.
H1: m > m0
H0: m ≥ m0
Kiểm định phía trái: Nếu t < -t,(n-1), bác bỏ H0.
H1: m < m0
H0: m = m0
Kiểm định hai phía:
H1: m ≠ m0

Kiểm định giả thuyết về tỷ lệ

• Kiểm định giả thuyết về tỷ lệ của 1 tổng thể chung

• Kiểm định giả thuyết về tỷ lệ của 2 tổng thể (tự đọc)

• Kiểm định giả thuyết về tỷ lệ của nhiều tổng thể (tự đọc)

41
2/22/2021

Kiểm định giả thuyết về tỷ lệ của 1 tổng


thể chung
• Giả sử ở TTC, tỷ lệ theo một tiêu thức A nào đó là p. Nếu p chưa biết song
có cơ sở cho rằng giá trị của nó bằng p0, tức H0: p = p0
• Để kiểm định giả thuyết đó, lấy mẫu ngẫu nhiên kích thước n và thấy có nA
đơn vị có biểu hiện nghiên cứu của tiêu thức A (và n - nA đơn vị không có
biểu hiện đó). Như vậy tỷ lệ mẫu là: f = nA/ n.
• Với n đủ lớn (n.p0  5 và n(1- p0)  5), chọn tiêu chuẩn kiểm định Z:

( f  p0 )
z
p0 ( 1 p0 )
n

Kiểm định giả thuyết về tỷ lệ của 1 tổng


thể chung
• Nếu H0 đúng thì z phân phối theo quy luật chuẩn hoá N(0,1).
• Miền bác bỏ được xây dựng như sau:

H0: p ≤ p0
Kiểm định phía phải: Nếu z > Z, bác bỏ giả thuyết H0.
H1: p > p0

H0: p ≥ p0
Kiểm định phía trái: Nếu z < -Z, bác bỏ giả thuyết H0.
H1: p < p0

H0: p = p0
Kiểm định hai phía: Nếu |z| > Z/2, bác bỏ giả thuyết H0.
H1: p ≠ p0

42

You might also like