Download as pdf or txt
Download as pdf or txt
You are on page 1of 13

Chương

Chương 4. CƠ SỞ LÝ THUYẾT MẪU


▪ Giới thiệu phương pháp nghiên cứu phổ biến trong
thực tế là phương pháp lấy mẫu và phân tích trên
mẫu để suy đoán về thông tin của toàn bộ tổng thể
▪ Các đại lượng tính toán trên mẫu là các con số tổng
hợp quan trọng sử dụng trong phân tích, so sánh,
đánh giá các vấn đề kinh tế-xã hội, kinh doanh
▪ Kết hợp sử dụng phần mềm chuyên dụng như Excel,
SPSS, STATA, R

XÁC SUẤT THỐNG KÊ 125

125

NỘI DUNG CHƯƠNG 4

▪ 4.1. Khái niệm phương pháp mẫu


▪ 4.2. Tổng thể nghiên cứu
▪ 4.3. Mẫu ngẫu nhiên
▪ 4.4. Thống kê

XÁC SUẤT THỐNG KÊ 126

126

4.1. KHÁI NIỆM PHƯƠNG PHÁP MẪU


▪ Nghiên cứu một vấn đề thông qua các dấu hiệu
▪ Dấu hiệu có thể định tính hoặc định lượng
▪ Nghiên cứu toàn bộ: Tổng thể, gặp nhiều khó khăn:
• Chi phí lớn, có thể không khả thi
• Sai sót khi thu thập, có thể phá hủy tập hợp
▪ Do đó nghiên cứu một số phần tử đại diện: Mẫu
▪ Đại lượng tính trong tổng thể gọi là Tham số, tính
trong mẫu gọi là Thống kê.

XÁC SUẤT THỐNG KÊ 127

127

1
Chương

Cấu trúc dữ liệu truyền thống


▪ Gồm: Quan sát – Biến – Giá trị
▪ (Observation – Variable – Value)
Biến
Điểm Điểm
TT Họ tên Giới Tuổi …
T.Anh Toán
1 Nguyễn A M 19 A 8 …
Quan sát

2 Trần T. F 20 C 9 …

3 Lê …. M 20 B 7

… … … … … …. ….

XÁC SUẤT THỐNG KÊ 128

128

Phân loại biến


▪ Định tính (Qualitative) và Định lượng (Quantitative)
▪ Biến định tính: Định danh và Thứ bậc
• Định danh (Nominal): VD: Tên, địa chỉ, ngành học
• Thứ bậc (Ordinal): VD: Thứ hạng, cỡ giày,…
• Riêng: Nhị phân (Binary): Đúng / Sai, Nam / Nữ…
▪ Biến Định lượng có đơn vị đo lường
• Rời rạc (Discrete): VD: tuổi, số buổi học,…
• Liên tục (Continuous): VD: thời gian, cân nặng
• Biến định lượng có thể sử dụng để xác định biến định
tính
XÁC SUẤT THỐNG KÊ 129

129

Phân loại biến

Định tính Định lượng

Định danh Thứ bậc Rời rạc Liên tục


Liệt kê Liệt kê, nhóm Liệt kê, nhóm, gộp
Nhóm, gộp Sắp xếp thứ Sắp xếp thứ tự, so sánh
tự, so sánh Tính toán, +, -, × , ÷ ,…

Mã hóa bởi con số Sử dụng để xếp hạng

XÁC SUẤT THỐNG KÊ 130

130

2
Chương

4.2. TỔNG THỂ NGHIÊN CỨU


▪ Toàn bộ tập hợp các phần tử đồng nhất theo một
dấu hiệu nghiên cứu nào đó được gọi là tổng thể
(population)
▪ Kích thước tổng thể (population size): N
▪ Dấu hiệu lượng hóa được: X
▪ X = {x1, x2, … , xN }

XÁC SUẤT THỐNG KÊ 131

131

Mô tả tổng thể

▪ Nếu X chỉ gồm k giá trị khác nhau: x1, x2,…, xk


▪ Số lượng tương ứng là N1, N2,…, Nk
▪ Ni gọi là tần số tổng thể của xi
▪ Đặt pi = Ni / N gọi là tần suất tổng thể
0  Ni  N

Giá trị x1 x2 … xk  k
 i =1 Ni = N

Tần số N1 N2 … Nk
Tần suất p1 p2 … pk 0  pi  1

 k
 i =1 pi = 1

XÁC SUẤT THỐNG KÊ 132

132

Tham số đặc trưng của tổng thể


▪ Trung bình tổng thể (population mean): m
1 N
m=  xi
N i =1
• Chứng minh được: m = E(X)
▪ Phương sai tổng thể (population variance): σ2
1 N
σ2 =  ( xi − m)2
N i =1
• Chứng minh được: σ2 = V(X)

XÁC SUẤT THỐNG KÊ 133

133

3
Chương

Tham số đặc trưng của tổng thể


▪ Độ lệch chuẩn tổng thể: σ
σ = σ2

▪ Tần suất tổng thể (population proportion): p


• Số phần tử chứa dấu hiệu (hay biến cố) A là MA
MA
p=
N
• Dễ thấy: p = P(A)

XÁC SUẤT THỐNG KÊ 134

134

4.3. MẪU NGẪU NHIÊN

▪ Nghiên cứu qua mẫu (sample)


▪ Mẫu ngẫu nhiên kích thước n là tập hợp của n biến
ngẫu nhiên độc lập X1, X2, …, Xn được thành lập từ
biến ngẫu nhiên trong tổng thể và có cùng quy luật
phân phối xác suất với X.
▪ Ký hiệu: W = (X1, X2, …, Xn)
▪ E(Xi) = E(X) = m
▪ V(Xi) = V(X) = σ2 i = 1, 2,…, n

XÁC SUẤT THỐNG KÊ 135

135

Các phương pháp lấy mẫu


▪ Lấy mẫu giản đơn (simple sampling)
▪ Lấy mẫu hệ thống (systematic sampling)
▪ Lấy mẫu chùm (quote sampling)
▪ Lấy mẫu phân tổ (cluster sampling)
▪ Lấy mẫu nhiều cấp (stratiffed sampling)

XÁC SUẤT THỐNG KÊ 136

136

4
Chương

Mẫu cụ thể
▪ Gồm n quan sát (n con số): w = (x1, x2,…, xn)
▪ Nếu chỉ gồm k giá trị khác nhau: x1, x2,…, xk với số
lượng tương ứng: n1, n2,…, nk
▪ ni là tần số mẫu của xi (frequency)
▪ Đặt fi = ni / n : tần suất mẫu (sample proportion)

Giá trị x1 x2 … xk
i =1 ni = n
k
Tần số n1 n2 … nk
i =1 fi = 1
k
Tần suất f1 f2 … fk

XÁC SUẤT THỐNG KÊ 137

137

Mô tả mẫu cụ thể

▪ Có thể dùng bảng tần số, tần suất, tần suất tích lũy
▪ Dùng đồ thị: đồ thị tròn, đồ thị cột, đồ thị phân phối
giá trị, đồ thị radar,…
▪ Nếu số liệu theo khoảng (biến ngẫu nhiên gốc được
coi là liên tục) thì lấy giá trị chính giữa làm đại diện
▪ Ví dụ: Mẫu liệt kê: w=(21;20.5;22;23;23.5;23.9;…)

Khối lượng (g) 20-22 22-24 24-26 26-28 28-30


Số sản phẩm 2 5 8 7 3

XÁC SUẤT THỐNG KÊ 138

138

6.4. THỐNG KÊ
▪ Một hàm G của các giá trị trong mẫu là một thống kê
(statistic)
G = G(X1, X2,…, Xn)
▪ Vì mẫu ngẫu nhiên nên G là ngẫu nhiên
▪ Mẫu cụ thể: thống kê là số cụ thể, giá trị quan sát
Gqs = g = G(x1, x2, …, xn)
▪ Thống kê trong mẫu thường tương ứng với một
tham số trong tổng thể

XÁC SUẤT THỐNG KÊ 139

139

5
Chương

Thống kê mô tả bằng số
▪ Xu thế trung tâm: Trung bình, trung vị, mốt, …
▪ Các vị trí: Tứ phân vị, các phân vị, …
▪ Đo độ phân tán: Phương sai, độ lệch chuẩn, hệ số
biến thiên, khoảng biến thiên, khoảng tứ phân vị, ...
▪ Hình dáng phân phối: Hệ số bất đối xứng, hệ số
nhọn

XÁC SUẤT THỐNG KÊ 140

140

ഥ)
Trung bình mẫu ( 𝐗
▪ Trung bình mẫu ngẫu nhiên (sample mean)
1 n
X=  Xi
n i =1
▪ 𝑋ത là biến ngẫu nhiên:
σ2 σ
E (X ) = m; V (X ) = ; σX =
n n
▪ Kích thước mẫu càng lớn thì phương sai của trung
bình mẫu càng nhỏ

XÁC SUẤT THỐNG KÊ 141

141

Trung bình mẫu


▪ Với mẫu cụ thể
1 n
 xi
x=
n i =1
▪ Nếu mẫu phân thành k nhóm:
1 k
x =  ni xi
n i =1

XÁC SUẤT THỐNG KÊ 142

142

6
Chương

Độ lệch bình phương trung bình (MS)


▪ Tổng bình phương sai lệch (sum of squares)
n
SS =  ( X i − X )2
i =1

▪ Độ lệch bình phương trung bình (mean of squares)


SS 1 n
MS = =  ( X i − X )2
n n i =1
n−1 2
▪ Khi đó: E (MS ) = σ
n

XÁC SUẤT THỐNG KÊ 143

143

Phương sai mẫu – Độ lệch chuẩn mẫu

▪ Phương sai mẫu (sample variance) S2


SS 1 n
S2 = =  ( X i − X )2
n − 1 n − 1 i =1
▪ Hay: n
S2 = MS
n−1

▪ Suy ra: E(S2) = 2


▪ Độ lệch chuẩn mẫu: 𝑺 = 𝑺𝟐

XÁC SUẤT THỐNG KÊ 144

144

Phương sai mẫu – độ lệch chuẩn mẫu


▪ Với mẫu cụ thể: Phương sai s2
1 n
s2 =  ( xi − x )2
n − 1 i =1

▪ Hoặc: s2 =
n
n−1
ms =
n
n−1
(
x 2 − ( x )2 )
1 n 2
với: x2 =  xi
n i =1

▪ Độ lệch chuẩn mẫu cụ thể: : 𝒔 = 𝒔𝟐

XÁC SUẤT THỐNG KÊ 145

145

7
Chương

Phương sai mẫu – độ lệch chuẩn mẫu


▪ Nếu mẫu phân thành k nhóm với tần số tương ứng
trong mỗi nhóm là ni :
1 k
s2 =  ni ( xi − x )2
n − 1 i =1
▪ Hoặc: s2 =
n
n−1
(
x 2 − ( x )2 )
1 k
với: x2 =  ni xi2
n i =1

XÁC SUẤT THỐNG KÊ 146

146

Phương sai S*2

▪ Trường hợp đặc biệt: Biết trung bình tổng thể m


▪ Có thể tính phương sai S*2
1 n
S *2 =  ( X i − m)2
n i =1
▪ Khi đó E(S*2) = σ2
▪ Với mẫu cụ thể
1 n 1 k
s*2 = 
n i =1
( xi − m)2 =  ni ( xi − m)2
n i =1

XÁC SUẤT THỐNG KÊ 147

147

Tần suất mẫu


▪ Trong mẫu kích thước n có XA phần tử có dấu hiệu
(biến cố) A
X
▪ Tần suất mẫu: f = A
n

▪ Nếu P(A) = p thì: E( f ) = p


p(1 − p)
V( f ) =
n
p(1 − p)
σf =
n
XÁC SUẤT THỐNG KÊ 148

148

8
Chương

Ví dụ
▪ Cho kết quả cân thử một số sản phẩm như sau:
Khối lượng (g) 20-22 22-24 24-26 26-28 28-30
Số sản phẩm 2 5 8 7 3
▪ (a) Kích thước mẫu bằng bao nhiêu?
▪ (b) Tính các thống kê: trung bình, phương sai, độ
lệch chuẩn mẫu
▪ (c) Tỷ lệ sản phẩm nặng hơn 26g là bao nhiêu?

XÁC SUẤT THỐNG KÊ 149

149

Trung vị (median) và Mốt (mode)


▪ Trung vị: là giá trị trung tâm của bộ dữ liệu khi dữ liệu được
sắp xếp từ nhỏ nhất đến lớn nhất
𝑛+1
• Khi 𝑛 lẻ, trung vị nhận giá trị tại quan sát thứ 2
•Khi 𝑛 chẵn, trung vị nhận giá trị là trung bình cộng của 2
giá trị đứng giữa.
• Ví dụ với dữ liệu: a) 5, 2, 7, 4, 2 → 2, 2, 4, 5, 7 → 4
b) 3, 8, 12, 14 → 3, 8, 12, 14 → 10
▪ Mốt: Là giá trị xuất hiện ít nhất 2 lần và xuất hiện thường
xuyên nhất trong bộ dữ liệu
• Ví dụ tìm Mốt của số lần mua hàng: 5, 2, 7, 4, 2
→ Mốt = 2
150

150

Các vị trí – Khoảng tứ phân vị


▪ Tứ phân vị (Quartile): 𝑄1 , 𝑄2 , 𝑄3 chia bộ dữ liệu thành 4
phần với số lượng phần tử bằng nhau
Tứ phân vị thứ hai chính là trung vị
▪ Bách phân vị (Percentile): 𝑃1 , 𝑃2 , … , 𝑃99 chia bộ dữ liệu
thành 100 phần với số lượng phần tử bằng nhau
▪ Mở rộng có các phân vị (quantile) mức 𝛽
▪ Khoảng tứ phân vị: (interquartile range - 𝐼𝑄𝑅)
𝐼𝑄𝑅 = 𝑄3 − 𝑄1
▪ 𝐼𝑄𝑅 dùng để đánh giá độ phân tán của bộ dữ liệu
▪ Sử dụng khoảng (𝑄1 − 1,5 × 𝐼𝑄𝑅 ; 𝑄3 + 1,5 × 𝐼𝑄𝑅) là tiêu
chuẩn để xác định giá trị ngoại lai (outlier)

151

151

9
Chương

Khoảng biến thiên-Hệ số biến thiên


▪ Thống kê đơn giản nhất đo độ biến động của bộ dữ liệu là
khoảng biến thiên:
▪ Range = Giá trị lớn nhất – Giá trị nhỏ nhất
▪ Hệ số biến thiên:
𝑠
▪ 𝑪𝑽 = × 100%
|𝑥|ҧ

152

152

Giá trị chuẩn hóa


▪ Giá trị chuẩn hóa (Z-score)
𝑥𝑖 − Trung bình
𝑧𝑖 =
Độ lệch chuẩn
▪ Z-score có trung bình bằng 0, phương sai bằng 1
▪ Ví dụ. So sánh điểm số của 1 sinh viên với hai môn
học qua giá trị chuẩn hóa Vi mô Vĩ mô
Điểm 8 9
Trung bình cả lớp 7 7,5
Độ lệch chuẩn cả lớp 0,5 1,5
153

153

Thống kê mô tả hình dáng phân phối


Hệ số bất đối xứng mẫu Hệ số nhọn mẫu
Skewness Kurtosis
σ 𝑥𝑖 − 𝑥ҧ 3 /𝑛 σ 𝑥𝑖 − 𝑥ҧ 4 /𝑛
𝑎3 = 𝑎4 =
𝑠3 𝑠4
▪ Skewness > 0: lệch phải, đuôi phải
▪ Skewness < 0: lệch trái, đuôi trái
▪ Hàm Excel: Skew(data) và Kurtoris(data)
▪ Excel hiệu chỉnh
𝑛 σ 𝑥𝑖 −𝑥ҧ 3 𝑛(𝑛+1) σ 𝑥𝑖 −𝑥ҧ 4 3 𝑛−1 2
𝑎3𝐸𝑥𝑐𝑒𝑙 = 𝑛−1 𝑛−2 𝑠 3
; 𝑎4𝐸𝑥𝑐𝑒𝑙 = (𝑛−1)(𝑛−2)𝑠 4
− (𝑛−2)(𝑛−3)
154

154

10
Chương

TÍNH TOÁN TRÊN EXCEL

▪ Hàm thống kê trên Excel: AVERAGE, MODE,


MEDIAN, VAR, STD.DEV,…
▪ Data > Data Analysis > Descriptive Statistics
Mean 25.32 Skewness -0.15631
Standard Error 0.457238 Range 8
Median 25 Minimum 21
Mode 25 Maximum 29
Standard Deviation 2.28619 Sum 633
Sample Variance 5.226667 Count 25
Kurtosis -0.57901 Conf. Level (95.0%) 0.943693
155

155

QUY LUẬT PHÂN PHỐI XÁC SUẤT

▪ Sử dụng thống kê trong mẫu để phản ánh về tham


số trong tổng thể.
▪ Cần có quy luật thể hiện mối liên hệ giữa các đại
lượng này.
▪ Quy luật liên hệ này phụ thuộc vào quy luật phân
phối xác suất của chính biến ngẫu nhiên X
▪ Dấu hiệu định lượng: thường dùng biến phân phối
Chuẩn N(, σ2)
▪ Dấu hiệu định tính: dùng biến Không một A(p)
XÁC SUẤT THỐNG KÊ 156

156

Biến ngẫu nhiên X phân phối chuẩn


▪ X ~ N(, σ2)
▪ Khi đó (
X ~ N μX , σ 2X ) μX = μ ; σ 2X =
σ2
n
▪ Suy ra:
( X − μ) n
U= ~ N (0, 1)
σ
(n − 1)S 2
χ2 = ~ χ 2 (n − 1)
σ2
( X − μ) n
T= ~ T (n − 1)
S
XÁC SUẤT THỐNG KÊ 157

157

11
Chương

▪ Ví dụ. Chiều dài của một loại sản phẩm là một biến
ngẫu nhiên phân phối Chuẩn với trung bình là 100
cm và phương sai là 16 cm2 .
Kiểm tra ngẫu nhiên 25 sản phẩm.
▪ a) Tính khả năng để chiều dài trung bình của 25 sản
phẩm này lớn hơn 102 cm.
▪ b) Với xác suất là 0,95 thì chiều dài trung bình của
25 sản phẩm trên tối đa là bao nhiêu?

158

158

Hai biến ngẫu nhiên phân phối chuẩn

▪ X1 ~ N(1, σ12) ; X2 ~ N(2, σ22)


▪ Mẫu n1, n2 > 30
( X − X 2 ) − ( μ1 − μ2 )
U= 1 ~ N (0, 1)
(σ12 / n1 ) + (σ22 / n2 )
( X1 − X 2 ) − ( μ1 − μ2 )
T=  N (0, 1)
(S12 / n1 ) + (S22 / n2 )
S12
F= ~ F (n1 − 1, n2 − 1)
S22

XÁC SUẤT THỐNG KÊ 159

159

Biến ngẫu nhiên phân phối A(p)


▪ X ~ A(p), mẫu kích thước n  100, tần suất f
( f − p) n
U= ~ N (0, 1)
p(1 − p)

▪ X1 ~ A(p1), mẫu kích thước n1  100, tần suất f1


▪ X2 ~ A(p2), mẫu kích thước n2  100, tần suất f2
( f1 − f2 ) − ( p1 − p2 )
U= ~ N (0, 1)
p1 (1 − p1 ) p2 (1 − p2 )
+
n1 n2
XÁC SUẤT THỐNG KÊ 160

160

12
Chương

▪ Ví dụ. Tỉ lệ phế phẩm của nhà máy A là 10%. Lấy


ngẫu nhiên 100 sản phẩm của nhà máy này.
▪ a) Tính xác suất để trong số sản phẩm lấy ra có ít
nhất là 15% phế phẩm.
▪ b) Với xác suất là 0,9 thì trong mẫu trên có tối đa là
bao nhiêu phế phẩm?

161

161

SUY DIỄN VỀ MẪU

▪ Khi biết các tham số và quy luật phân phối xác suất
của tổng thể, với mức xác suất (1 − 𝛼) cho trước,
suy đoán về một số thống kê của mẫu ngẫu nhiên.
▪ Suy diễn về trung bình mẫu 𝑋ത rút ra từ tổng thể
phân phối chuẩn đã biết  và σ2
▪ Suy diễn về phương sai mẫu S2 rút ra từ tổng thể
phân phối chuẩn đã biết  và σ2
▪ Suy diễn về tần suất mẫu f rút ra từ tổng thể phân
phối Không-một đã biết p

XÁC SUẤT THỐNG KÊ 162

162

Tóm tắt chương

Tổng Mẫu ngẫu Mẫu cụ Quy luật


Đại lượng
thể nhiên thể liên hệ

N(0,1)
Trung bình  𝑋ത 𝑥ҧ
T(n – 1)
Phương sai σ2 S2 s2
2(n – 1)
Độ lệch chuẩn σ S s
Tần số MA XA xA
N(0,1)
Tần suất p f f

XÁC SUẤT THỐNG KÊ 163

163

13

You might also like