TKMT DTTX Slide1

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 31

1

Lấy mẫu
HCMUS 2010 -
Thống kê máy tính
Khái niệm
• Quần thể (population): là nhóm đối tượng
cần tổng quát hóa
• Mẫu (sample): là nhóm đối tượng thực sự
được chọn trong nghiên cứu.
• Lấy mẫu (sampling): là một tiến trình
chọn các mẫu cho mục đích tổng quát
hóa.
• Cơ cấu mẫu: là danh sách các phần tử của
quần thể có thể.
• Thống kê (statistic): là hàm của các quan
sát trong tập mẫu
Ví dụ: trung bình mẫu, phương sai mẫu là các thống kê

HCMUS 2010 - Thống kê máy tính 2


Ví dụ
• Quần thể = các cá nhân có đăng ký điện
thoại (quần thể thực tế)
• Cơ cấu mẫu: giả sử ta chọn cơ cấu mẫu
là danh sách tất cả cá nhân trong niên
giám điện thoại để tiến hành chọn mẫu.
(quần thể có thể)
• Trên thực tế, cơ cấu mẫu sẽ không đúng
với quần thể thực tế vì tại thời điểm
nghiên cứu sẽ có 1 số cá nhân không còn
sử dụng những số điện thọai trên niêm
giám và một số cá nhân khác có đăng ký
nhưng chưa đưa vào niêm giám.

HCMUS 2010 - Thống kê máy tính 3


Lấy mẫu
• Lấy mẫu: là một tiến trình chọn các mẫu cho
mục đích tổng quát hóa.
▫ Lấy mẫu xác suất (probability sampling)
Thủ tục chọn ngẫu nhiên . Xác suất các phần tử
được chọn bằng nhau.
Mẫu chọn được gọi là mẫu ngẫu nhiên
▫ Lấy mẫu không xác suất (non-probability
sampling)
Ví dụ: UBND quận 5 thực hiện khảo sát lấy ý kiến của nhân dân quận 5 về
tình hình trị an hiện tại của quận.
Cách khảo sát 1: tất cả hộ gia đình của quận đều có cơ hội được chọn và
hỏi qua điện thoại. Xác suất 1 hộ gia đình được hỏi là xác định được.
– Lấy mẫu xác suất
Cách khảo sát 2: Bảng câu hỏi được gửi đến các cư dân trong quận dựa
vào 1 mailing list đã có sẵn. Ngoài ra các bảng câu hỏi được đặt ở các
nơi công cộng. Theo cách này, không xác định được 1 cá nhân có thể
trả lời bao nhiêu lần. Xác suất 1 cá nhân được hỏi là không xác định
được. – Lấy mẫu không xác suất
HCMUS 2010 - Thống kê máy tính 4
Ký hiệu
• N = số lượng phần tử trong khung chọn
mẫu/ cơ cấu mẫu (sampling frame)
• n = số lượng phần tử trong tập mẫu
• f = n/N = tỉ lệ lấy mẫu (sampling fraction)

HCMUS 2010 - Thống kê máy tính 5


Phân loại
• Lấy mẫu xác suất (probability sampling)
▫ Thủ tục chọn ngẫu nhiên : Xác suất các phần tử được
chọn vào mẫu đều bằng nhau.
Mẫu chọn được gọi là mẫu ngẫu nhiên
▫ Lấy mẫu ngẫu nhiên đơn giản (simple random sampling)
▫ Lấy mẫu ngẫu nhiên phân tầng (stratified random
sampling)
▫ Lấy mẫu theo cụm (cluster sampling)
▫ Lấy mẫu một cách hệ thống (systematic sampling)
• Lấy mẫu không xác suất (non-probability
sampling)
▫ Lấy mẫu thuận tiện (convenience sampling)
▫ Lấy mẫu phán đoán (judgement sampling)...

HCMUS 2010 - Thống kê máy tính 6


Lấy mẫu xác suất
• Lấy mẫu ngẫu nhiên đơn giản (simple random
sampling)
▫ Chọn n từ cơ cấu mẫu N phần tử sao cho NCn phần tử có
cơ hội chọn ngang nhau
▫ Kỹ thuật chọn
Lottery
Bảng ngẫu nhiên với tỷ lệ mẫu: f = n/N
Phát sinh số mầm s mẫu: nhãn là s+i.n với i=0,1,…,1/f-1
Số ngẫu nhiên
Phát sinh số ngẫu nhiên mẫu: nhãn trùng với số ngẫu
nhiên
• Lấy mẫu ngẫu nhiên phân tầng (stratified random
sampling)
• Lấy mẫu ngẫu nhiên theo cụm (cluster
sampling)
• Lấy mẫu ngẫu nhiên một cách hệ thống
(systematic random sampling)
[Levy & Lemeshow, 1999]
HCMUS 2010 - Thống kê máy tính 7
Lấy mẫu ngẫu nhiên đơn giản không lặp
• Simple random sampling without
replacement (SRS without replacement)
• Chọn tập mẫu gồm n phần tử từ cơ cấu
mẫu gồm N phần tử
▫ Xác suất 1 tập mẫu kích thước n được chọn
là như nhau = ?
▫ Xác suất 1 phần tử trong quần thể được
chọn vào tập mẫu là như nhau = ?

HCMUS 2010 - Thống kê máy tính 8


Kỹ thuật chọn
• Lập cơ cấu mẫu, trong đó các phần tử
đã được đánh số thứ tự
• Chọn ngẫu nhiên n số thứ tự
▫ chọn bằng xổ số
▫ chọn số ngẫu nhiên bằng máy tính
▫ chọn bằng bảng ngẫu nhiên
• Lấy mẫu gồm n phần tử có số thứ tự
tương ứng.

HCMUS 2010 - Thống kê máy tính 9


Ví dụ sử dụng bảng số ngẫu nhiên
• Trong danh sách tên gồm 40 chủ hộ, cần
chọn ngẫu nhiên tên của 10 chủ hộ.
• Đánh số tên chủ hộ từ 1 đến 40
• Chọn vị trí ngẫu nhiên trong bảng để bắt
đầu. Giả sử vị trí chọn được là vị trí 1.
• Lấy lần lượt 2 chữ số liên tiếp trong bảng
ngẫu nhiên, nếu số tạo thành ≤40 thì chọn
tên chủ hộ tương ứng, ngược lại thì bỏ
qua. Lặp lại cho đến khi đủ tên 10 chủ hộ.
[http://conflict.lshtm.ac.uk/page_34.htm]

HCMUS 2010 - Thống kê máy tính 10


Ví dụ sử dụng bảng số ngẫu nhiên

HCMUS 2010 - Thống kê máy tính 11


Ví dụ chọn bằng xổ số
• Chọn xổ số 10 lá phiếu trong các lá phiếu
từ 1 đến 40
• Chọn tên 10 chủ hộ tương ứng với 10 số đã
chọn

HCMUS 2010 - Thống kê máy tính 12


Ví dụ sử dụng máy tính
- Dùng R chọn ngẫu nhiên 10 số từ 1 đến 40
sample(1:40,10)
- Chọn tên 10 chủ hộ tương ứng với 10 số
vừa phát sinh

sample(c(“H”,”T”),10,replace=TRUE,prob=c(0.9,0.1)) 13
Ví dụ lấy mẫu ngẫu nhiên đơn giản
Cần khảo sát các khách hàng của công ty, biết
danh sách khách hàng gồm N=1000. Ta lấy mẫu
gồm 100 khách hàng để thực hiện khảo sát
(n=100).
- Dùng R phát sinh ngẫu nhiên 100 phần tử
đánh thứ tự từ 1 đến 1000.
> N<-1000
> n<-100
> sample(1:N,n,replace=FALSE)

- Chọn các khách hàng có số thứ tự như đã phát


sinh.

HCMUS 2010 - Thống kê máy tính 14


Ví dụ lấy mẫu ngẫu nhiên đơn giản
sample(x, size, replace = FALSE, prob = NULL)
replace = TRUE: lấy mẫu có lặp lại
replace=FALSE: lấy mẫu không lặp lại

Vd1: Dùng R chọn ngẫu nhiên 5 số từ 1 đến 40


sample(1:40,5)

Vd2: Dùng R giả lập thí nghiệm tung đồng xu 10 lần


sample(c(“H”,”T”),10,replace=TRUE)

Vd3: Dùng R giả lập thí nghiệm tung đồng xu 10 lần,


biết khả năng tung mặt ngửa là 90%, mặt sấp là 10%
sample(c(“H”,”T”),10,replace=TRUE,prob=c(0.9,0.1))
Lưu ý: Dữ liệu vector: là một mảng. Khởi tạo vector:
1) Bằng cách nối kết: c(phần tử 1, phần tử 2,…). Vd: c(“H”,”T”): tạo vector 2 phần
tử
2) 1:10: tạo mảng từ 1 đến 10

sample(c(“H”,”T”),10,replace=TRUE,prob=c(0.9,0.1)) 15
Ưu – khuyết
• Ưu điểm: đơn giản
• Khuyết điểm
▫ Phải lập cơ cấu mẫu (khung chọn mẫu)
▫ Hao phí nếu chọn ngẫu nhiên được các
phần tử của quần thể nhưng các phần tử đó
ở rất cách xa nhau về mặt địa lý, rất khó thu
thập thông tin

HCMUS 2010 - Thống kê máy tính 16


Lấy mẫu ngẫu nhiên một cách
hệ thống (systematic random sampling)
• Cần chọn mẫu gồm n phần tử từ cơ cấu
mẫu N phần tử
• Tính khoảng cách lấy mẫu k=N/n
• Chọn ngẫu nhiên vị trí lấy mẫu i đầu tiên
(1 ≤ i ≤ k)
• Chọn mẫu gồm phần tử thứ
{i,i+k,i+2k,…,i+(n-1)k}

HCMUS 2010 - Thống kê máy tính 17


Ví dụ
• Trong danh sách
tên gồm 40 chủ
hộ, cần chọn
ngẫu nhiên tên
của 10 chủ hộ.
• Tỉ lệ lấy mẫu
f=?
• Khoảng cách
lấy mẫu k=?

HCMUS 2010 - Thống kê máy tính 18


Ưu – Khuyết
• Không thích hợp khi khảo sát các đặc
trưng có tính chu kỳ

HCMUS 2010 - Thống kê máy tính 19


Lấy mẫu ngẫu nhiên phân tầng
(stratified random sampling)
• Cần khảo sát về khuynh hướng sử dụng mỹ
phẩm của các nữ tiếp viên hàng không của
một hãng bay XYZ với các độ tuổi khác nhau
• Giả sử biết số lượng nữ tiếp viên trong các độ
tuổi:
▫ Tuổi 18-22 – 6% - Tuổi 22-24 – 58%
▫ Tuổi 24-28 – 20% - Tuổi 28-32 – 12%
▫ Tuổi 32-36 – 4%.
• Nếu chọn cách lấy mẫu SRS hoặc lấy mẫu
có hệ thống, có đảm bảo trong tập mẫu sẽ
có các phần tử thuộc đủ các độ tuổi?

HCMUS 2010 - Thống kê máy tính 20


Cách lấy mẫu
• Phân hoạch quần thể thành các nhóm nhỏ,
gọi là các tầng (strata). Trong mỗi tầng
(stratum) gồm các phần tử thuần nhất về 1
tính chất nào đó.
• Trong mỗi tầng (stratum), thực hiện lấy
mẫu ngẫu nhiên đơn giản
▫ Nếu tỉ lệ lấy mẫu ở các tầng đều giống
nhau: proportionate stratified random
sampling
▫ Nếu tỉ lệ lấy mẫu ở các tầng khác nhau:
disproportionate stratified random sampling

HCMUS 2010 - Thống kê máy tính 21


Ví dụ
• Giả sử cần lấy mẫu gồm 100 phần tử
• Phân hoạch thành các tầng:
▫ Tuổi 18-22 – 6%
▫ Tuổi 22-24 – 58%
▫ Tuổi 24-28 – 20%
▫ Tuổi 28-32 – 12%
▫ Tuổi 32-36 – 4%.
(Trong mỗi tầng, các phần tử thuần nhất về
độ tuổi)

HCMUS 2010 - Thống kê máy tính 22


Ví dụ (tiếp theo)
• Lấy mẫu phân tầng theo tỉ lệ/ không theo
tỉ lệ:
Stratum 18-22 22-24 24-28 28-32 32-36
Số lượng quần 60 580 200 120 40
thể
Tỉ lệ lấy mẫu f 1/10 1/10 1/10 1/10 1/10
Số phần tử lấy 6 58 20 12 4
mẫu

Stratum 18-22 22-24 24-28 28-32 32-36


Số lượng 60 580 200 120 40
quần thể
Tỉ lệ lấy mẫu f 1/6 5/58 1/10 1/12 1/4
Số phần tử 10 50 20 10 10
lấy mẫu
HCMUS 2010 - Thống kê máy tính 23
Ưu – Khuyết
• Độ chính xác cao hơn do trong một tầng,
các phần tử có cùng 1 tính chất, độ biến
động dữ liệu sẽ thấp hơn nếu xét trên toàn
quần thể.
• Phức tạp hơn do phải định nghĩa strata

HCMUS 2010 - Thống kê máy tính 24


Lấy mẫu theo cụm (cluster
sampling)
• Phân hoạch quần thể thành các cụm
(cluster)
• Trong mỗi cụm, các phần tử nên đa dạng
về tính chất.
• Chọn ngẫu nhiên các cụm (dùng SRS hoặc
systematic random)
• Trong từng cụm, lấy toàn bộ các phần tử
(nếu có thể) hoặc chọn mẫu trong từng
cụm.

HCMUS 2010 - Thống kê máy tính 25


Ưu điểm – Khuyết điểm
• Dễ dàng, tiết kiệm thời gian, chi phí, đặc
biệt khi quần thể trải rộng theo vị trí địa lý
• Không cần phải có cơ cấu mẫu
• Có thể dễ dàng lấy thêm mẫu
• Các phần tử trong một cụm có khuynh
hướng có một số tính chất chung nào đó,
do đó có khả năng làm lệch kết quả nghiên
cứu.
• Độ chính xác thấp hơn so với SRS,
systematic sampling

HCMUS 2010 - Thống kê máy tính 26


Lấy mẫu phi xác suất
• Lấy mẫu thuận tiện (convenience
sampling)
▫ Một phương pháp lấy mẫu phi xác suất
theo đó các phần tử được chọn vào mẫu
dựa trên cơ sở thuận tiện
• Lấy mẫu phán đoán (judgement sampling)
▫ Một phương pháp lấy mẫu phi xác suất
theo đó các phần tử được chọn vào mẫu
dựa trên sự phán đoán của người thực hiện
nghiên cứu

HCMUS 2010 - Thống kê máy tính 27


Xử lý mẫu
• Giá trị bất thường (giá trị ngoại lệ, outlier): là
giá trị có sự sai lệch quá rõ ràng so với các giá
trị khác.
• Mẫu bất thường là mẫu mang giá trị bất
thường.
▫ Phát hiện mẫu bất thường
▫ Xử lý mẫu bất thường
Thông tin nhiễu
Trường hợp đặc biệt cần chú ý
• Xử lý mẫu bất thường
▫ Thực hiện nhiều lần
▫ Trắc nghiệm loại giá trị bất thường
Sắp tăng và loại
▫ Các phương pháp kiểm định
HCMUS 2010 - Thống kê máy tính 28
Dixon's Q test
• Dixon's Q test, or simply the Q test, is used
for identification and rejection of outliers. Per
Dean and Dixon, and others, this test should
be used sparingly and never more than once
in a data set. To apply a Q test for bad data,
arrange the data in order of increasing values
and calculate Q as defined:

• Where gap is the absolute difference between


the outlier in question and the closest number
to it. If Q > Qtable, where Qtable is a reference
value corresponding to the sample size and
confidence level, then reject the questionable
point.
HCMUS 2010 - Thống kê máy tính 29
Dixon's Q test
• Consider the data set:

• Now rearrange in increasing order:

• We hypothesize 0.167 is an outlier.


Calculate Q:

• With 10 observations and at


90% confidence, Q = 0.455 > 0.412 = Qtable, so
we conclude 0.167 is an outlier. However, at
95% confidence, Q = 0.455 < 0.466 = Qtable 0.167
is not considered an outlier.
HCMUS 2010 - Thống kê máy tính 30
Dixon's Q test
• This table summarizes the limit values of
the test.
Number
of
3 4 5 6 7 8 9 10
values:

Q90%: 0.941 0.765 0.642 0.560 0.507 0.468 0.437 0.412

Q95%: 0.970 0.829 0.710 0.625 0.568 0.526 0.493 0.466

Q99%: 0.994 0.926 0.821 0.740 0.680 0.634 0.598 0.568

HCMUS 2010 - Thống kê máy tính 31

You might also like