Download as pdf or txt
Download as pdf or txt
You are on page 1of 101

CHƯƠNG 6

QUÁ TRÌNH XỬ LÝ DỮ LIỆU

1
SINH VIÊN cần NẮM

• Nhận biết những sai sót tiềm ẩn trong dữ


liệu đã thu thập và xử lý các sai sót đó.
• Xây dựng được bảng mã và thực hiện mã
hóa dữ liệu.
• Thực hiện một số phương pháp phân tích
định lượng cơ bản.

2
TÀI LIỆU

• SPSS – Hoàng Trọng & Chu Nguyễn Mộng Ngọc.


• SPSS – George A.Morgan, Nancy L.Neech, Gene
W.Gloeckner, Karen C.Barrett.
• SPSS for Introductory Statistics – Use and
Interpretation, Second edition, Lawrence Erlbaum
Associates, Publisher Mahwah, New Jersey,
London.
3
QUÁ TRÌNH XỬ LÝ DỮ LIỆU

1. Giá trị hóa dữ liệu (Phê chuẩn dữ liệu).


2. Hiệu chỉnh lại các câu trả lời có thể chấp nhận.
3. Mã hóa dữ liệu.
4. Nhập dữ liệu.
5. Lọc dữ liệu.
6. Lưu trữ dữ liệu.
7. Phân tích dữ liệu.
4
1. GIÁ TRỊ HÓA dữ liệu

• Xem dữ liệu đã thu thập có thực sự có gía trị?


Nếu không thì bỏ.
Xem xét:
1. Dữ liệu thu thập có đúng đối tượng?
2. Các biện pháp thu thập có đúng yêu cầu?

5
2. HIỆU CHỈNH Dữ Liệu

Tại hiện trường (Hiệu chỉnh sơ bộ):


- Đảm bảo thủ tục phỏng vấn phù hợp.
- Sửa chữa các sai sót khi lấy số liệu thực địa.
Các sai sót thường gặp:
- Người được phỏng vấn có phù hợp không?
- Trả lời có đầy đủ không?
- Câu trả lời có rõ không hay có đúng không (quan
trọng đối với những câu hỏi mở)? 6
2. HIỆU CHỈNH Dữ Liệu
PVV chỉnh ngay sau khi kết thúc phỏng vấn:
- Phỏng vấn lại các câu hỏi bỏ sót;
- Chỉnh các phần viết tắt, ký hiệu, viết chưa kịp.
Giám sát viên hiệu chỉnh khi các PVV nộp bảng câu
hỏi đã hiệu chỉnh. Sẽ kiểm tra:
- Hoàn tất?
- Phỏng vấn nghiêm túc?
- Rõ ràng?
- Hợp lý? 7
2. HIỆU CHỈNH DỮ LIỆU

(2) Tại trung tâm:

• Kiểm tra toàn bộ các lỗi & nhất là tính hợp lý giữa
n bảng câu hỏi.
NOTE:
• Việc hiệu chỉnh phải rất thận trọng.

8
3. MÃ HÓA DỮ LIỆU
• Là quá trình chuyển đổi các câu trả lời thành
dạng mã số để thuận lợi cho việc nhập & xử lý
dữ liệu.
• Với các câu hỏi đóng việc mã hóa thực hiện
một lần trước khi tiến hành thu thập thông tin.

• Với câu hỏi mở phải mã hóa hai lần:


(1) Tạo mã trước khi phỏng vấn thông qua
9
việc dự đoán trước các trả lời sẽ xuất hiện.
CÁCH THỨC ĐỂ TẠO LẬP MÃ
Với từng câu hỏi, ấn định trước bao nhiêu
người có thể trả lời như vậy người nghiên
cứu chỉ đơn giản ghi mã lên bảng câu hỏi.
A/C có mua dầu nhớt Castrol không?
Q1 (1) Có (2) Không
A/C có mua dầu nhớt BP không?
Q2 (2) Có (2) Không
Single-answer
10
3. MÃ HÓA DỮ LIỆU

• A/C đã từng mua những nhãn hiệu dầu nhớt nào


sau đây? (có thể chọn nhiều hơn 1)
(1) Castrol (2) BP (3) Shell
(4) Total (5) Mobil (6) Catex
(7) Khác

Multiple-answer
11
3. MÃ HÓA DỮ LIỆU
• Số kiểu mã hóa phải đủ lớn để bao quát hết các
sự kiện trong dữ liệu, đảm bảo tất cả tình huống
trả lời đều được mã hóa.

• Việc mã hóa không được chồng chéo nhau (Bất


kỳ tình huống trả lời nào chỉ có một mã mà thôi
(Xếp loại này thì không xếp vào loại khác)).
Vd: DN A/C thuộc loại hình nào?
(1) Sản xuất (2) Kinh doanh
(3) Dịch vụ - thương mại. 12
3. MÃ HÓA DỮ LIỆU
• Không được để mở khoảng cách lớp của mã hóa:
VD: 1- 2 triệu >2 tr > 3 triệu
• Nếu có thể được thì khoảng cách các lớp nên
tương đương nhau.

• Mỗi câu hỏi chỉ có một trả lời  Mỗi câu hỏi chứa
đựng một biến số.
• Nếu câu hỏi có nhiều trả lời, mỗi trả lời phải có
nhiều biến tách biệt.
13
4. NHẬP DỮ LIỆU

• Bảng tính đơn là bảng tính để tính toán một biến


số.
• Bảng tính phức tạp là bảng tính thể hiện quan hệ
giữa 2 biến số hay giữa nhiều biến số với nhau.

14
5. LỌC DỮ LIỆU
• Phải kiểm tra độ chính xác của việc nhập dữ liệu.
• Bốc ngẫu nhiên một số bảng câu hỏi & kiểm tra
với số liệu nhập trong máy.
• Rửa dữ liệu: Chạy một số bảng tần số cho từng
biến  Để phát hiện những trị số bất hợp lý.

15
7. PHÂN TÍCH DỮ LIỆU
Nội dung phân tích dữ liệu dựa trên danh mục
nhu cầu thông tin.

Việc phân tích phải được xác định từ trước khi


tiến hành công tác thu thập, không bao giờ chờ
đến khi dữ liệu đã thu thập rồi mới bắt đầu suy
nghĩ về cách phân tích là quá muộn.
16
Các bước phân tích dữ liệu
1. Xác định loại dữ liệu thu thập được.
2. Xác định những nội dung cần phân tích để mô tả kết
quả xử lý dữ liệu.
3. Chọn kỹ thuật phân tích tương thích với yêu cầu của
từng nội dung.
4. Xử lý kết quả.
5. Đọc kết quả xử lý, phát hiện ra những mô hình có
tính qui luật, chọn lựa phép thống kê đủ tin cậy để
kiểm nghiệm kết quả.
6. Viết phần diễn giải. 17
NOTE: PHÂN TÍCH dữ liệu
• Một bảng phân tích tốt, phải bắt đầu từ những
thông tin tổng quát & đơn giản. Mức độ đơn giản
nhất là phân tích từng biến số hay từng câu hỏi 1.
• Sau đó mới xem xét các mối liên hệ đặc biệt &
phức tạp.

Phải trung thực: Không phóng đại/ bóp méo;


Mẫu nhỏ có thể giới hạn thông tin.
18
NOTE: PHÂN TÍCH DỮ LIỆU
• Từ kết quả của mẫu nghiên cứu phải rút ra kết
luận về tổng thể nghiên cứu.
• 2 vấn đề cần làm rõ:
–Trị thống kê của mẫu có thực sự đúng với tổng
thể?
– Nếu có sai lệch thì sai lệch đó là bao nhiêu có
thể chấp nhận được để vận dụng vào thực tế?
 Thông tin từ mẫu sẽ ước lượng thông tin cho
toàn bộ thị trường. Vấn đề này đòi hỏi ước
19
lượng khoảng, ước lượng điểm.
Thang đo ĐỊNH DANH

• Mô tả: TẦN SỐ, %, mode.


• Thuyết trình kết quả: ĐỒ THỊ TRÒN, hoặc CỘT.
• Kiểm định Chi-square:
Kiểm tra xem phân phối quan sát được có khác
đáng kể so với phân phối kỳ vọng không?

20
Nghề nghiệp Tần số %
Q.lý/Doanh nhân 18 11,7
V.chức hành chính 35 22,7
Công nhân kỹ thuật 41 26,6
LĐ đơn giản/Thất nghiệp 12 7,8
Sinh viên 33 21,4
Nghề nghiệp khác 15 9,7
Chỉ có hơn 1/10 trên tổng số người trả lời trong mẫu là DN.
NVHC & SV là 2 nhóm đông gần bằng nhau, mỗi nhóm
chiếm 22%. Hơn ¼ trong mẫu là CNKT. Còn lại là LĐ Đơn
giản, không có việc làm hay rơi vào nhóm nghề nghiệp 21
NOTE khi PHÂN TÍCH dữ liệu

• Tường trình không nên tập trung vào từng con số


mà nhằm vào việc nhận ra các qui luật của dữ liệu,
chỉ cần viết về những con số thể hiện được các ý
chính.

22
Kiểm định Chi-square
• Thang đo định danh.
• Dữ liệu thu thập được xếp theo một tiêu chí/ yếu tố.
• Mỗi quan sát phải và chỉ thuộc về một nhóm mà thôi.
• H0 (Directional hypothesis - giả thuyết định hướng):
Xác suất quan sát rơi vào từng mục như nhau. (Quan
sát thực tế có khác biệt đáng kể so với phân phối kì
vọng).

23
Kiểm định Chi-square

24
Kiểm định Chi-square
Hạng mục 1 2 i Tổng

Số quan sát O1 O2 … Oi n
thực tế

Xác suất p1 p2 pk 1
(H0 )

Số quan sát E1 = E2 = … Ei = n
H0 np1 np2 npi

25
Vd1: Một công ty kinh doanh nước giải khát
muốn kiểm định kích thước chai bằng cách chọn
ngẫu nhiên 500 người tiêu dùng hỏi xem họ thích
mua loại nào trong 4 cỡ chai 200ml, 300ml, 800ml,
1250ml.
Theo kinh nghiệm của công ty về các khách hàng
của mình là 30% - 200ml, 30% - 300ml, 20% -
800ml, 20% -1250ml.

26
Độ tin cậy 95%
df = k -1, k: số hạng mục lựa chọn
Cỡ chai 200ml 300ml 800ml 1250ml

Số quan 140 130 110 120


sát thực
tế
Ho 0,3 0,3 0,2 0,2

Số quan 150 150 100 100


sát Ho
27
VD2: Kiểm nghiệm tại sao c.ty đa quốc gia chọn hình
thức xâm nhập thị trường quốc tế là xuất khẩu bằng
cách pvấn 35 c.ty thấy: 1. Đối phó với thị trường trong
nước đang bị co dần (POAP). 2. Tích cực mở rộng thị
trường để phát triển (IOAP). Độ tin cậy 95%.

Loại chiến lược POAP IOAP


Số quan sát 11 24
thực tế
HO

Số quan sát HO
28
BÀI TẬP
• Một nhà cung cấp tủ lạnh phân chia vùng kinh
doanh ra làm 4 khu vực. Một nhà đầu tư dự định làm
ăn chung với nhà cung cấp, muốn kiểm tra xem số
tủ lạnh bán ra có bằng nhau ở 4 khu vực này hay
không. Để kiểm tra giả thuyết này, nhà đầu tư lấy
một mẫu ngẫu nhiên gồm 40 hồ sơ khách hàng đã
mua ở năm trước và nhận thấy số lượng khách
hàng đã mua tủ lạnh cho từng khu vực phân bố như
sau:
29
Độ tin cậy 95 %
Khu vực A B C D

Số 6 12 14 8
khách
hàng
mua

30
BÀI TẬP

• Một nhà sản xuất đồ gia dụng giới thiệu ra thị


trường 3 loại tủ lạnh A, B, C. Trước đó người ta
quan sát được tỷ lệ bán cho 3 loại này lần lượt như
sau: A = 45%, B = 30%, C = 25%. Sau một chiến dịch
quảng cáo mặt hàng, lấy một mẫu 50 tủ lạnh bán ra
và người ta thấy tỉ lệ như sau: 15, 15, 20. Với độ tin
cậy là 95%, kiểm định giả thiết cho rằng tỷ lệ là
giống nhau cho trước và sau chiến dịch quảng cáo.
(76)
31
Kiểm định TỶ LỆ ĐƠN p
Biến ngẫu nhiên phân phối theo qui
luật 0 - 1

• Kiểm nghiệm giả thiết so sánh giữa tỉ lệ của


tổng thể với 1 giá trị định trước.

Vd: Có phải tỉ lệ số hộ ở TP.HCM có TV lớn hơn


đáng kể so với 50%?

32
Kiểm định TỶ LỆ ĐƠN p
Biến ngẫu nhiên phân phối theo
qui luật 0 - 1

33
Kiểm định TỶ LỆ ĐƠN p
Biến ngẫu nhiên phân phối theo
qui luật 0 - 1

1. H0 : p = p0 Bác bỏ H0 nếu IZI > Z α/2


H1 : p ≠ p0

2. H0 : p ≤ p0 Bác bỏ H0 nếu Z > Z α


H1 : p > p0

3. H0 : p ≥ p0 Bác bỏ H0 nếu Z < - Z α


H1 : p < p0 34
Vd1: Trong một nghiên cứu khám phá, công ty mỹ
phẩm Sài Gòn thấy rằng đa số người tiêu dùng
TP.HCM đều biết thương hiệu “Miss Saigon”. Công
ty lập giả thuyết là mức độ nhận biết thương hiệu
“Miss Saigon” ở TP là rất cao, có thể đạt được từ
80% trở lên. Để kiểm định giả thuyết trên. Chọn mẫu
ngẫu nhiên, 300 người với câu hỏi. “Trong các
thương hiệu sau đây bạn đã biết đến nhãn hiệu loại
nào?.....”. Kết quả 70% người tiêu dùng biết thương
hiệu “MissSG”. Độ tin cậy là 95%. 35
Vd2: Hiện tại cứ trong 10 người uống bia thì chỉ
có một người thích bia nhãn hiệu A. Sau chiến dịch
quảng cáo cho loại bia A, công ty khảo sát một mẫu
ngẫu nhiên 200 người uống bia để kiểm tra hiệu quả
của quảng cáo, thì thấy có 26 người thích loại bia A.
Thông tin này có đủ để kết luận có sự gia tăng tỷ lệ
những người thích uống bia hiệu A? Chọn độ tin
cậy là 90%.

36
BT1: Năm ngoái, tỷ lệ người tiêu dùng ở một
địa phương sử dụng một loại sản phẩm của DN là
35%, nhưng cuộc điều tra năm nay trên 120 người
tiêu dùng được chọn ngẫu nhiên ở địa phương
đó cho thấy tỷ lệ đó là 30%. Liệu có nên cho rằng
tỷ lệ người tiêu dùng sử dụng sản phẩm của DN
ở địa phương đó đã giảm xuống. Với α = 5%.

37
BT3: Một công ty sản xuất vỏ xe hơi chiếm 42%
thị trường (trước đây). Hiện tại, trước sự cạnh
tranh của đối thủ, công ty muốn kiểm tra thị phần
của công ty có còn 42% ? Chọn ngẫu nhiên 550 xe
hơi trên đường, kết quả có 219 xe sử dụng vỏ xe
của công ty. Kết luận gì? Với α = 5%. Hãy xác định
các giới hạn tin cậy?

38
Ước lượng

po = ps + Zα/2 (ps * qs /n)1/2

ps: Xác suất xuất hiện hiện tượng ở mẫu.


po: Xác suất xuất hiện hiện tượng ở tổng
thể.

39
XÁC ĐỊNH KHOẢNG TIN CẬY TỈ LỆ p

• Ta có 25% phần tử trong mẫu (n = 100) ưa


thích nhãn hiệu A. Độ tin cậy là 90%. Vậy có
khoảng bao nhiêu % phần tử trong tổng thể
ưa thích nhãn hiệu A?

40
BÀI TẬP
• Một nhân viên thương mại muốn nghiên cứu thị
trường dao cạo râu. Chọn ngẫu nhiên 100 người
đàn ông trong một thành phố lớn và nhận thấy là
40% người được phỏng vấn sử dụng dao cạo râu
hiệu A. Xác định khoảng tin cậy cho tỷ lệ đàn ông
sử dụng dao cạo râu hiệu A với độ tin cậy là 95%.
(23)

41
BÀI TẬP 2
• Một công ty thuốc lá cho rằng tỷ lệ % nam
giới của thành phố hút thuốc lá ít nhất lớn
hơn 50%. Công ty thuốc lá muốn kiểm tra điều
này. Công ty chọn ngẫu nhiên 250 nam giới,
kết quả có 40% người hút thuốc. Kết luận gì?
Với α = 5%. Hãy xác định các giới hạn tin cậy?

42
THANG ĐO THỨ TỰ

• Trình bày bằng: TẦN SỐ, TỶ LỆ %, % TÍCH LŨY.

• Kiểm định: Kolmogorov – Smirnov.


Kiểm tra xem phân phối quan sát được có khác
đáng kể so với phân phối kỳ vọng không?

43
Kiểm định Kolmogorov–Smirnov

44
α 0,5 0,4 0,3 0,2 0,1 0,05 0,02 0,01 0,001

λα ,828 ,895 ,974 1,073 1,224 1,358 1,520 1,627 1,950

• Vd: Để kiểm nghiệm màu sắc của 1 dạng POP


(A: rất nhạt, B: nhạt, C: đậm, D: rất đậm) chọn 200
người tiêu dùng, trình bày 4 dạng POP’s này và cho
họ chọn dạng họ thích nhất. α = 5%.

45
Màu Tần % % tích luỹ % tích luỹ H0 I F(O) - F(H0)I
số F(O) F(H0 )

A 80

B 60

C 40

D 20

46
Thang đo khoảng & thang đo tỷ lệ

• Mô tả vị trí trung tâm, độ phân tán và hình


dáng của hàm phân phối đám đông.

• Kiểm nghiệm một giá trị trung bình


Kiểm nghiệm giả thiết so sánh giữa giá trị
trung bình của tổng thể với giá trị định trước.

47
CHỈ SỐ THỐNG KÊ

(1) ĐO LƯỜNG MỨC ĐỘ TRUNG TÂM


• Số Trung Bình (dùng để đại diện cho tập dữ liệu):
rất nhạy với Giá trị cực biên  Sử dụng khi hàm
phân phối đối xứng.
• Trung Vị: Không chịu ảnh hưởng của các Giá trị ở
cực biên ie Giá trị quá lớn /quá nhỏ của tập hợp dữ
liệu đó  Số trung vị được dùng để đại diện cho tập
dữ liệu có nhiều Giá trị đặc biệt quá lớn /quá nhỏ.
48
CHỈ SỐ THỐNG KÊ
(1) ĐO LƯỜNG MỨC ĐỘ TRUNG TÂM
• MODE: Gía trị xuất hiện nhiều nhất trong tập hợp
dữ liệu; dùng để đại diện cho tập hợp dữ liệu khi mà
các gía trị trong tập hợp này chênh lệch quá nhiều.

• Nếu Mean & Median xấp xỉ bằng nhau  sử dụng


Mean.
• Nếu Mean & Median khác nhau  sử dụng Median
49
CHỈ SỐ THỐNG KÊ
(2) ĐO LƯỜNG MỨC ĐỘ PHÂN TÁN
• ĐỘ BIẾN THIÊN: Khoảng biến thiên càng lớn thì
các gía trị trong tập hợp dữ liệu càng phân tán.
• PHƯƠNG SAI (Đo lường mức độ phân tán của một
tập số xung quanh Trung Bình của nó): Phương sai
càng lớn thì tập hợp dữ liệu đó có sự chênh lệch về
gía trị giữa các phần tử càng lớn.

50
Kiểm định
GIÁ TRỊ TRUNG BÌNH ĐƠN

• Kiểm nghiệm giả thiết so sánh giữa giá trị


trung bình của tổng thể với giá trị định trước.
Vd: Kiểm nghiệm trung bình thời gian chờ để
được tính tiền ở siêu thị có lâu hơn đáng kể so
với 10 phút không?

• Thang đo khoảng hoặc tỉ lệ. 51


52
Kiểm nghiệm
GIÁ TRỊ TRUNG BÌNH ĐƠN
1. H0 : μ = a0 Bác bỏ H0 nếu IZI > Zα/2
H1 : μ ≠ a0

2. H0 : μ ≤ a0 Bác bỏ H0 nếu Z > Z α


H1 : μ > a0

3. H0 : μ ≥ a0 Bác bỏ H0 nếu Z < - Z α


H1 : μ < a0
53
Ví dụ
• Công ty thiết bị viễn thông ATC đã tiến hành một cuộc
nghiên cứu để tìm hiểu mức độ hài lòng của khách hàng
sau khi thay đổi, cải tiến một số dịch vụ nhằm nâng cao
khả năng đáp ứng yêu cầu khách hàng của họ. Trước
khi cải tiến các dịch vụ, mức độ hài lòng của khách hàng
trung bình là 75 (theo thang điểm từ 0 đến 100). Chọn
ngẫu nhiên 350 khách hàng để tham khảo ý kiến của họ
sau khi các dịch vụ được cải tiến, mức độ hài lòng trung
bình tính được là 82 với độ lệch điều chỉnh mẫu là 8. Với
độ tin cậy 95%, có thể kết luận rằng khách hàng đã được
hài lòng ở mức độ cao hơn không?
• Vd1: Một nghiên cứu khám phá, công ty A thấy
rằng người tiêu dùng Hà Nội rất ưa thích thương
hiệu nước hoa “Miss Sài Gòn”. Do vậy công ty thiết
lập giả thiết: Nếu tung “Miss Sài Gòn” thì sẽ được
thị trường chấp nhận. Để kiểm định giả thiết này,
công ty A nhờ công ty nghiên cứu thị trường thực
hiện với một mẫu ngẫu nhiên n = 300 ở Hà Nội, hỏi
họ: Nếu “Miss Sài Gòn” được tung ra bạn có mua
dùng ngay hay không?
(1) = Chắc chắn không mua,
(5) = Chắc chắn mua. Độ tin cậy = 95%, Trung
bình = 3,98, Độ lệch chuẩn = 0,4 55
56

BÀI TẬP
Một chuyên viên nghiên cứu thị trường muốn
khẳng định lại số liệu thống kê đưa ra bởi phòng
chức năng thành phố A là thu nhập bình quân mỗi
ngày của người dân thành phố ít nhất cũng là
150.000 VNĐ. Chọn một mẫu ngẫu nhiên gồm n = 30
đối tượng và tính được thu nhập bình quân là
140.000 VNĐ và độ lệch chuẩn s = 20.000VNĐ. Giả
thiết người ta không biết độ lệch chuẩn của tổng
thể. Với độ rủi ro là 5%, kiểm tra lại giả thiết. (69) 57
BÀI TẬP
• Theo cơ quan thống kê số liệu thành phố B,
người ta cho rằng thu nhập bình quân hàng ngày
của người dân tối thiểu là 260.000đ. Nghiên cứu
trên một mẫu ngẫu nhiên gồm 36 gia đình cho thấy
thu nhập bình quân hàng ngày là 240.000đ và độ
lệch chuẩn s = 43.000đ. Kiểm tra kết luận đưa ra
bởi cơ quan thống kê 95% (49)

58
Ước lượng

59
XÁC ĐỊNH KHOẢNG TIN CẬY

• Một chuyên viên nghiên cứu thương mại khảo


sát 100 khách hàng trong số 400 khách hàng vào
mua ở cửa hàng. Tính toán trên 100 khách hàng
này cho thấy chi tiêu trung bình để mua hàng là
1000 USD và độ lệch chuẩn là 1500 USD. Xác định
khoảng tin cậy với độ tin cậy 95% giá trị trung
bình đã sử dụng của 400 khách hàng. (8/27)
60
KiỂM NGHIỆM TRUNG BÌNH
• Một công ty viễn thông tiến hành một cuộc khảo
sát để tìm hiểu mức độ hài lòng của khách hàng sau
khi cải tiến một số dịch vụ. Trước khi cải tiến dịch
vụ, mức độ hài lòng của khách hàng trung bình là 75
(thang đo 100 điểm). Chọn ngẫu nhiên 350 khách
hàng để khảo sát, ý kiến của họ về các dịch vụ cải
tiến, mức độ hài lòng trung bình của khách hàng là
82 với độ lệch điều chỉnh mẫu là 8. α = 5% có thể kết
61
luận khách hàng hài lòng ở mức cao hơn?
Kiểm nghiệm sự khác nhau giữa TRUNG
BÌNH của 2 tổng thể

• Kiểm nghiệm giả thiết so sánh giá trị trung


bình tổng thể của 2 tổng thể ĐỘC LẬP.

• Vd: Có phải chi phí cho thuốc men bình


quân đầu người ở TP.HCM cao hơn đáng kể
so với Hà Nội không?

• Thang đo khoảng hoặc tỉ lệ.


62
Kiểm nghiệm 2 TRỊ TRUNG BÌNH
của 2 tổng thể độc lập

63
Kiểm nghiệm 2 TRỊ TRUNG BÌNH
của 2 tổng thể độc lập
1.H0 : μ1 = μ2 Bác bỏ H0 nếu IZI > Z, α/2
H1 : μ1 ≠ μ2

2.H0 : μ1 ≤ μ2 Bác bỏ H0 nếu Z > Z α


H1 : μ1 > μ2

3.H0 : μ1 ≥ μ2 Bác bỏ H0 nếu Z < - Z α


H1 : μ1 < μ2 64
• Vd1: Một hãng viễn thông tiến hành kiểm định
có hay không có sự khác biệt trong thu nhập
trung bình của các khách hàng nam và nữ. Họ
chọn mẫu ngẫu nhiên 200 nam khách hàng và 100
nữ khách hàng. Thu nhập trung bình của các
khách hàng nam là 43.390 $, của nữ là 42.400 $,
SNAM = 7.300 $, SNỮ = 8.200$. Mức ý nghĩa của
kiểm định là 0,05.

65
Khi quảng cáo cần phải nêu rõ lợi ích của sp

(1) Rất phản đối (5) Rất đồng ý


n Trị trung Độ lệch
bình chuẩn

• Nữ 60 4,75 0,571

• Nam 94 4,6809 0,707

Độ tin cậy 90%

66
Khi quảng cáo cần phải nêu rõ nhãn hiệu của sp –
theo trình độ học vấn.
(1) Rất phản đối (5) Rất đồng ý
n Trị trung Độ lệch
bình chuẩn
Dưới trung học 33 4,8182 0,4647
Trung học 52 4,7308 0,5979
Đại học 69 4,6232 0,7297
Độ tin cậy 90%.

67
Kiểm định khác biệt về TRỊ TRUNG giữa
2 câu hỏi có thang đo tương tự nhau
• Kiểm nghiệm giả thiết so sánh 2 trị trung bình
tổng thể của cùng một tập đơn vị mẫu.

• Vd: Trên cơ sở dữ liệu thu thập được từ một


nhóm các hộ gia đình trước và sau một chiến
dịch quảng cáo sản phẩm ABC. Có phải lượng
mua bình quân thay đổi đáng kể trước và sau khi
quảng cáo?
68
Kiểm nghiệm 2 TRỊ TRUNG BÌNH trong
cùng một mẫu

69
Kiểm nghiệm 2 TRỊ TRUNG BÌNH trong
cùng một mẫu

Sd: Độ lệch chuẩn chung.


Ϭd: Độ lệch chuẩn tổng thể của các chênh lệch.
n: cỡ mẫu.
μd: Trung bình của các chênh lệch có từ giả thuyết.
Bậc tự do df = n - 1

70
Kiểm nghiệm 2 TRỊ TRUNG BÌNH trong
cùng một mẫu
1. H0 : μd = 0 Bác bỏ H0 nếu IZI > Zα/2
H1 : μd ≠ 0

2. H0 : μd ≤ 0 Bác bỏ H0 nếu Z > Z α


H1 : μd > 0

3. H0 : μd ≥ 0 Bác bỏ H0 nếu Z < - Z α


H1 : μd < 0

71
n =154;
Độ tin cậy: 90%
Độ lệch chuẩn chung = 1,854;
(1): Rất phản đối (5): Rất đồng ý
Biến Trị trung Độ lệch
bình chuẩn

Khi quảng cáo cần sử


dụng sức thuyết phục
của 1 ngôi sao nổi tiếng 3,3571 1,3399
Khi quảng cáo cần so sánh
trực tiếp giữa 2 sản phẩm 3,4935 1,43
72
Kiểm nghiệm 2 TỈ LỆ
Kiểm định sự khác biệt về tham số tỷ
lệ của 2 mẫu ĐỘC LẬP

• Kiểm nghiệm so sánh tỉ lệ tổng thể của một


biến trong 2 tổng thể khác nhau.

Vd: Có phải tỉ lệ số hộ có 2 người đi làm ở


TP.HCM thấp hơn ở Hà Nội?
73
Kiểm nghiệm 2 TỈ LỆ

74
Kiểm nghiệm 2 TỈ LỆ

1. H0 : p1 = p2 Bác bỏ H0 nếu IZI > Z α/2


H1 : p1 ≠ p2

2. H0 : p1 ≤ p2 Bác bỏ H0 nếu Z > Z α


H1 : p1 > p2

3. H0 : p1 ≥ p2 Bác bỏ H0 nếu Z < - Z α


H1 : p1 < p2

75
Vd1: Nhà nghiên cứu muốn biết liệu tỉ lệ thường
đọc một tờ báo nhất định vào năm 2010 có khác
biệt nhiều so với năm 2008, dựa vào 2 mẫu ngẫu
nhiên.

• n1 = 400 năm 2008, pS1 = 42,5%.

• n2 = 200 năm 2010, pS2 = 35%.

α = 5 %. Liệu sự chênh lệch có đáng kể hay


không?

76
• Vd2: Giả sử một công ty muốn so sánh mức
độ nhận biết nhãn hiệu X của người tiêu dùng Hà
Nội và TP.HCM, α = 10%. Kết quả như sau:
Hà Nội n1 = 200, Số người nhận biết X là 100
người.
TP.HCM n2 = 250, Số người nhận biết X là 110
người.
Liệu sự chênh lệch có đáng kể hay không?

77
BT: Một khu nghỉ dưỡng tiến hành một cuộc khảo
sát sự hài lòng của khách hàng sau khi họ nghỉ
tại đây, trong bảng câu hỏi có một câu hỏi về
việc khách hàng có dự định quay lại đây không?
Có bằng chứng về sự khác biệt trong mức độ hài
lòng của khách hàng ở khu A và B hay không? α
= 10%. Kết quả như sau:

Khu A n1 = 227, số người dự định quay lại là 163


người. Khu B n2 = 262, số người dự định quay lại
78
là 154 người.
Kiểm nghiệm CHI-SQUARE
• Hạn chế của kiểm định Chi–square:

- Chỉ xác định có quan hệ hay không, không


cho biết mức độ tương quan.

- Không thích hợp cho kiểm tra dữ liệu cùng


một biến nhưng được thu thập ở thời điểm
khác nhau.

79
Kiểm nghiệm CHI-SQUARE

80
Độ tin cậy: 90%
Mức độ quan trọng của nhạc nền (trong quảng
cáo) theo giới tính
Giới 2 mức quan Mức trung 2 mức kém
tính trọng hàng bình quan trọng
đầu nhất
Nữ 22 20 18
36,7% 33,3% 30%
50% 52,6% 25%
Nam 22 18 54
23,4% 19,1% 57,4%
81
50% 47,4% 75%
1. Học Lực THU NHẬP TRUNG
GIÀU KHÁ BÌNH NGHÈO
GIỎI

KHÁ

TRUNG
BÌNH
YẾU

2. Học lực Thu nhập Trung


Giàu Khá bình Nghèo

Giỏi
Khá
Trung
bình
Yếu
Độ tin cậy: 90%
Mức độ quan trọng của nhạc nền (trong
quảng cáo) theo giới tính
Giới 2 mức quan Mức trung 2 mức kém
tính trọng hàng bình quan trọng
đầu nhất
Nữ 22 20 18
36,7% 33,3% 30%

Nam 22 18 54
23,4% 19,1% 57,4%
83
BT1: Có 2 sản phẩm A, B. Kiểm nghiệm mối
liên hệ giữa việc chọn sản phẩm và độ tuổi của
người tiêu dùng, mẫu ngẫu nhiên n = 1.140, độ
tin cậy: 95% kết quả như sau:
Độ tuổi Sp A Sp B Tổng

≤ 25 92 172 264

26 - 35 166 211 377

36 - 45 114 97 211

≥ 46 188 100 288

Tổng 560 580 1.140 84


• BT2: Một nhà nghiên cứu thị trường muốn
xác định mối tương quan có thể có giữa kích
cỡ xe hơi và hãng sản xuất đối với các xe mới
được mua trong thời gian gần đây. Một mẫu
1000 xe mới mua trong nước đã chọn ngẫu
nhiên và phân loại theo kích cỡ và hãng sản
xuất. Độ tin cậy: 95% Dữ liệu thu được:

85
Loại xe Hãng A Hãng B Hãng C Hãng D Tổng

Nhỏ 157 65 181 10 413

Trung 126 82 142 46 396


bình

Lớn 58 45 60 28 191

Tổng 341 192 383 84 1000

86
Xe gắn máy
Tên Giá trị Tần số % % tích
hạng lũy
mục
Không 0 10 6,5 6,5

Có 1 144 93,5 100,0

87
Tổng hợp tình trạng sở hữu đối với
14 loại vật dụng
Tần số sở hữu %
Tivi 146 94,8
Xe gắn máy 144 93,5
Đầu video 136 88,3
Tủ lạnh 116 75,3
Bếp gas 75 48,7

Xe hơi 7 4,5
Lò viba 3 1,9 88
PHÂN TÍCH TƯƠNG QUAN

• Để quan sát sự liên kết giữa 2 hay nhiều biến số


học.
• Hệ số tương quan Pearson
(Pearson’s correlation coefficient - r):
Để phát hiện ra mức độ tương quan giữa 2 biến
định lượng (Không có giả thuyết về nhân quả).
• Hệ số tương quan cho biết biên độ và chiều
hướng biến thiên của 2 biến tương quan với nhau.
89
Hệ số tương quan Pearson

• r = 0  Không tương quan (Biết X sẽ không biết Y).


• r = 0,2  Tương quan rất yếu, không đáng kể.
• r = 0,2 – 0,4  Tương quan yếu, thấp.
• r = 0,4 - 0,7  Tương quan vừa phải.
• r = 0,7 – 0,9  Tương quan mạnh.
• r > 0,9  Tương quan rất mạnh.
• r = 1  Tương quan hoàn hảo
(Cực kì hiếm), (Biết X sẽ biết Y).
90
• Tương quan dương: X tăng  Y tăng.
• Tương quan âm: X tăng  Y giảm.

• Tương quan dương hay âm thừa nhận mối


quan hệ tuyến tính.
• Nhiều khi, biến X, Y có tương quan cong. (Sử
dụng hệ số Eta để đo lường không phải r)

91
PHÂN TÍCH TƯƠNG QUAN
Kiểm nghiệm t, để xét xem hệ số tương quan
đó có thật sự là biểu hiện của một mối tương
quan nào đó.

• t = r / [(1- r ) / (n - 2)]
2 1/2

n: cỡ mẫu

Bậc tự do df = n – 2;

r: hệ số tương quan mẫu.

92
PHÂN TÍCH TƯƠNG QUAN

• H0: ƿ (rho) = 0 (Không có biểu hiện tương


quan).

• H1: ƿ ≠ 0

Bác bỏ H0 nếu ItI > tn-2, α/2 hoặc p-value < α

93
NHỮNG GỈA ĐỊNH KHI SỬ DỤNG HỆ SỐ
TƯƠNG QUAN PEARSON

1. Mối quan hệ tuyến tính.

2. Dữ liệu khoảng.

3. Mẫu ngẫu nhiên.

4. Phân phối chuẩn.

94
Các mối tương quan giữa số vật dụng sở hữu và mức
độ đồng ý đối với các ý kiến về quảng cáo trên truyền
hình. Hệ số tin cậy 90%
Ý kiến r Mức ý nghĩa
Cần nêu rõ lợi ích của sp -0,0020 0,980
Cần nêu rõ nhãn hiệu sp 0,0003 0,997
Cần nêu rõ chức năng của sp -0,0234 0,773
Cần nêu rõ tên nước sản xuất -0,0171 0,833
Cần nêu rõ nơi bán sp -0,486 0,550
Cần có tính hài hước 0,0705 0,385
1 thiếu nữ xinh đẹp sẽ hấp dẫn.. 0,0037 0,963
So sánh trực tiếp 2 sp với nhau 0,0151 0,85
Sức thuyết phục của một ngôi sao -0,1509 0,062 95
ĐỂ CHỌN MỘT KIỂM ĐỊNH PHÙ HỢP

1. Thang đo là gì?

2. Trắc nghiệm liên quan đến một mẫu hay


nhiều mẫu?

3. Các mẫu độc lập hay phụ thuộc?


Kiểm định sự khác biệt về tham số tỷ
lệ của 2 mẫu ĐỘC LẬP

Nhà nghiên cứu muốn biết liệu tỉ lệ thường đọc 1 tờ báo


nhất định vào năm 2010 có khác biệt nhiều so với năm
2008, dựa vào 2 mẫu ngẫu nhiên

• n1 = 400 năm 2008 , pS1 = 42,5%.

• n2 = 200 năm 2010 , pS2 = 35%.

α = 5 %. Liệu sự chênh lệch có đáng kể hay không?


97
Kiểm định sự khác biệt về tham số tỷ lệ
của 2 mẫu ĐỘC LẬP
Giả sử một công ty muốn so sánh mức độ nhận biết

nhãn hiệu X của người tiêu dùng Hà Nội và TP.HCM, α =

10%. Kết quả như sau:

Hà Nội n1 = 200, Số người nhận biết X là 100 người.

TP.HCM n2 = 250, Số người nhận biết X là 110 người.

Liệu sự chênh lệch có đáng kể hay không?


98
Kiểm nghiệm 2 TRỊ TRUNG BÌNH
của 2 tổng thể độc lập
Khi quảng cáo cần phải nêu rõ lợi ích của sp

(1) Rất phản đối (5) Rất đồng ý

n Trị trung Độ lệch


bình chuẩn

• Nữ 60 4,75 0,571

• Nam 94 4,6809 0,707

99
Kiểm nghiệm 2 TRỊ TRUNG BÌNH trong
cùng 1 mẫu
n = 154;
Độ tin cậy: 90%
Độ lệch chuẩn chung = 0,751;
(1)Rất phản đối (5) Rất đồng ý

Biến Trị trung Độ lệch


bình chuẩn

Khi quảng cáo cần nêu rõ chức 4,5260 0,802


năng của sản phẩm
Khi quảng cáo cần nêu rõ nhãn 4,7013 0,638
100
hiệu sản phẩm
PHÂN TÍCH TƯƠNG QUAN

Các mối tương quan giữa số vật dụng sở hữu và mức


độ đồng ý đối với các ý kiến về quảng cáo trên truyền
hình. Hệ số tin cậy 90%
Ý kiến r Mức ý nghĩa
Cần nêu rõ lợi ích của sp -0,0020 0,980
Cần nêu rõ nhãn hiệu sp 0,0003 0,997
Cần nêu rõ chức năng của sp -0,0234 0,773
Cần nêu rõ tên nước sản xuất -0,0171 0,833101

You might also like