Professional Documents
Culture Documents
CHƯƠNG 6 SV
CHƯƠNG 6 SV
1
SINH VIÊN cần NẮM
2
TÀI LIỆU
5
2. HIỆU CHỈNH Dữ Liệu
• Kiểm tra toàn bộ các lỗi & nhất là tính hợp lý giữa
n bảng câu hỏi.
NOTE:
• Việc hiệu chỉnh phải rất thận trọng.
8
3. MÃ HÓA DỮ LIỆU
• Là quá trình chuyển đổi các câu trả lời thành
dạng mã số để thuận lợi cho việc nhập & xử lý
dữ liệu.
• Với các câu hỏi đóng việc mã hóa thực hiện
một lần trước khi tiến hành thu thập thông tin.
Multiple-answer
11
3. MÃ HÓA DỮ LIỆU
• Số kiểu mã hóa phải đủ lớn để bao quát hết các
sự kiện trong dữ liệu, đảm bảo tất cả tình huống
trả lời đều được mã hóa.
• Mỗi câu hỏi chỉ có một trả lời Mỗi câu hỏi chứa
đựng một biến số.
• Nếu câu hỏi có nhiều trả lời, mỗi trả lời phải có
nhiều biến tách biệt.
13
4. NHẬP DỮ LIỆU
14
5. LỌC DỮ LIỆU
• Phải kiểm tra độ chính xác của việc nhập dữ liệu.
• Bốc ngẫu nhiên một số bảng câu hỏi & kiểm tra
với số liệu nhập trong máy.
• Rửa dữ liệu: Chạy một số bảng tần số cho từng
biến Để phát hiện những trị số bất hợp lý.
15
7. PHÂN TÍCH DỮ LIỆU
Nội dung phân tích dữ liệu dựa trên danh mục
nhu cầu thông tin.
20
Nghề nghiệp Tần số %
Q.lý/Doanh nhân 18 11,7
V.chức hành chính 35 22,7
Công nhân kỹ thuật 41 26,6
LĐ đơn giản/Thất nghiệp 12 7,8
Sinh viên 33 21,4
Nghề nghiệp khác 15 9,7
Chỉ có hơn 1/10 trên tổng số người trả lời trong mẫu là DN.
NVHC & SV là 2 nhóm đông gần bằng nhau, mỗi nhóm
chiếm 22%. Hơn ¼ trong mẫu là CNKT. Còn lại là LĐ Đơn
giản, không có việc làm hay rơi vào nhóm nghề nghiệp 21
NOTE khi PHÂN TÍCH dữ liệu
22
Kiểm định Chi-square
• Thang đo định danh.
• Dữ liệu thu thập được xếp theo một tiêu chí/ yếu tố.
• Mỗi quan sát phải và chỉ thuộc về một nhóm mà thôi.
• H0 (Directional hypothesis - giả thuyết định hướng):
Xác suất quan sát rơi vào từng mục như nhau. (Quan
sát thực tế có khác biệt đáng kể so với phân phối kì
vọng).
23
Kiểm định Chi-square
24
Kiểm định Chi-square
Hạng mục 1 2 i Tổng
Số quan sát O1 O2 … Oi n
thực tế
Xác suất p1 p2 pk 1
(H0 )
Số quan sát E1 = E2 = … Ei = n
H0 np1 np2 npi
25
Vd1: Một công ty kinh doanh nước giải khát
muốn kiểm định kích thước chai bằng cách chọn
ngẫu nhiên 500 người tiêu dùng hỏi xem họ thích
mua loại nào trong 4 cỡ chai 200ml, 300ml, 800ml,
1250ml.
Theo kinh nghiệm của công ty về các khách hàng
của mình là 30% - 200ml, 30% - 300ml, 20% -
800ml, 20% -1250ml.
26
Độ tin cậy 95%
df = k -1, k: số hạng mục lựa chọn
Cỡ chai 200ml 300ml 800ml 1250ml
Số quan sát HO
28
BÀI TẬP
• Một nhà cung cấp tủ lạnh phân chia vùng kinh
doanh ra làm 4 khu vực. Một nhà đầu tư dự định làm
ăn chung với nhà cung cấp, muốn kiểm tra xem số
tủ lạnh bán ra có bằng nhau ở 4 khu vực này hay
không. Để kiểm tra giả thuyết này, nhà đầu tư lấy
một mẫu ngẫu nhiên gồm 40 hồ sơ khách hàng đã
mua ở năm trước và nhận thấy số lượng khách
hàng đã mua tủ lạnh cho từng khu vực phân bố như
sau:
29
Độ tin cậy 95 %
Khu vực A B C D
Số 6 12 14 8
khách
hàng
mua
30
BÀI TẬP
32
Kiểm định TỶ LỆ ĐƠN p
Biến ngẫu nhiên phân phối theo
qui luật 0 - 1
33
Kiểm định TỶ LỆ ĐƠN p
Biến ngẫu nhiên phân phối theo
qui luật 0 - 1
36
BT1: Năm ngoái, tỷ lệ người tiêu dùng ở một
địa phương sử dụng một loại sản phẩm của DN là
35%, nhưng cuộc điều tra năm nay trên 120 người
tiêu dùng được chọn ngẫu nhiên ở địa phương
đó cho thấy tỷ lệ đó là 30%. Liệu có nên cho rằng
tỷ lệ người tiêu dùng sử dụng sản phẩm của DN
ở địa phương đó đã giảm xuống. Với α = 5%.
37
BT3: Một công ty sản xuất vỏ xe hơi chiếm 42%
thị trường (trước đây). Hiện tại, trước sự cạnh
tranh của đối thủ, công ty muốn kiểm tra thị phần
của công ty có còn 42% ? Chọn ngẫu nhiên 550 xe
hơi trên đường, kết quả có 219 xe sử dụng vỏ xe
của công ty. Kết luận gì? Với α = 5%. Hãy xác định
các giới hạn tin cậy?
38
Ước lượng
39
XÁC ĐỊNH KHOẢNG TIN CẬY TỈ LỆ p
40
BÀI TẬP
• Một nhân viên thương mại muốn nghiên cứu thị
trường dao cạo râu. Chọn ngẫu nhiên 100 người
đàn ông trong một thành phố lớn và nhận thấy là
40% người được phỏng vấn sử dụng dao cạo râu
hiệu A. Xác định khoảng tin cậy cho tỷ lệ đàn ông
sử dụng dao cạo râu hiệu A với độ tin cậy là 95%.
(23)
41
BÀI TẬP 2
• Một công ty thuốc lá cho rằng tỷ lệ % nam
giới của thành phố hút thuốc lá ít nhất lớn
hơn 50%. Công ty thuốc lá muốn kiểm tra điều
này. Công ty chọn ngẫu nhiên 250 nam giới,
kết quả có 40% người hút thuốc. Kết luận gì?
Với α = 5%. Hãy xác định các giới hạn tin cậy?
42
THANG ĐO THỨ TỰ
43
Kiểm định Kolmogorov–Smirnov
44
α 0,5 0,4 0,3 0,2 0,1 0,05 0,02 0,01 0,001
45
Màu Tần % % tích luỹ % tích luỹ H0 I F(O) - F(H0)I
số F(O) F(H0 )
A 80
B 60
C 40
D 20
46
Thang đo khoảng & thang đo tỷ lệ
47
CHỈ SỐ THỐNG KÊ
50
Kiểm định
GIÁ TRỊ TRUNG BÌNH ĐƠN
58
Ước lượng
59
XÁC ĐỊNH KHOẢNG TIN CẬY
63
Kiểm nghiệm 2 TRỊ TRUNG BÌNH
của 2 tổng thể độc lập
1.H0 : μ1 = μ2 Bác bỏ H0 nếu IZI > Z, α/2
H1 : μ1 ≠ μ2
65
Khi quảng cáo cần phải nêu rõ lợi ích của sp
• Nữ 60 4,75 0,571
66
Khi quảng cáo cần phải nêu rõ nhãn hiệu của sp –
theo trình độ học vấn.
(1) Rất phản đối (5) Rất đồng ý
n Trị trung Độ lệch
bình chuẩn
Dưới trung học 33 4,8182 0,4647
Trung học 52 4,7308 0,5979
Đại học 69 4,6232 0,7297
Độ tin cậy 90%.
67
Kiểm định khác biệt về TRỊ TRUNG giữa
2 câu hỏi có thang đo tương tự nhau
• Kiểm nghiệm giả thiết so sánh 2 trị trung bình
tổng thể của cùng một tập đơn vị mẫu.
69
Kiểm nghiệm 2 TRỊ TRUNG BÌNH trong
cùng một mẫu
70
Kiểm nghiệm 2 TRỊ TRUNG BÌNH trong
cùng một mẫu
1. H0 : μd = 0 Bác bỏ H0 nếu IZI > Zα/2
H1 : μd ≠ 0
71
n =154;
Độ tin cậy: 90%
Độ lệch chuẩn chung = 1,854;
(1): Rất phản đối (5): Rất đồng ý
Biến Trị trung Độ lệch
bình chuẩn
74
Kiểm nghiệm 2 TỈ LỆ
75
Vd1: Nhà nghiên cứu muốn biết liệu tỉ lệ thường
đọc một tờ báo nhất định vào năm 2010 có khác
biệt nhiều so với năm 2008, dựa vào 2 mẫu ngẫu
nhiên.
76
• Vd2: Giả sử một công ty muốn so sánh mức
độ nhận biết nhãn hiệu X của người tiêu dùng Hà
Nội và TP.HCM, α = 10%. Kết quả như sau:
Hà Nội n1 = 200, Số người nhận biết X là 100
người.
TP.HCM n2 = 250, Số người nhận biết X là 110
người.
Liệu sự chênh lệch có đáng kể hay không?
77
BT: Một khu nghỉ dưỡng tiến hành một cuộc khảo
sát sự hài lòng của khách hàng sau khi họ nghỉ
tại đây, trong bảng câu hỏi có một câu hỏi về
việc khách hàng có dự định quay lại đây không?
Có bằng chứng về sự khác biệt trong mức độ hài
lòng của khách hàng ở khu A và B hay không? α
= 10%. Kết quả như sau:
79
Kiểm nghiệm CHI-SQUARE
80
Độ tin cậy: 90%
Mức độ quan trọng của nhạc nền (trong quảng
cáo) theo giới tính
Giới 2 mức quan Mức trung 2 mức kém
tính trọng hàng bình quan trọng
đầu nhất
Nữ 22 20 18
36,7% 33,3% 30%
50% 52,6% 25%
Nam 22 18 54
23,4% 19,1% 57,4%
81
50% 47,4% 75%
1. Học Lực THU NHẬP TRUNG
GIÀU KHÁ BÌNH NGHÈO
GIỎI
KHÁ
TRUNG
BÌNH
YẾU
Giỏi
Khá
Trung
bình
Yếu
Độ tin cậy: 90%
Mức độ quan trọng của nhạc nền (trong
quảng cáo) theo giới tính
Giới 2 mức quan Mức trung 2 mức kém
tính trọng hàng bình quan trọng
đầu nhất
Nữ 22 20 18
36,7% 33,3% 30%
Nam 22 18 54
23,4% 19,1% 57,4%
83
BT1: Có 2 sản phẩm A, B. Kiểm nghiệm mối
liên hệ giữa việc chọn sản phẩm và độ tuổi của
người tiêu dùng, mẫu ngẫu nhiên n = 1.140, độ
tin cậy: 95% kết quả như sau:
Độ tuổi Sp A Sp B Tổng
≤ 25 92 172 264
36 - 45 114 97 211
85
Loại xe Hãng A Hãng B Hãng C Hãng D Tổng
Lớn 58 45 60 28 191
86
Xe gắn máy
Tên Giá trị Tần số % % tích
hạng lũy
mục
Không 0 10 6,5 6,5
87
Tổng hợp tình trạng sở hữu đối với
14 loại vật dụng
Tần số sở hữu %
Tivi 146 94,8
Xe gắn máy 144 93,5
Đầu video 136 88,3
Tủ lạnh 116 75,3
Bếp gas 75 48,7
Xe hơi 7 4,5
Lò viba 3 1,9 88
PHÂN TÍCH TƯƠNG QUAN
91
PHÂN TÍCH TƯƠNG QUAN
Kiểm nghiệm t, để xét xem hệ số tương quan
đó có thật sự là biểu hiện của một mối tương
quan nào đó.
• t = r / [(1- r ) / (n - 2)]
2 1/2
n: cỡ mẫu
Bậc tự do df = n – 2;
92
PHÂN TÍCH TƯƠNG QUAN
• H1: ƿ ≠ 0
93
NHỮNG GỈA ĐỊNH KHI SỬ DỤNG HỆ SỐ
TƯƠNG QUAN PEARSON
2. Dữ liệu khoảng.
94
Các mối tương quan giữa số vật dụng sở hữu và mức
độ đồng ý đối với các ý kiến về quảng cáo trên truyền
hình. Hệ số tin cậy 90%
Ý kiến r Mức ý nghĩa
Cần nêu rõ lợi ích của sp -0,0020 0,980
Cần nêu rõ nhãn hiệu sp 0,0003 0,997
Cần nêu rõ chức năng của sp -0,0234 0,773
Cần nêu rõ tên nước sản xuất -0,0171 0,833
Cần nêu rõ nơi bán sp -0,486 0,550
Cần có tính hài hước 0,0705 0,385
1 thiếu nữ xinh đẹp sẽ hấp dẫn.. 0,0037 0,963
So sánh trực tiếp 2 sp với nhau 0,0151 0,85
Sức thuyết phục của một ngôi sao -0,1509 0,062 95
ĐỂ CHỌN MỘT KIỂM ĐỊNH PHÙ HỢP
1. Thang đo là gì?
• Nữ 60 4,75 0,571
99
Kiểm nghiệm 2 TRỊ TRUNG BÌNH trong
cùng 1 mẫu
n = 154;
Độ tin cậy: 90%
Độ lệch chuẩn chung = 0,751;
(1)Rất phản đối (5) Rất đồng ý