Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 23

XỬ LÝ DỮ LIỆU

Hiệu chỉnh (Editing)


 Nhằm đảm bảo:
- Đúng thủ tục / đối tượng phỏng vấn (legibility)
- Xử lý các phỏng vấn / trả lời không hoàn chỉnh (completeness)
- Tính nhất quán của các trả lời (consistency)
- Sự rõ ràng của các trả lời (clarification).
 Hiệu chỉnh sơ bộ (Field editing)
- Thực hiện bởi người phỏng vấn nhằm: phỏng vấn lại câu hỏi bị bỏ sót, hoàn
chỉnh các phần viết tắt, ký hiệu, viết chưa kịp,…
- Càng sớm càng tốt sau khi phỏng vấn xong.
 Hiệu chỉnh cuối cùng (office editing):
- Thực hiện bởi người chủ trì nhằm kiểm tra lại toàn bộ lỗi và nhất là tính hợp lý
giữa các câu trả lời trong bảng câu hỏi.
- Sau khi thu thập xong dữ liệu
Xử lý khi phát hiện lỗi:
 Liên lạc trở lại để bổ sung / làm rõ.
 Hiệu chỉnh, hoặc bổ sung theo trí nhớ hoặc theo các cứ liệu, suy luận khác.
 Hủy bỏ một số câu trả lời (missing value)
 Hủy toàn bộ cuộc phỏng vấn.

MÃ HÓA DỮ LIỆU (Coding)


 Là quá trình gán mã số (số hoặc nhãn) cho các biến và các trả lời.
 Các bước mã hóa:
- Đặt tên biến cho các câu hỏi: Câu hỏi 1 lựa chọn ? Câu hỏi nhiều lựa chọn ?
- Chuyển tập các chọn lựa trả lời của mỗi câu hỏi thành tập các số / nhãn phù hợp,
có ý nghĩa.
- Câu hỏi đóng / mở; Câu hỏi có lựa chọn “khác”; Câu hỏi có mục “không biết”.
Bốn nguyên tắc khi mã hóa:
• Tính phù hợp (appropriateness)
Cách phân loại / nhóm phải phù hợp với mục tiêu nghiên cứu.Ví dụ: Phân loại
nhóm tuổi.
• Tính toàn diện (exhaustiveness)
Các mã số phải bao phủ hết các loại hình cần nghiên cứu, các trả lời “khác” nên
chiếm tỷ lệ nhỏ.
• Tính loại trừ nhau (mutual exclusivity)
Mỗi trả lời chỉ tương ứng với một mã số.
• Tính đơn nguyên (unidimentionality)
Mỗi trả lời chỉ ứng với một nghĩa, một câu không được có 2 ý.

Tạo tập tin dữ liệu:


• Nhập dữ liệu vào tập tin SPSS (EXCEL).
• Cải biến tập dữ liệu.
• Tạo biến mới.
• Xử lý missing value
TẠO BIẾN MỚI VÀ MÃ HÓA LẠI DỮ
LIỆU (Recoding)
Tạo biến mới:
 Mục đích: Tạo ra các biến trung gian, biến mới từ tập dữ liệu gốc phục vụ cho
việc phân tích phù hợp với mục tiêu nghiên cứu.
 Thủ tục trên SPSS:
+ Analyze → Transform → Compute Variables →
+ Đưa biến cần mã hóa vào ô Numeric Expression và chọn công thức tính toán
thích hợp.
+ Đặt tên biến mới ở ô Target Variabl.
+ Sau khi có biến mới → Quay lại màn hình khai báo biến để gán các nhãn cho
biến mới.
 VD: Tính toán biến tuổi của người sử dụng điện thoại di động.
TẠO BIẾN MỚI VÀ MÃ HÓA LẠI DỮ
LIỆU (Recoding)
Mã hóa lại dữ liệu:
 Mục đích: Tạo ra các biến mới từ tập dữ liệu gốc phù hợp với mục tiêu nghiên
cứu.
 Thủ tục trên SPSS:
+ Analyze → Transform → Recode into Different Variables →
+ Đưa biến cần mã hóa vào ô Numeric Variable → Output Variable.
+ Đặt tên biến mới ở ô Name và gán nhãn ở ô Label.
+ Sau đó vào ô Old – New values để mã hóa lại dữ liệu.
+ Khi có biến mới quay lại màn hình khai báo biến để gán các nhãn cho các giá trị
mới được tạo ra.
 VD: Tạo biến nhóm tuổi của người sử dụng điện thoại di động.
PHÂN TÍCH DỮ LIỆU
Tổng quan về phân tích dữ liệu:
* Cơ sở để chọn phương pháp phân tích:
• Có bao nhiêu biến được phân tích đồng thời.
• Mục tiêu là mô tả mẫu hay suy luận cho tổng thể.
• Các biến được đo bởi thang đo gì.
Start

1 b ie á
n Ba o n h ie â u b ie á
n tre â
n 2 b ie á
n
ñ ö ô ïc p t. ñ o à
ng
th ô ø
i?

2 b ie á
n

P ha â
n tíc h P ha ân tíc h P ha â
n tíc h
ñ ô n b ie á
n n h ò b ie á
n ñ a b ie á
n
Tổng quát về phân tích đơn biến

P ha ân tích ñôn bie án

Khoaû
ng Tha ng ño Chædanh
cuû
a bie án

Thöùtöï
1. Moâtaû + Trung vò
+ Trung bình + Ye áu vò
+ Khoa û n g/pha àn
+ P höông s a i + Ta àn s ua átá
tra êm

Kolm ogorov- C hi-s qua re


2. Suy ñoaù
n z te s t or t te s t S m irnov te s t te s t

TOÅ
N G QUAN VEÀPHAÂ
N TÍCH ÑÔN BIEÁ
N
PHÂN TÍCH TẦN SỐ
 Mục đích: Tìm ra cấu trúc của hiện tượng nghiên cứu.
 Ứng dụng: Thường được sử dụng cho các trường hợp sau

+ Kiểm tra dữ liệu đầu vào.


+ Phân tích tỷ trọng của các bộ phận trong tổng thể để biết được tầm quan trọng của
chúng.
+ Có thể sử dụng để nghiên cứu thị phần, phân khúc thị trường đơn giản.
 Dữ liệu đầu vào: Biến định danh / định lượng.
 Thực hành trên SPSS

+ Analyze → Descriptive Statistics → Frequencies.


+ Đưa các biến phân tích vào ô Variables
+ Chọn mục Display frequency table
+ Mục Statistics dùng để tính các tham số thống kê mô tả nếu là biến định lượng.
+ Mục Charts để vẽ các loại đồ thị (chọn một trong các loại).
 Ví dụ: Phân tích tỷ trọng sử dụng các mạng điện thoại di động trả trước (Mẫu điều
tra thực tế từ 150 người sử dụng tại TP. Nha trang).
Bảng Tần số

mang di dong

Cumulative
Frequency Percent Valid Percent Percent
Valid vinaphone 21 14.0 14.0 14.0
mobilephone 56 37.3 37.3 51.3
viettel 49 32.7 32.7 84.0
s-phone 15 10.0 10.0 94.0
khac 9 6.0 6.0 100.0
Total 150 100.0 100.0
Đồ thị
KIỂM ĐỊNH PHÂN PHỐI ĐỀU
 Mục đích: Kiểm định sự bằng nhau về tỷ trọng của các bộ phận trong tổng
thể.
 Dữ liệu: Cùng dữ liệu với ví dụ trên
 Thủ tục trên SPSS:

+ Analyze → Non-parametric tests → Chi- square (biến định danh)


mang di dong Test Statistics
Observed N Expected N Residual
mang di dong
vinaphone 21 30.0 -9.0
Chi-Square a 59.467
mobilephone 56 30.0 26.0
df 4
viettel 49 30.0 19.0
s-phone 15 30.0 -15.0 Asymp. Sig. .000
khac 9 30.0 -21.0 a. 0 cells (.0%) have expected frequencies less than
Total 150 5. The minimum expected cell frequency is 30.0.
 Thủ tục trên SPSS:
+ Analyze → Non-parametric tests → One-sample Kolgomonov – Smirnov
Test → Chọn Uniform Distribution (biến thứ tự).

One-Sample Kolmogorov-Smirnov Test 2

Trinh do
hoc van
N 150
Uniform Parameters a,b Minimum 2
Maximum 6
Most Extreme Absolute .230
Differences Positive .203
Negative -.230
Kolmogorov-Smirnov Z 2.817
Asymp. Sig. (2-tailed) .000
a. Test distribution is Uniform.
b. Calculated from data.
PHÂN TÍCH THỐNG KÊ MÔ TẢ
 Mục đích: Phân tích và kiểm định các tham số thống kê cơ bản của tổng thể,
mẫu.
 Dữ liệu: Là biến định lượng.
 Xử lý trên SPSS:

+ Analyze → Descriptive Statistics → Descriptive.


+ Đưa các biến vào ô Variables
+ Ở mục Options chọn: Mean + Std. Deviation + Min/Max + Kurtosis + Skewness.
Descriptive Statistics

N Minimum Maximum Mean Std. Skewness Kurtosis


Statistic Statistic Statistic Statistic Deviation
Statistic Statistic Std. Error Statistic Std. Error
toi hoan toan hai long
ve mang dien thoai 150 2 5 3.52 .721 .147 .198 -.254 .394
ma toi dang su dung
Valid N (listwise) 150
KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH CỦA MỘT
TỔNG THỂ
 Kiểm định xem những phát biểu nào đó có phù hợp tổng thể nghiên cứu không.
 Dữ liệu là một biến lượng ( interval / ratio) của mẫu. VD: Tuổi của khách hàng.
 Bài toán: Kiểm định xem trung bình tổng thể có bằng một giá trị xác định trước
hay không. VD: Tuổi trung bình khách hàng là 30.
 Thực hiện trong SPSS: Menu → Analyze → Compare means → One-way T
Test.

One-Sample Statistics

Std. Error
N Mean Std. Deviation Mean
TuoiKH 150 28.5800 11.98000 .97816

One-Sample Test

Test Value = 30
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
TuoiKH -1.452 149 .149 -1.42000 -3.3529 .5129
KIỂM ĐỊNH SỰ BẰNG NHAU CỦA TRUNG BÌNH 2
TỔNG THỂ
 Dữ liệu là 2 biến lượng được thu đồng thời có cỡ mẫu bằng nhau. VD: 2
biến chi tiêu trong tháng trước và dự kiến chi tiêu tháng đến.
 Bài toán: Kiểm định về sự bằng nhau của 2 trung bình. VD: Mức chi tiêu
không đổi, tức chi tiêu trung bình của tháng trước bằng với mức dự kiến chi
tiêu tháng tiếp theo.
 Thực hiện trong SPSS: Menu → Analyze → Compare means → Paired-
Samples T Test.
 Kết quả của SPSS:

Paired Samples Statistics

Std. Error
Mean N Std. Deviation Mean
Pair Chi tieu cho dien thoai
3.0267 150 .73225 .05979
1 trong thang truoc
Du kien chi tieu trong
3.2800 150 1.05627 .08624
thang nay
Paired Samples Correlations

N Correlation Sig.
Pair Chi tieu cho dien
1 thoai trong thang
150 .363 .000
truoc & Du kien chi
tieu trong thang nay

Paired Samples Test

Paired Differences
95% Confidence
Interval of the
Std. Error Difference
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)
Pair Chi tieu cho dien
1 thoai trong thang
-.25333 1.04391 .08524 -.42176 -.08491 -2.972 149 .003
truoc - Du kien chi
tieu trong thang nay
KIỂM ĐỊNH SỰ BẰNG NHAU VỀ TRỊ TRUNG BÌNH
CỦA 2 LOẠI HÌNH / NHÓM
 Dữ liệu là 2 biến: 1 biến lượng và 1 biến định danh có 2 loại hình. VD: Mức
tiêu dùng và giới tính.
 Bài toán: Kiểm định về sự bằng nhau của 2 trung bình của hai nhóm. VD:
Không có sự khác biệt về mặt giới tính trong tiêu dùng cá.
 Thực hiện trong SPSS: Menu → Analyze → Compare means →
Independent-Samples T Test.
Group Statistics

Std. Error
gioi tinh N Mean Std. Deviation Mean
toi hoan toan hai long nam 63 3.49 .821 .103
ve mang dien thoai
ma toi dang su dung nu 87 3.54 .643 .069

Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
toi hoan toan hai long Equal variances
5.181 .024 -.403 148 .688 -.048 .120 -.285 .188
ve mang dien thoai assumed
ma toi dang su dung Equal variances
-.388 113.314 .699 -.048 .124 -.294 .198
not assumed
KIỂM ĐỊNH SỰ BẰNG NHAU CỦA NHIỀU GIÁ TRỊ
TRUNG BÌNH
 Dữ liệu là 2 biến: 1 biến lượng và 1 biến định danh có từ 3 loại hình trở lên.
VD: Thu nhập và trình độ học vấn.
 Bài toán: Không có sự khác biệt về trị trung bình giữa các nhóm. VD: Không
có sự khác biệt về thu nhập giữa các nhóm học vấn khác nhau.
 Thực hiện trong SPSS: Menu → Analyze → Compare means → One-Way
ANOVA.
 Ở mục Options chọn: Descriptve + Homogeneity of variance test + Means
plot

Descriptives

thu nhap
95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
cap 2 3 2.33 .577 .333 .90 3.77 2 3
cap 3 hoac trung cap 56 2.63 .590 .079 2.47 2.78 1 4
cao dang 19 2.79 1.182 .271 2.22 3.36 1 5
dai hoc 65 2.71 1.071 .133 2.44 2.97 1 5
trn dai hoc 7 4.14 .900 .340 3.31 4.97 3 5
Total 150 2.75 .964 .079 2.59 2.90 1 5
Test of Homogeneity of Variances

thu nhap
Levene
Statistic df1 df2 Sig.
4.095 4 145 .004

ANOVA

thu nhap
Sum of
Squares df Mean Square F Sig.
Between Groups 15.120 4 3.780 4.447 .002
Within Groups 123.253 145 .850
Total 138.373 149
KIỂM ĐỊNH SỰ BẰNG NHAU CỦA NHIỀU GIÁ TRỊ
TRUNG BÌNH: KIỂM ĐỊNH HẬU ANOVA
 Bài toán: Khi thực hiện bài toán ANOVA, giả thuyết kiểm định là ít nhất có 2
giá trị trung bình khác nhau. Tuy nhiên, nó không cho biết 2 trung bình nào là
khác nhau. Phép kiểm định hậu ANOVA giải đáp điều này.
 Thực hiện trong SPSS: Menu → Analyze → Compare means → One-Way
ANOVA → Post hoc tests → Bonferoni test.
Lưu ý:
 Nếu giả thiết phương sai bằng nhau không bị bác bỏ thì chọn Bonferoni test.
 Còn nếu giả thuyết phương sai bằng nhau bị bác bỏ, tức phương sai giữa các
nhóm là khác nhau thì chọn Tanhane’T2 hoặc các thống kê cùng loại.
 Vì ở bước trước giả thuyết phương sai bằng nhau bị bác bỏ, do đó ta chọn
thống kê Tanhane’T2 cho ví dụ minh họa tiếp theo.
Multiple Comparisons

Dependent Variable: thu nhap


Tamhane

Mean
Difference 95% Confidence Interval
(I) trinh do hoc van (J) trinh do hoc van (I-J) Std. Error Sig. Lower Bound Upper Bound
cap 2 cap 3 hoac trung cap -.292 .343 .998 -4.18 3.60
cao dang -.456 .430 .983 -2.43 1.52
dai hoc -.374 .359 .992 -3.43 2.68
trn dai hoc -1.810 .476 .083 -3.84 .22
cap 3 hoac trung cap cap 2 .292 .343 .998 -3.60 4.18
cao dang -.164 .282 1.000 -1.05 .72
dai hoc -.083 .154 1.000 -.52 .36
trn dai hoc -1.518* .349 .037 -2.95 -.09
cao dang cap 2 .456 .430 .983 -1.52 2.43
cap 3 hoac trung cap .164 .282 1.000 -.72 1.05
dai hoc .082 .302 1.000 -.84 1.00
trn dai hoc -1.353 .435 .073 -2.79 .09
dai hoc cap 2 .374 .359 .992 -2.68 3.43
cap 3 hoac trung cap .083 .154 1.000 -.36 .52
cao dang -.082 .302 1.000 -1.00 .84
trn dai hoc -1.435* .365 .043 -2.83 -.04
trn dai hoc cap 2 1.810 .476 .083 -.22 3.84
cap 3 hoac trung cap 1.518* .349 .037 .09 2.95
cao dang 1.353 .435 .073 -.09 2.79
dai hoc 1.435* .365 .043 .04 2.83
*. The mean difference is significant at the .05 level.

You might also like