Professional Documents
Culture Documents
TH C Hành & Phân Tích
TH C Hành & Phân Tích
* So sánh hơn: Analyze => Descriptive => Frequencies=> chọn biến cần phân tích (VD: gender)
=> nhấn Ok là xong.
gender
Cumulative
Frequency Percent Valid Percent Percent
Valid Female 64 61.0 61.0 61.0
Male 41 39.0 39.0 100.0
Total 105 100.0 100.0
Phân tích: Trong mẫu này, nam chiếm 39% (41 người nam) thấp hơn rất nhiều so với nữ chiếm 61% (64
người nữ).
* So sánh nhất: Analyze => Descriptive => Frequency => chọn biến cần phân tích (ethnicity).
ethnicity
Cumulative
Frequency Percent Valid Percent Percent
Valid Native 5 4.8 4.8 4.8
Asian 20 19.0 19.0 23.8
Black 24 22.9 22.9 46.7
White 45 42.9 42.9 89.5
Hispanic 11 10.5 10.5 100.0
Total 105 100.0 100.0
Phân tích: Trong mẫu nghiên cứu này, người da trắng chiếm tỉ trọng cao nhất là 42.9% và người bản địa
chiếm tỉ trọng thấp nhất là 4.8%.
* Analyze => Descriptive statistics => Crosstabs=> phần Row chọn gender => colum chọn
ethnicity
Phân tích: Trong mẫu nghiên cứu này, người bản địa là Nữ có 4 người, người bản địa là Nam có 1 người.
Tổng người bản địa là 5 người
* Chạy theo dòng (Rows): * Analyze => Descriptive statistics => Crosstabs => Cells (dùng để hiện
ra tỉ lệ phần trăm theo row or colum)=> Rows => Continue => OK
Phân tích: Trong mẫu nghiên cứu này, người bản địa nữ chiếm 6,3%, người châu Á nữ chiếm
20,3%..........
Phân tích mẫu cộng dồn thành 100%
* Chạy theo cột (Column): * Analyze => Descriptive statistics => Crosstabs => Cells (dùng để
hiện ra tỉ lệ phần trăm theo row or colum) => Colum => Continue => OK
Phân tích: Trong mẫu nghiên cứu này, có 80% người bản địa là nữ, 20% người bản địa là Nam.
Có 65% người châu Á là nữ, 35% người châu Á là Nam. …………….
Crosstabulation (Row): Analyze Descriptive Statistics Grosstabs ( Row:
gender / Column: grade) Cells Percentages (Row – đọc phân tích theo dòng)
Continue
Phân tích: Trong mẫu nghiên cứu này có 3,1% nữ bị điểm F nhỏ hơn gấp 3 lần so với tỉ lệ Nam
bị điểm F (9,8%) -> Tỷ lệ nam rớt nhiều hơn nữ.
* Đối với biểu đồ line thì chúng ta không cần show các số liệu (data label) vì khi show lên sẽ có
hàng trăm điểm nhìn rất rối mắt, biểu đồ line chủ yếu dùng để nói về xu hướng của nó thôi (xu
hướng tăng lên, giảm xuống, đi ngang qua)
Biểu đồ tròn (Pie Chart): dùng để xem cơ cấu, tỷ trọng
* Chọn biểu đồ Pie => kéo ethnicity vào ô sline by => mục statistics chọn percentage =>
apply => OK
Descriptive Statistics
* Analyze => Descriptive =>Desciptives => bỏ 4 biến gender, ethnicity, gpa, total qua
(varitable) => nhấn OK
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
gender 105 1 2 1.39 .490
ethnicity 105 1 5 3.35 1.056
gpa 105 1.14 4.00 2.7789 .76380
total 105 51 124 100.57 15.299
Valid N (listwise) 105
T-test
* Analyze => Compare means =>Independent-sample T Test => Test variable chọn Total;
Grouping Variable chọn Gender => sau đó nhấp tiếp vào Define Groups (do gender có 2 phân
loại là nam và nữ)=> Group 1: 1 Group 2: 2 (phụ thuộc vào thứ tự mã hóa ở bảng thông tin, nếu
ở ngoài kia khai mã hóa là thứ 3 thứ 4 thì vô đây chỉnh là G1: 3; G2:4, lý do phải khai đúng là để
nó dò thông tin cho đúng, khai sai sẽ k ra kq)
Group Statistics
gender N Mean Std. Deviation Std. Error Mean
total Female 64 102.03 13.896 1.737
Male 41 98.29 17.196 2.686
Bảng phân tích 2 quá dài, để chỉnh lại ta chọn toàn bộ bảng => chọn layout (nếu dùng bản word
nhái thì chọn table tools) => Auto Fix => Auto Fix Window.
Sig 158: ý nghĩa thống kê
T Test chỉ so sánh được giữa 2 nhóm, còn 3 nhóm trở lên sẽ dùng công cụ khác gọi là Anova
Nếu Sig. của kiểm định t ≤ α= 0.05 (mức ý nghĩa) -> có sự khác biệt đáng kể về giá trị trung bình
của 2 ý nghĩa thống kê. Mức ý nghĩa thông thường là 0,05.
Nếu Sig. > α (mức đáng kể) -> không có sự khác biệt đáng kể về giá trị trung bình của 2 ý nghĩa
thống kê.
In the example above sig. = 0.224 > 0.05, so it is concluded that there is no significant
difference in mean of the 2 populations. In other words, between males and females,
there is no evidence of difference in means of total scores.
Trong ví dụ trên sig. = 0,224 > 0,05 nên kết luận không có sự khác biệt có ý nghĩa về giá trị
trung bình của 2 tổng thể. Nói cách khác, giữa nam và nữ, không có bằng chứng về sự khác biệt
về phương tiện tổng điểm.
0,005 so với 0,05: 0,005 <0,05 This paired-samples t test analysis indicates that for the 105
subjects, there is a significant difference in the mean of the two quizzes (sig. = 0.005 < 0.05).
In other words, the mean score on the second quiz (M = 7.98) was significantly greater than the
mean score on the first quiz (M = 7.47).
Phân tích kiểm tra t mẫu theo cặp này chỉ ra rằng đối với 105 đối tượng, có sự khác biệt đáng kể về giá trị
trung bình của hai câu hỏi (sig. = 0,005 < 0,05). Nói cách khác, điểm trung bình của bài kiểm tra thứ hai
(M = 7,98) lớn hơn đáng kể so với điểm trung bình của bài kiểm tra đầu tiên (M = 7,47).
ANOVA
Thông tin làm biểu đồ trên lấy ở file Oddjob trong LMS, mở files ra chỉnh ở hàng 16: overall_sat
=> Ordinal thành Scale
* Graphs => Chart Builder => mục Variables nhấp chuột phải chọn Age [age] => chọn Display
variable Names (để chỉnh tên nhãn do dài quá thu gọn lại dễ tìm hơn)=> chọn biểu đồ Bar (kéo
biểu đồ đầu tiên lên) => add Status xuống cột X; Overall_sat vào cột Y => mục Statistics: mean
là ok => nhấp OK
* Số liệu được làm tròn nhiều quá thì chỉnh lại. Nhấp double vào số liệu đó hiện ra cái bảng,
chọn Number Format, mục Decimal Places chỉnh về số 2 (2 số thập phân) => nhấp Apply
ANOVA
* Cách làm: (trong dữ liệu Oddjob mà mình đang phân tích dòng overrall_vat phải
chỉnh từ Ordinal thành Scared) Analyze => Compare Means => One-Way NOVA
=> (hiện lên hộp thoại)(thu gọn label cho dễ nhìn chuôt phải chọn Display Variable
Names => bỏ overall_sat qua dependent list => bỏ Status qua Factor => nhìn bên
phải chọn tiếp mục options click vào 3 ô (descriptive; Homogeneity of variance
test; welch) => Continues => Ok
Descriptives
Overall, I am satisfied with the price performance ratio of Oddjob Airways.
95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
Blue 677 4.47 1.641 .063 4.35 4.60 1 7
Silver 245 4.03 1.560 .100 3.84 4.23 1 7
Gold 143 3.99 1.556 .130 3.73 4.24 1 7
Total 1065 4.31 1.625 .050 4.21 4.40 1 7
Mean: (các số quan sát) giá trị trung bình; giá trị tb của blue 4.47 là hài lòng nhất
Min và max: giá trị nó sẽ chạy từ 1->7, thấp nhất là 1, cao nhất là 7
- Based on Mean: 0,404>0,05 phương sai 2 nhóm không khác nhau -> dùng kết quả bảng Anova
(kiểm định F) or (nếu kết quả < 0.05 thì dùng bảng kết quả Rubust Tests)
ANOVA
Overall, I am satisfied with the price performance ratio of Oddjob Airways.
Sum of Squares df Mean Square F Sig.
Between Groups 51.755 2 25.878 9.963 .000
Within Groups 2758.455 1062 2.597
Total 2810.210 1064
Sau khi phân tích số liệu xong, thì vào các bước như trên, nhìn bên phải chọn mục Post Hoc…
=> click vào Tukey (để chỉ ra cặp nào khác nhau) => Continue => Ok (sẽ ra được bảng bên
dưới)
-> Bấm Post Hoc…-> Turkey
Multiple Comparisons
Dependent Variable: Overall, I am satisfied with the price performance ratio of Oddjob Airways.
Tukey HSD
Mean Difference 95% Confidence Interval
(I) Traveler Status (J) Traveler Status (I-J) Std. Error Sig. Lower Bound Upper Bound
*
Blue Silver .440 .120 .001 .16 .72
*
Gold .487 .148 .003 .14 .83
Silver Blue -.440* .120 .001 -.72 -.16
Gold .047 .170 .959 -.35 .44
*
Gold Blue -.487 .148 .003 -.83 -.14
Silver -.047 .170 .959 -.44 .35
*. The mean difference is significant at the 0.05 level.
Phân tích:
Cặp Blue và Silver có khác nhau (sig 0.001 < 0.05)
Cặp Silver và Gold không có khác nhau (k có ý nghĩa thống kê) (sig 0.959 > 0.05)
DÂN TỘC
Sử dụng files Grades và cách làm như trên (Analyze => Compare Means => One-Way Anova =>
kéo Total vô mục Dependent list; Ethnicity vào mục Factor => Bấm options bên phải: click vô 3
ô (Descriptive; Homogeneity of…; Welch) => Continue =>Bấm tiếp ô Post hoc…; click ô Tukey
=> Continue => OK), nhưng mục Dependent List: là Total; mục Factor: là Ethnicity.
Descriptives
total
95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
Native 5 95.20 17.094 7.645 73.98 116.42 75 115
Asian 20 102.90 12.876 2.879 96.87 108.93 78 123
Black 24 100.08 14.714 3.004 93.87 106.30 65 124
White 45 102.27 14.702 2.192 97.85 106.68 51 123
Hispanic 11 92.91 21.215 6.397 78.66 107.16 52 120
Total 105 100.57 15.299 1.493 97.61 103.53 51 124
Based on Mean: Sig = 0,450 > 0,05 -> Phương sai hai nhóm không khác nhau -> sử dụng kết quả
bảng ANOVA
ANOVA
total
Sum of Squares df Mean Square F Sig.
Between Groups 1033.572 4 258.393 1.109 .357
Within Groups 23310.142 100 233.101
Total 24343.714 104
Sig = 0,357 > 0,05 trung bình hai nhóm không khác nhau về giá trị trung bình giữa các biến dân
tộc
Do vậy theo như trên thì bảng bên dưới cũng không có sự khác nhau có ý nghĩa thống kê về giá
trị trung bình của các cặp với nhau (do số Sig rất lớn, không có nào nhỏ < 0.05)
Multiple Comparisons
Dependent Variable: total
Tukey HSD
Mean Difference 95% Confidence Interval
(I) ethnicity (J) ethnicity (I-J) Std. Error Sig. Lower Bound Upper Bound
Native Asian -7.700 7.634 .851 -28.91 13.51
Black -4.883 7.506 .966 -25.74 15.97
White -7.067 7.197 .863 -27.06 12.93
Hispanic 2.291 8.235 .999 -20.59 25.17
Asian Native 7.700 7.634 .851 -13.51 28.91
Black 2.817 4.623 .973 -10.03 15.66
White .633 4.103 1.000 -10.77 12.03
Hispanic 9.991 5.731 .413 -5.93 25.91
Black Native 4.883 7.506 .966 -15.97 25.74
Asian -2.817 4.623 .973 -15.66 10.03
White -2.183 3.859 .980 -12.90 8.54
Hispanic 7.174 5.559 .698 -8.27 22.62
White Native 7.067 7.197 .863 -12.93 27.06
Asian -.633 4.103 1.000 -12.03 10.77
Black 2.183 3.859 .980 -8.54 12.90
Hispanic 9.358 5.135 .367 -4.91 23.62
Hispanic Native -2.291 8.235 .999 -25.17 20.59
Asian -9.991 5.731 .413 -25.91 5.93
Black -7.174 5.559 .698 -22.62 8.27
White -9.358 5.135 .367 -23.62 4.91
Correlations (sự tương quan)
Cách là bảng bên dưới: Analyze => Correlate => Bivariate => hiện ra bảng nhỏ (bấm thu gọn
label) => (so sánh độ tương quan của các biến) => bỏ S1 S2 S3 S4 vào ô Variables; => bấm OK
Correlations
S1 S2 S3 S4
S1. Pearson Correlation 1 .739** .619** .717**
Sig. (2-tailed) .000 .000 .000
N 1038 1037 952 1033
S2 Pearson Correlation .739** 1 .694** .766**
Sig. (2-tailed) .000 .000 .000
N 1037 1040 952 1034
** **
S3 Pearson Correlation .619 .694 1 .645**
Sig. (2-tailed) .000 .000 .000
N 952 952 954 951
** ** **
S4 Pearson Correlation .717 .766 .645 1
Sig. (2-tailed) .000 .000 .000
N 1033 1034 951 1035
**. Correlation is significant at the 0.01 level (2-tailed).
* GPA và TOTAL
Correlations của 2 biến gpa và total để xem độ tương quan của 2 biến ntn
Analyze => Correlate => Bivariate => hiện ra bảng nhỏ (bấm thu gọn label nếu cần) => (so sánh
độ tương quan của các biến) => bỏ gpa và total vào ô Variables; => bấm OK
Correlations
gpa total
gpa Pearson Correlation 1 .432**
Sig. (2-tailed) .000
N 105 105
**
total Pearson Correlation .432 1
Sig. (2-tailed) .000
N 105 105
**. Correlation is significant at the 0.01 level (2-tailed).
Hệ số = 0,3 < 0,432 < 0,49 –> tương quan trung bình
Variables Entered/Removeda
Variables Variables
Model Entered Removed Method
Model Summary
Std. Error of the
Model R R Square Adjusted R Square Estimate
a
1 .731 .534 .492 5.308
a. Predictors: (Constant), Top 10% HS, Median SAT, Expenditures/Student, Acceptance Rate
Slilde 66, 75
R Square: R bình phương = 0.534
The value of R2 indicates that 53% of the variation in the dependent
variable is explained by these independent variables
Hạn chế: (nằm trong bài học): Khi kích cỡ mẫu càng lớn thì R bình phương càng
to lên, càn tiến dần về 1.
Khi càng thêm nhiều biến independent variable (biến X) X5 X6 X7 (mặc dù các
biến này không có ý nghĩa gì về mặt khoa học và lý thuyết cả để đưa vào mô hình
của mình) vẫn sẽ đẩy R bình phương to lên so với mô hình k có 3 biến thêm đó. Vì
vậy để giải quyết vấn đề này, ngta cho ra R bình phương hiệu chỉnh.
R bình phương hiệu chỉnh là để điều chỉnh 2 thứ: kích cỡ mẫu (sample size) và số
lượng biến X (biến independent variable)
Giải thích:
Giá trị R bình phương = 0.534. => cho thấy 53% của cái biến thiên trong
biến Dependent varible(cụ thể ở trên là biến Graduation (tỉ lệ tốt nghiệp)) thì
nó được giải thích bởi các biến trong Independent variables (4 biến đã add
lúc đầu)
Giá trị R bình phương hiệu chỉnh = 0.492. => cho thấy 53% của cái biến
thiên trong biến Dependent varible(cụ thể ở trên là biến Graduation (tỉ lệ tốt
nghiệp)) thì nó được giải thích bởi các biến trong Independent variables (4
biến đã add lúc đầu) và nó có điều chỉnh cái kích mẫu cũng như số lượng
biến independent variable (biến độc lập trog mô hình)
Lưu ý: Rất nhiều sách vở hay GG đều nói R bình phương càng to thì mô
hình càng phù hợp, thì đây là quan điểm khác phổ biến và cổ điển. Tuy
nhiên quan điểm hiện đại R bình phương hay R bình phương hiệu chỉnh thì
không có đề cập nhiều đến 2 cái này.
Chỉ cần đánh giá % biến thiên, không được dựa vào cảm tính để nhận xét,
đánh giá mô hình này tốt hay xấu.
ANOVAa
Model Sum of Squares df Mean Square F Sig.
1 Regression 1423.209 4 355.802 12.627 .000b
Residual 1239.852 44 28.178
Total 2663.061 48
a. Dependent Variable: Graduation %
b. Predictors: (Constant), Top 10% HS, Median SAT, Expenditures/Student, Acceptance Rate
Bảng Anova trên là để Test sự sự phù hợp của mô hình tổng thể (k phải Anova giá
trị trung bình như buổi học trước) slide 91
Bước 1: Lấy Sig so sánh với 0,05 để xem mô hình nghiên cứu phù hợp không?
Sig = 0,000 < 0,05 => mô hình nghiên cứu này phù hợp => phân tích bảng dưới
(90% thuộc trường hợp này)
Sig > 0,05 => mô hình nghiên cứu không phù hợp => làm lại bài
Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 17.921 24.557 .730 .469
Median SAT .072 .018 .606 4.004 .000
Acceptance Rate -.249 .083 -.446 -2.990 .005
Expenditures/Student .000 .000 -.282 -2.057 .046
Top 10% HS -.163 .079 -.296 -2.051 .046
a. Dependent Variable: Graduation %
Correlations
Acceptance
Median SAT Rate Expenditures/Student Top 10% HS
Median SAT Pearson Correlation 1 -.602** .573** .503**
Sig. (2-tailed) .000 .000 .000
N 49 49 49 49
** *
Acceptance Rate Pearson Correlation -.602 1 -.284 -.610**
Sig. (2-tailed) .000 .048 .000
N 49 49 49 49
** *
Expenditures/Student Pearson Correlation .573 -.284 1 .506**
Sig. (2-tailed) .000 .048 .000
N 49 49 49 49
Top 10% HS Pearson Correlation .503** -.610** .506** 1
Sig. (2-tailed) .000 .000 .000
N 49 49 49 49
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).
Các hệ số tương quan Pearson không vượt quá 0.7 nên không có sự đa cộng tuyến ở đây.
* Nếu hệ số tương quan Pearson vượt quá +/- 0.7 thì có sự tương quan mạnh
Coefficientsa
Transform -> Compute Variable
Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 893.588 1824.575 .490 .628
Age 1044.146 42.141 .975 24.777 .000
MBA 14767.232 1351.802 .430 10.924 .000
a. Dependent Variable: Salary
(Hệ số của biến MBA có ý nghĩa thống kê và có dấu dương. Điều này cho thấy có bằng MBA có tác động
tích cực lên lương.)
Nếu một người nhân viên có bằng MBA, người này có lương cao hơn 14767.23 USD so với người không
có bằng MBA, giữ nguyên các yếu tố khác không thay đổi.)
Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 3902.509 1336.398 2.920 .006
Age 971.309 31.069 .907 31.263 .000
MBA -2971.080 3026.242 -.086 -.982 .334
Age_MBA 501.848 81.552 .531 6.154 .000
a. Dependent Variable: Salary