TH C Hành & Phân Tích

Frequencies: 1 biến phân loại
* So sánh hơn: Analyze => Descriptive => Frequencies=> chọn biến cần phân tích (VD: gender)
=> nhấn Ok là xong.
gender
Cumulative
Frequency Percent Valid Percent Percent
Valid Female 64 61.0 61.0 61.0
Male 41 39.0 39.0 100.0
Total 105 100.0 100.0
Phân tích: Trong mẫu này, nam chiếm 39% (41 người nam) thấp hơn rất nhiều so với nữ chiếm 61% (64
người nữ).
* So sánh nhất: Analyze => Descriptive => Frequency => chọn biến cần phân tích (ethnicity).
ethnicity
Cumulative
Frequency Percent Valid Percent Percent
Valid Native 5 4.8 4.8 4.8
Asian 20 19.0 19.0 23.8
Black 24 22.9 22.9 46.7
White 45 42.9 42.9 89.5
Hispanic 11 10.5 10.5 100.0
Total 105 100.0 100.0
Phân tích: Trong mẫu nghiên cứu này, người da trắng chiếm tỉ trọng cao nhất là 42.9% và người bản địa
chiếm tỉ trọng thấp nhất là 4.8%.
Crosstabulation: 2 biên phân loại
* Analyze => Descriptive statistics => Crosstabs=> phần Row chọn gender => colum chọn
ethnicity
gender * ethnicity Crosstabulation

Count
ethnicity
Native Asian Black White Hispanic Total
gender Female 4 13 14 26 7 64
Male 1 7 10 19 4 41
Total 5 20 24 45 11 105
Phân tích: Trong mẫu nghiên cứu này, người bản địa là Nữ có 4 người, người bản địa là Nam có 1 người.
Tổng người bản địa là 5 người
* Chạy theo dòng (Rows): * Analyze => Descriptive statistics => Crosstabs => Cells (dùng để hiện
ra tỉ lệ phần trăm theo row or colum)=> Rows => Continue => OK

ethnicity
gender Female Count 4 13 14 26 7 64
% within gender 6.3% 20.3% 21.9% 40.6% 10.9% 100.0%
Male Count 1 7 10 19 4 41
% within gender 2.4% 17.1% 24.4% 46.3% 9.8% 100.0%
Total Count 5 20 24 45 11 105
% within gender 4.8% 19.0% 22.9% 42.9% 10.5% 100.0%
Phân tích: Trong mẫu nghiên cứu này, người bản địa nữ chiếm 6,3%, người châu Á nữ chiếm
20,3%..........
Phân tích mẫu cộng dồn thành 100%
* Chạy theo cột (Column): * Analyze => Descriptive statistics => Crosstabs => Cells (dùng để
hiện ra tỉ lệ phần trăm theo row or colum) => Colum => Continue => OK

ethnicity
% within ethnicity 80.0% 65.0% 58.3% 57.8% 63.6% 61.0%
Male Count 1 7 10 19 4 41
Total Count 5 20 24 45 11 105
Phân tích: Trong mẫu nghiên cứu này, có 80% người bản địa là nữ, 20% người bản địa là Nam.
Có 65% người châu Á là nữ, 35% người châu Á là Nam. …………….
Crosstabulation (Row): Analyze  Descriptive Statistics  Grosstabs ( Row:
gender / Column: grade)  Cells  Percentages (Row – đọc phân tích theo dòng) 
Continue
gender * grade Crosstabulation

grade
A B C D F Total
% within gender 23.4% 31.3% 35.9% 6.3% 3.1% 100.0%
Male Count 8 12 12 5 4 41
% within gender 19.5% 29.3% 29.3% 12.2% 9.8% 100.0%
Total Count 23 32 35 9 6 105
% within gender 21.9% 30.5% 33.3% 8.6% 5.7% 100.0%
Phân tích: Trong mẫu nghiên cứu này có 3,1% nữ bị điểm F nhỏ hơn gấp 3 lần so với tỉ lệ Nam
bị điểm F (9,8%) -> Tỷ lệ nam rớt nhiều hơn nữ.
Graph and chart

* Graphs => Chart builder => Chọn biển đồ (Bar: cột; Line: Đường; Pie (chiếc bánh phần trăm;
Scatter; …)
* Muốn chọn biểu đồ nào thì nhấn chọn và kéo thẻ lên trên.
* Muốn xóa biểu đồ thì nhấn chuột phải vào biểu đồ chọn clear.
 Bar Graph (Biểu đồ cột):
Count
* Hàng ngang (x) chọn gender (nhấn kéo vào) => nhấn OK.
* Để có số liệu hiển thị trên đồ thị ta nhấn double 2 lần => hiện ra 1 bảng, kiểm ký hiệu
hình đồ thị (show data labels) tùy cấu hình máy mà nó nằm bên góc trái or bên góc phải =>
sau đó tắt đi, tự nó sẽ lưu bên biểu đồ chính
Percent (%)
* Nếu muốn hiển thị thông số trên đồ thị là % thì lúc kéo chọn biểu đồ xong, để ý bảng bên phải
=> mục Statistics => chọn Percentage thay vì count (mặc định sẳn)
 Bar 2: 1 biến phân loại và 1 biến liên tục (Bar Mean)
* Chọn biểu đồ giống như các hình trên => cột x kéo gender; cột y kéo total (để xem tổng nam
và nữ có giống nhau không) mục statistics: mean thì cứ để nguyên => nhấn OK => để hiện số
liệu nhấn double vào biểu đồ => chọn show data như trên.
 Biểu đồ đường ( Line)

* Trục x kéo date (đối với các dữ liệu chuỗi thời gian thì trục x luôn để là ngày tháng); trục y
kéo price.
* Đối với biểu đồ line thì chúng ta không cần show các số liệu (data label) vì khi show lên sẽ có
hàng trăm điểm nhìn rất rối mắt, biểu đồ line chủ yếu dùng để nói về xu hướng của nó thôi (xu
hướng tăng lên, giảm xuống, đi ngang qua)
 Biểu đồ tròn (Pie Chart): dùng để xem cơ cấu, tỷ trọng
* Chọn biểu đồ Pie => kéo ethnicity vào ô sline by => mục statistics chọn percentage =>
apply => OK
* Tiếp tục nhấn double => show data label => OK

 Biểu đồ phân tán ( Scatter/Dot):
* Chọn biểu đồ Scatter/Dot => chọn Fix line => trục x kéo price; trục y kéo demand (giá là giải
thích cho nhu cầu (demand) nên demand là biến phụ thuộc nằm ở cột y; giá cả tác động đến nhu
cầu) => statistics để value ok => OK
* Biểu đồ trên cũng không cần hiển thị con số.
* Cách bỏ bớt số 0 ở cột y: click vô biểu đồ => click vô con số cần xóa bớt số 0 => hiện ra bảng
properties => mục Decimal places chỉnh thành 0 => Close
* Cột x tương tự như trên.
Descriptive Statistics
* Analyze => Descriptive =>Desciptives => bỏ 4 biến gender, ethnicity, gpa, total qua
(varitable) => nhấn OK
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
gender 105 1 2 1.39 .490
ethnicity 105 1 5 3.35 1.056
gpa 105 1.14 4.00 2.7789 .76380
total 105 51 124 100.57 15.299
Valid N (listwise) 105
N: số quan sát ( số người trả lời): 105 người

Mean: giá trị trung bình
STD Deviation: độ lệch chuẩn (không so được các tiêu chí do đơn vị khác nhau)
Mean: không có ý nghĩa, nếu các chỉ tiêu thay đổi mã hóa thì Mean cũng sẽ bị thay đổi (gender, ethnicity)
Đối với GPA và TOTAL: thì MEAN mới có ý nghĩa
Std. Deviation: độ lệch chuẩn
T-test
* Analyze => Compare means =>Independent-sample T Test => Test variable chọn Total;
Grouping Variable chọn Gender => sau đó nhấp tiếp vào Define Groups (do gender có 2 phân
loại là nam và nữ)=> Group 1: 1 Group 2: 2 (phụ thuộc vào thứ tự mã hóa ở bảng thông tin, nếu
ở ngoài kia khai mã hóa là thứ 3 thứ 4 thì vô đây chỉnh là G1: 3; G2:4, lý do phải khai đúng là để
nó dò thông tin cho đúng, khai sai sẽ k ra kq)
Group Statistics
gender N Mean Std. Deviation Std. Error Mean
total Female 64 102.03 13.896 1.737
Male 41 98.29 17.196 2.686
Có 64 quan sát Female, giá trị TB là 102,03

Có 41 quan sát Male, giá trị TB là 98,29
Điểm Male phân tán hơn so với Female. Cùng so sánh 1 biến nên so sánh cả 2.
Independent Samples Test

Levene's Test for
Equality of
Variances t-test for Equality of Means
95% Confidence
Interval of the
Sig. (2- Mean Std. Error Difference
F Sig. t df tailed) Difference Difference Lower Upper
tota Equal variances 2.019 .158 1.224 103 0.224 3.739 3.053 -2.317 9.794
l assumed
Equal variances 1.169 72.421 .246 3.739 3.198 -2.637 10.114
not assumed
Bảng phân tích 2 quá dài, để chỉnh lại ta chọn toàn bộ bảng => chọn layout (nếu dùng bản word
nhái thì chọn table tools) => Auto Fix => Auto Fix Window.
Sig 158: ý nghĩa thống kê
T Test chỉ so sánh được giữa 2 nhóm, còn 3 nhóm trở lên sẽ dùng công cụ khác gọi là Anova
Nếu Sig. của kiểm định t ≤ α= 0.05 (mức ý nghĩa) -> có sự khác biệt đáng kể về giá trị trung bình
của 2 ý nghĩa thống kê. Mức ý nghĩa thông thường là 0,05.
Nếu Sig. > α (mức đáng kể) -> không có sự khác biệt đáng kể về giá trị trung bình của 2 ý nghĩa
thống kê.
 In the example above sig. = 0.224 > 0.05, so it is concluded that there is no significant
difference in mean of the 2 populations. In other words, between males and females,
there is no evidence of difference in means of total scores.
 Trong ví dụ trên sig. = 0,224 > 0,05 nên kết luận không có sự khác biệt có ý nghĩa về giá trị
trung bình của 2 tổng thể. Nói cách khác, giữa nam và nữ, không có bằng chứng về sự khác biệt
về phương tiện tổng điểm.
Bài làm thêm:

Group Statistics
gender N Mean Std. Deviation Std. Error Mean
gpa Female 64 2.8967 .74622 .09328
Male 41 2.5949 .76346 .11923
Có sự khá biệt lớn giữa MEAN

Independent Samples Test
Levene's Test for
Equality of
Variances t-test for Equality of Means
95% Confidence
Interval of the
Sig. (2- Mean Std. Error Difference
F Sig. t df tailed) Difference Difference Lower Upper
gpa Equal variances .331 .566 2.004 103 .048 .30184 .15062 .00312 .60056
assumed
Equal variances 1.994 83.974 .049 .30184 .15138 .00080 .60288
not assumed
Trong ví dụ trên sig. = 0,048 < 0,05 nên kết luận có sự khác biệt có ý nghĩa về giá trị trung bình của 2
tổng thể. Nói cách khác, giữa nam và nữ, có bằng chứng về sự khác biệt về phương tiện tổng điểm.
 In the example above sig. = 0,048 < 0.05, so it is concluded that there is significant difference in
mean of the 2 populations. In other words, between males and females, there is evidence of
difference in means of total scores.
PAIRED – SAMPLES T – TEST
* Analyze => Compare means => Paired-Sample T test => chọn Quiz1 vào Varibble 1; Quiz2
vào Variable 2 => nhấp OK
Paired Samples Statistics

Mean N Std. Deviation Std. Error Mean
Pair 1 quiz1 7.47 105 2.481 .242
quiz2 7.98 105 1.623 .158
Giá trị TB q1 = 7.47 khó hơn q2 = 7.98 vì q2 cao hơn.
Paired Samples Test

Paired Differences
95% Confidence Interval
Std. Std. Error of the Difference Sig. (2-
Mean Deviation Mean Lower Upper t df tailed)
Pair quiz1 - -.514 1.835 .179 -.869 -.159 -2.872 104 .005
1 quiz2
0,005 so với 0,05: 0,005 <0,05 This paired-samples t test analysis indicates that for the 105
subjects, there is a significant difference in the mean of the two quizzes (sig. = 0.005 < 0.05).
In other words, the mean score on the second quiz (M = 7.98) was significantly greater than the
mean score on the first quiz (M = 7.47).
Phân tích kiểm tra t mẫu theo cặp này chỉ ra rằng đối với 105 đối tượng, có sự khác biệt đáng kể về giá trị
trung bình của hai câu hỏi (sig. = 0,005 < 0,05). Nói cách khác, điểm trung bình của bài kiểm tra thứ hai
(M = 7,98) lớn hơn đáng kể so với điểm trung bình của bài kiểm tra đầu tiên (M = 7,47).
ANOVA
Thông tin làm biểu đồ trên lấy ở file Oddjob trong LMS, mở files ra chỉnh ở hàng 16: overall_sat
=> Ordinal thành Scale
* Graphs => Chart Builder => mục Variables nhấp chuột phải chọn Age [age] => chọn Display
variable Names (để chỉnh tên nhãn do dài quá thu gọn lại dễ tìm hơn)=> chọn biểu đồ Bar (kéo
biểu đồ đầu tiên lên) => add Status xuống cột X; Overall_sat vào cột Y => mục Statistics: mean
là ok => nhấp OK
* Số liệu được làm tròn nhiều quá thì chỉnh lại. Nhấp double vào số liệu đó hiện ra cái bảng,
chọn Number Format, mục Decimal Places chỉnh về số 2 (2 số thập phân) => nhấp Apply
ANOVA
* Cách làm: (trong dữ liệu Oddjob mà mình đang phân tích dòng overrall_vat phải
chỉnh từ Ordinal thành Scared) Analyze => Compare Means => One-Way NOVA
=> (hiện lên hộp thoại)(thu gọn label cho dễ nhìn chuôt phải chọn Display Variable
Names => bỏ overall_sat qua dependent list => bỏ Status qua Factor => nhìn bên
phải chọn tiếp mục options click vào 3 ô (descriptive; Homogeneity of variance
test; welch) => Continues => Ok
Descriptives
Overall, I am satisfied with the price performance ratio of Oddjob Airways.
95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
Blue 677 4.47 1.641 .063 4.35 4.60 1 7
Silver 245 4.03 1.560 .100 3.84 4.23 1 7
Gold 143 3.99 1.556 .130 3.73 4.24 1 7
Total 1065 4.31 1.625 .050 4.21 4.40 1 7
Mean: (các số quan sát) giá trị trung bình; giá trị tb của blue 4.47 là hài lòng nhất
Min và max: giá trị nó sẽ chạy từ 1->7, thấp nhất là 1, cao nhất là 7
Test of Homogeneity of Variances

Levene Statistic df1 df2 Sig.
Overall, I am satisfied with Based on Mean .907 2 1062 .404
the price performance ratio Based on Median .068 2 1062 .934
of Oddjob Airways. Based on Median and with .068 2 1017.925 .934
adjusted df
Based on trimmed mean .771 2 1062 .463
Based on mean: dựa trên giá trị trung bình
Based on Median: dựa trên giá trị trung vị
- Based on Mean: 0,404>0,05 phương sai 2 nhóm không khác nhau -> dùng kết quả bảng Anova
(kiểm định F) or (nếu kết quả < 0.05 thì dùng bảng kết quả Rubust Tests)
ANOVA
Overall, I am satisfied with the price performance ratio of Oddjob Airways.
Sum of Squares df Mean Square F Sig.
Between Groups 51.755 2 25.878 9.963 .000
Within Groups 2758.455 1062 2.597
Total 2810.210 1064
-Nếu Sig = 0,000<0,05 -> trung bình 2 nhóm khác nhau

The model has an F-value of 9.963, which yields a p-value of 0.00 (less than 0.05), suggesting
that at least two of the three groups differ significantly with regard to the mean of overall
price/performance satisfaction. (Có sự khác biệt có ý nghĩa thống kê giữa ít nhất 2 nhóm khách
hàng về giá trị trung bình của sự hài lòng về giá.)
Sau khi phân tích số liệu xong, thì vào các bước như trên, nhìn bên phải chọn mục Post Hoc…
=> click vào Tukey (để chỉ ra cặp nào khác nhau) => Continue => Ok (sẽ ra được bảng bên
dưới)
-> Bấm Post Hoc…-> Turkey
Multiple Comparisons
Dependent Variable: Overall, I am satisfied with the price performance ratio of Oddjob Airways.
Tukey HSD
Mean Difference 95% Confidence Interval
(I) Traveler Status (J) Traveler Status (I-J) Std. Error Sig. Lower Bound Upper Bound
*
Blue Silver .440 .120 .001 .16 .72
*
Gold .487 .148 .003 .14 .83
Silver Blue -.440* .120 .001 -.72 -.16
Gold .047 .170 .959 -.35 .44
*
Gold Blue -.487 .148 .003 -.83 -.14
Silver -.047 .170 .959 -.44 .35
*. The mean difference is significant at the 0.05 level.
Phân tích:
Cặp Blue và Silver có khác nhau (sig 0.001 < 0.05)
Cặp Blue và Gold có khác nhau (sig 0.003 < 0.05)
Cặp Silver và Gold không có khác nhau (k có ý nghĩa thống kê) (sig 0.959 > 0.05)
DÂN TỘC
Sử dụng files Grades và cách làm như trên (Analyze => Compare Means => One-Way Anova =>
kéo Total vô mục Dependent list; Ethnicity vào mục Factor => Bấm options bên phải: click vô 3
ô (Descriptive; Homogeneity of…; Welch) => Continue =>Bấm tiếp ô Post hoc…; click ô Tukey
=> Continue => OK), nhưng mục Dependent List: là Total; mục Factor: là Ethnicity.
Descriptives
total
95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
Native 5 95.20 17.094 7.645 73.98 116.42 75 115
Asian 20 102.90 12.876 2.879 96.87 108.93 78 123
Black 24 100.08 14.714 3.004 93.87 106.30 65 124
White 45 102.27 14.702 2.192 97.85 106.68 51 123
Hispanic 11 92.91 21.215 6.397 78.66 107.16 52 120
Total 105 100.57 15.299 1.493 97.61 103.53 51 124
Người châu Á nhiều nhất (Means = 102.9)
Test of Homogeneity of Variances

Levene Statistic df1 df2 Sig.
total Based on Mean .930 4 100 .450
Based on Median .449 4 100 .773
Based on Median and with .449 4 78.532 .773
adjusted df
Based on trimmed mean .825 4 100 .512
Based on Mean: Sig = 0,450 > 0,05 -> Phương sai hai nhóm không khác nhau -> sử dụng kết quả
bảng ANOVA
ANOVA
total
Sum of Squares df Mean Square F Sig.
Between Groups 1033.572 4 258.393 1.109 .357
Within Groups 23310.142 100 233.101
Total 24343.714 104
Sig = 0,357 > 0,05 trung bình hai nhóm không khác nhau về giá trị trung bình giữa các biến dân
tộc
Do vậy theo như trên thì bảng bên dưới cũng không có sự khác nhau có ý nghĩa thống kê về giá
trị trung bình của các cặp với nhau (do số Sig rất lớn, không có nào nhỏ < 0.05)
Robust Tests of Equality of Means

total
Statistica df1 df2 Sig.
Welch .689 4 20.765 .608
a. Asymptotically F distributed.
Multiple Comparisons
Dependent Variable: total
Tukey HSD
Mean Difference 95% Confidence Interval
(I) ethnicity (J) ethnicity (I-J) Std. Error Sig. Lower Bound Upper Bound
Native Asian -7.700 7.634 .851 -28.91 13.51
Black -4.883 7.506 .966 -25.74 15.97
White -7.067 7.197 .863 -27.06 12.93
Hispanic 2.291 8.235 .999 -20.59 25.17
Asian Native 7.700 7.634 .851 -13.51 28.91
Black 2.817 4.623 .973 -10.03 15.66
White .633 4.103 1.000 -10.77 12.03
Hispanic 9.991 5.731 .413 -5.93 25.91
Black Native 4.883 7.506 .966 -15.97 25.74
Asian -2.817 4.623 .973 -15.66 10.03
White -2.183 3.859 .980 -12.90 8.54
Hispanic 7.174 5.559 .698 -8.27 22.62
White Native 7.067 7.197 .863 -12.93 27.06
Asian -.633 4.103 1.000 -12.03 10.77
Black 2.183 3.859 .980 -8.54 12.90
Hispanic 9.358 5.135 .367 -4.91 23.62
Hispanic Native -2.291 8.235 .999 -25.17 20.59
Asian -9.991 5.731 .413 -25.91 5.93
Black -7.174 5.559 .698 -22.62 8.27
White -9.358 5.135 .367 -23.62 4.91
Correlations (sự tương quan)
Bảng bên dưới sử dụng dữ liệu trong file Correlations
Cách là bảng bên dưới: Analyze => Correlate => Bivariate => hiện ra bảng nhỏ (bấm thu gọn
label) => (so sánh độ tương quan của các biến) => bỏ S1 S2 S3 S4 vào ô Variables; => bấm OK
S1;2;3;4: là câu hỏi về độ hài lòng.
Correlations
S1 S2 S3 S4
S1. Pearson Correlation 1 .739** .619** .717**
Sig. (2-tailed) .000 .000 .000
N 1038 1037 952 1033
S2 Pearson Correlation .739** 1 .694** .766**
Sig. (2-tailed) .000 .000 .000
N 1037 1040 952 1034
** **
S3 Pearson Correlation .619 .694 1 .645**
Sig. (2-tailed) .000 .000 .000
N 952 952 954 951
** ** **
S4 Pearson Correlation .717 .766 .645 1
Sig. (2-tailed) .000 .000 .000
N 1033 1034 951 1035
**. Correlation is significant at the 0.01 level (2-tailed).
Sự hài lòng của khách hàng (s1, s2, s3, s4)

hệ số tương quan = 1 khi 1 biến tương quan với chính nó. Đọc dữ liệu chéo ( đọc ở
dưới đường chéo số 1 do ở trên cũng giống)
6 Pearson
- Hệ số tương quan giữa các biến đều > 0,49 -> tương quan mạnh
The correlation matrix shows the correlation between each pairwise combination of variables.
For example, the correlation between s1 (“ … with Oddjob Airways you will arrive on time.”)
and s2 (“ … the entire journey with Oddjob Airways will occur as booked.”) is 0.739, which
indicates a strong relationship according to Cohen (1988).
As indicated by the two asterisks, the correlation is significant at a 1 % level.
4 câu hỏi này liên quan đến khách hàng, nếu thiết kế tốt thì s1, s2, s3, s4 đều mạnh vì thường trl
như thế nào thì câu sau cũng vậy ( đều trl theo ý tốt) nên có sự tương quan mạnh
* GPA và TOTAL
Correlations của 2 biến gpa và total để xem độ tương quan của 2 biến ntn
Analyze => Correlate => Bivariate => hiện ra bảng nhỏ (bấm thu gọn label nếu cần) => (so sánh
độ tương quan của các biến) => bỏ gpa và total vào ô Variables; => bấm OK
Correlations
gpa total
gpa Pearson Correlation 1 .432**
Sig. (2-tailed) .000
N 105 105
**
total Pearson Correlation .432 1
Sig. (2-tailed) .000
N 105 105
Hệ số tương quan =1 khi 1 biến tương quan với chính nó
Hệ số = 0,3 < 0,432 < 0,49 –> tương quan trung bình
Variables Entered/Removeda
Variables Variables
Model Entered Removed Method
1 Top 10% HS, . Enter

Median SAT,
Expenditures/St
udent,
Acceptance
Rateb
a. Dependent Variable: Graduation %
b. All requested variables entered.
Phân tích tỉ lệ tốt nghiệp của các trường đh ở Hoa Kỳ
Model Summary
Std. Error of the
Model R R Square Adjusted R Square Estimate
a
1 .731 .534 .492 5.308
a. Predictors: (Constant), Top 10% HS, Median SAT, Expenditures/Student, Acceptance Rate
Slilde 66, 75
R Square: R bình phương = 0.534
The value of R2 indicates that 53% of the variation in the dependent
variable is explained by these independent variables
Hạn chế: (nằm trong bài học): Khi kích cỡ mẫu càng lớn thì R bình phương càng
to lên, càn tiến dần về 1.
Khi càng thêm nhiều biến independent variable (biến X) X5 X6 X7 (mặc dù các
biến này không có ý nghĩa gì về mặt khoa học và lý thuyết cả để đưa vào mô hình
của mình) vẫn sẽ đẩy R bình phương to lên so với mô hình k có 3 biến thêm đó. Vì
vậy để giải quyết vấn đề này, ngta cho ra R bình phương hiệu chỉnh.
R bình phương hiệu chỉnh là để điều chỉnh 2 thứ: kích cỡ mẫu (sample size) và số
lượng biến X (biến independent variable)
Giải thích:
Giá trị R bình phương = 0.534. => cho thấy 53% của cái biến thiên trong
biến Dependent varible(cụ thể ở trên là biến Graduation (tỉ lệ tốt nghiệp)) thì
nó được giải thích bởi các biến trong Independent variables (4 biến đã add
lúc đầu)
Giá trị R bình phương hiệu chỉnh = 0.492. => cho thấy 53% của cái biến
thiên trong biến Dependent varible(cụ thể ở trên là biến Graduation (tỉ lệ tốt
nghiệp)) thì nó được giải thích bởi các biến trong Independent variables (4
biến đã add lúc đầu) và nó có điều chỉnh cái kích mẫu cũng như số lượng
biến independent variable (biến độc lập trog mô hình)
Lưu ý: Rất nhiều sách vở hay GG đều nói R bình phương càng to thì mô
hình càng phù hợp, thì đây là quan điểm khác phổ biến và cổ điển. Tuy
nhiên quan điểm hiện đại R bình phương hay R bình phương hiệu chỉnh thì
không có đề cập nhiều đến 2 cái này.
Chỉ cần đánh giá % biến thiên, không được dựa vào cảm tính để nhận xét,
đánh giá mô hình này tốt hay xấu.
Adjusted R Square : R bình phương hiệu chỉnh = 0.492

49% của biến tỷ lệ tốt nghiệp được giải thích bởi 4 biến
R2 không quá quan trọng
ANOVAa
Model Sum of Squares df Mean Square F Sig.
1 Regression 1423.209 4 355.802 12.627 .000b
Residual 1239.852 44 28.178
Total 2663.061 48
b. Predictors: (Constant), Top 10% HS, Median SAT, Expenditures/Student, Acceptance Rate
Bảng Anova trên là để Test sự sự phù hợp của mô hình tổng thể (k phải Anova giá
trị trung bình như buổi học trước) slide 91
Bước 1: Lấy Sig so sánh với 0,05 để xem mô hình nghiên cứu phù hợp không?
Sig = 0,000 < 0,05 => mô hình nghiên cứu này phù hợp => phân tích bảng dưới
(90% thuộc trường hợp này)
Sig > 0,05 => mô hình nghiên cứu không phù hợp => làm lại bài
Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 17.921 24.557 .730 .469
Median SAT .072 .018 .606 4.004 .000
Acceptance Rate -.249 .083 -.446 -2.990 .005
Expenditures/Student .000 .000 -.282 -2.057 .046
Top 10% HS -.163 .079 -.296 -2.051 .046
Hệ số chi tiêu trên sv là (-) : - 0.0000136

Phân tích tác động
* Median SAT:
B1: Sig. của Median SAT = 0.000 < 0.1 -> có ý nghĩa thống kê.
B2: Dấu của hệ số Median SAT (+)  Median SAT có tác động tích cực lên
Graduation
(Hệ số của biến Median SAT có ý nghĩa thống kê và có có dấu dương. Điều này
cho thấy điểm SAT có tác động tích cực lên tỷ lệ tốt nghiệp.)
- Ý nghĩa kinh tế:Nếu điểm trung vị SAT (median SAT) tăng lên 1 điểm, thì tỷ lệ
tốt nghiệp tăng lên 0.072%, giữ nguyên các yếu tố khác không thay đổi.)
* Acceptance Rate: tỷ lệ chấp thuận
Hệ số của biến Acceptance Rate có ý nghĩa thống kê ( Sig. 0.005<0.1) và có dấu
âm. Điều này cho thẩy Acceptance Rate có tác động ngược chiều lên tỷ lệ tốt
nghiệp).
- Ý nghĩa kinh tế: Nếu Acceptance Rate tăng lên 1% thì tỷ lệ tốt nghiệp sẽ giảm
0.249 %, giữ nguyên các yếu tố khác không thay đổi.
* Expenditures/Student: chi tiêu trên mỗi sinh viên
Hệ số của biến chi tiêu trên mỗi sinh viên nhỏ hơn 0.1 (0.046<0.1) có ý nghĩa
thống và có dấu (-). Điều này cho thấy chi tiêu trên mỗi sinh viên có tác động
ngược chiều lên tỷ lệ tốt nghiệp.
 Ý nghĩa kinh tế: Nếu chi tiêu trên mỗi sinh viên tăng 1 đô thì tỷ lệ tốt nghiệp
giảm 0,000136%, giữ nguyên các yếu tố không thay đổi.
* Top 10 HS:
Hệ số của biến chi tiêu trên mỗi sinh viên nhỏ hơn 0.1 (0.046<0.1) có ý nghĩa
thống và có dấu (-). Điều này cho thấy top 10 học sinh cấp 2 có tác động ngược
chiều lên tỷ lệ tốt nghiệp.
 Ý nghĩa kinh tế: Nếu top 10 học sinh cấp 2 tăng 1 học sinh thì tỷ lệ tốt nghiệp
giảm 0, 163%, giữ nguyên các yếu tố không thay đổi.
Correlations
Acceptance
Median SAT Rate Expenditures/Student Top 10% HS
Median SAT Pearson Correlation 1 -.602** .573** .503**
Sig. (2-tailed) .000 .000 .000
N 49 49 49 49
** *
Acceptance Rate Pearson Correlation -.602 1 -.284 -.610**
Sig. (2-tailed) .000 .048 .000
N 49 49 49 49
** *
Expenditures/Student Pearson Correlation .573 -.284 1 .506**
Sig. (2-tailed) .000 .048 .000
N 49 49 49 49
Top 10% HS Pearson Correlation .503** -.610** .506** 1
Sig. (2-tailed) .000 .000 .000
N 49 49 49 49
*. Correlation is significant at the 0.05 level (2-tailed).
Các hệ số tương quan Pearson không vượt quá 0.7 nên không có sự đa cộng tuyến ở đây.
* Nếu hệ số tương quan Pearson vượt quá +/- 0.7 thì có sự tương quan mạnh
Coefficientsa
Transform -> Compute Variable
Coefficientsa
Standardized
1 (Constant) 893.588 1824.575 .490 .628
Age 1044.146 42.141 .975 24.777 .000
MBA 14767.232 1351.802 .430 10.924 .000
a. Dependent Variable: Salary
(Hệ số của biến MBA có ý nghĩa thống kê và có dấu dương. Điều này cho thấy có bằng MBA có tác động
tích cực lên lương.)
Nếu một người nhân viên có bằng MBA, người này có lương cao hơn 14767.23 USD so với người không
có bằng MBA, giữ nguyên các yếu tố khác không thay đổi.)
Coefficientsa
Standardized
1 (Constant) 3902.509 1336.398 2.920 .006
Age 971.309 31.069 .907 31.263 .000
MBA -2971.080 3026.242 -.086 -.982 .334
Age_MBA 501.848 81.552 .531 6.154 .000
a. Dependent Variable: Salary

TH C Hành & Phân Tích

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

TH C Hành & Phân Tích

Uploaded by

Copyright:

Available Formats

Frequencies: 1 biến phân loại

Crosstabulation: 2 biên phân loại

gender * ethnicity Crosstabulation

gender * ethnicity Crosstabulation

gender * ethnicity Crosstabulation

gender * grade Crosstabulation

Graph and chart

 Biểu đồ đường ( Line)

* Tiếp tục nhấn double => show data label => OK

* Cột x tương tự như trên.

N: số quan sát ( số người trả lời): 105 người

Có 64 quan sát Female, giá trị TB là 102,03

Independent Samples Test

Bài làm thêm:

Có sự khá biệt lớn giữa MEAN

Paired Samples Statistics

Giá trị TB q1 = 7.47 khó hơn q2 = 7.98 vì q2 cao hơn.

Paired Samples Test

Test of Homogeneity of Variances

Based on mean: dựa trên giá trị trung bình

Based on Median: dựa trên giá trị trung vị

-Nếu Sig = 0,000<0,05 -> trung bình 2 nhóm khác nhau

Cặp Blue và Gold có khác nhau (sig 0.003 < 0.05)

Người châu Á nhiều nhất (Means = 102.9)

Test of Homogeneity of Variances

Robust Tests of Equality of Means

Bảng bên dưới sử dụng dữ liệu trong file Correlations

S1;2;3;4: là câu hỏi về độ hài lòng.

Sự hài lòng của khách hàng (s1, s2, s3, s4)

Hệ số tương quan =1 khi 1 biến tương quan với chính nó

1 Top 10% HS, . Enter

a. Dependent Variable: Graduation %

b. All requested variables entered.

Phân tích tỉ lệ tốt nghiệp của các trường đh ở Hoa Kỳ

Adjusted R Square : R bình phương hiệu chỉnh = 0.492

Hệ số chi tiêu trên sv là (-) : - 0.0000136

You might also like