Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 15

Hồi quy Tương quan tuyến tính Pearson T-testchi Square

Kiểm đinh thống kê


Hồi quy đơn biến
Tìm phương trinh hồi quy đại diện cho mối liên hệ giữa 2 biến, y =ax+b; y là biến phụ
thuộc (dependent); x là biến độc lập (independent)
Mục đích: tìm pt hồi quy để dự báo tương lai và dự báo yếu tố mà chúng ta ko thấy được
Đưa ra pt tổng quán
Chạy hồi quy
Báo cáo phuwogn trình hồi quy
Kiểm tra giả định
Báo cáo giả định
Bài 6: Xây dưng mô hingh hồi quy đơn biến giữa thời gian xem tivi và cholesterol của đàn
ông từ 45-65 tuổi
Phương trình hồi quy tổn quát có dạng y=ax+b  cholesterol = a *time_tv +b
Trong đó cholesterol là biến phụ thuộc. Biến time_tivi là biến độc lập
Kiểm định hồi quy đơn biến được thực hiên giữa 2 biến cholesterol và time_tiv, kết quả
như sau :
Model Summaryb

Model R R Square Adjusted R Std. Error of the Durbin-Watson


Square Estimate

1 .389a .151 .143 .53759 1.957

a. Predictors: (Constant), Time in minutes spent watching TV


b. Dependent Variable: Cholesterol concentration

ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression 5.049 1 5.049 17.471 .000b
1 Residual 28.322 98 .289
Total 33.371 99
a. Dependent Variable: Cholesterol concentration
b. Predictors: (Constant), Time in minutes spent watching TV

Coefficientsa

Model Unstandardized Standardized t Sig. 95.0% Confidence


Coefficients Coefficients Interval for B

B Std. Error Beta Lower Upper


Bound Bound

(Constant) -2.135 1.813 -1.177 .242 -5.733 1.463


1 Time in minutes
.044 .011 .389 4.180 .000 .023 .065
spent watching TV

a. Dependent Variable: Cholesterol concentration

Dựa vào kết quả phương trinh hồi quy đơn biến nhưu sau: cholesterol = 0.044*time_tv -2.135
Hệ số hồi quy biến time_tv có ý nghĩa thống kê với Sig.<<0.05
Mô hình hồi quy giải thích được 15.1% sự biến động của biến phụ thuộc, R.square = 0.151
(Sig<0.05 : tín hiệu tốtphù hợp để dự báo)
Mô hình phù hợp để dự báo thông qua kiểm định anova với chỉ số Sig.<<0.05, F=17.471

Standard-multiple-regression
Bài 7: xây dựng mô hình hồi quy đa biến dự báo chỉ số VO2max dựa trên 4 yếu toos: tuổi
tác(age), cân nặng (weight), nhịp tim (heart_rate) và giới tính (gender)
Mô hình tổng quát có dạng:
Y=a1x1 +a2x2+a3x3+….+anxn+b
 VO2max=a1 *age+ a2*weight +a3*heart_rate+ a4*gender
Trong đó: VO2max là biến phụ thuộc; age, weight, heart_rate , gender là biến độc lập
Model Summaryb
Model R R Square Adjusted R Std. Error of the Durbin-Watson
Square Estimate
a
1 .760 .577 .559 5.69097 1.845

a. Predictors: (Constant), Gender, Age, Heart Rate, Weight


b. Dependent Variable: VO2max

ANOVAa

Model Sum of Squares df Mean Square F Sig.

Regression 4196.483 4 1049.121 32.393 .000b

1 Residual 3076.778 95 32.387

Total 7273.261 99

a. Dependent Variable: VO2max


b. Predictors: (Constant), Gender, Age, Heart Rate, Weight

Coefficientsa

Model Unstandardize Standardize t Sig. 95.0% Correlations Collinearity


d Coefficients d Confidence Statistics
Coefficients Interval for B

B Std. Beta Lower Upper Zero Partia Part Toleranc VIF


Error Boun Bound - l e
d orde
r

(Constant 87.83 13.75 .00 75.15 100.50


6.385
) 0 6 0 5 6

.01 -.19 -.17 1.00


Age -.165 .063 -.176 -2.633 -.290 -.041 -.261 .995
0 1 6 5

.00 -.30 -.59 1.30


1 Weight -.385 .043 -.677 -8.877 -.471 -.299 -.673 .765
0 7 2 6

Heart .00 -.07 -.24 1.05


-.118 .032 -.252 -3.667 -.182 -.054 -.352 .945
Rate 0 2 5 8

13.20 .00 10.53 1.30


Gender 1.344 .748 9.824 15.877 .424 .710 .656 .769
8 0 9 1

a. Dependent Variable: VO2max

Dựa vào kết quả phương trình hồi quy đa biến như sau:
VO2max= -0.165*age -0.385*weight -0.118heart_rate+13.208*gender +87.830
VO2max(female) = -0.165 *age -0.385weight-0.118heart_rate + 87.380
VO2max(male) =-0.165 *age -0.385weight-0.118heart_rate + (13.208+ 87.380)
Cả 4 hệ số hồi quy đều có ý nghĩa thống kê với Sig<<0.05
Dựa vào anova cho thấy mô hình kết quả có thể sử dụng để tiên lượng với giá vị VO2max,
F=32.293, p.value<0.05
Mô hình giả thích được 57.7% sự biến động của VO2max (R.square)
Kiểm định tương quan tuyến tính(tương quan Pearson) được thực hiện để đắnh giá có
hay không mqh tương quan tuyến tính giữa thời gian xem tivi(time_tv) và lương koresterol
của đàn ông từ 45-65 tuổi
Giả định
 02 biến định lượng có xấp xit phân phối chuẩn
 Có dấu hiệu tuyến tính thông qua biểu đồ phân tán (scatter plot)
1. Không có outliers đáng kể
Giả thuyết
H0: Hệ số tương quan tuyến tính giữa thời gian xem tivi và lượng choleterl bằng 0
H1: Hệ số tương quan tuyến tính giữa thời gian xem tivi và lượng choleterl khác 0

Kiểm định Pearson được thực hiện, kết quả như sau:
Correlations

Time spent Cholesterol


watching TV concentration
(mins/day) (mmol/L)

Pearson Correlation 1 .371**


Time spent watching TV
Sig. (2-tailed) .000
(mins/day)
N 100 100
**
Pearson Correlation .371 1
Cholesterol concentration
Sig. (2-tailed) .000
(mmol/L)
N 100 100

**. Correlation is significant at the 0.01 level (2-tailed).


Chỉ số Sig.(P.value)<<0.05 , như vậy bác bỏ Ho, chấp nhận H1: Hệ số tương quan tuyến tính
giữa thời gian xem tivi và lượng choleterl khác 0 (p khác 0.05 rồi mới lên coi chỉ số corr,
còn nếu sig (p.value)=0 rồi thì ko đi tìm chỉ số corr nữa)
Chỉ số Pearson Correlation :0.371, như vậy có mối quan hệ tương quan tuyến tính ở mức
độ yếu giữa thời gian xem tivi và lượng cholesterol

0-1: tương quan tuyến tính đồng biến


-1-0: tương quan tuyến tình nghịch biến
<0.4-0.5: tương quan tuyến tính yếu
<0.6-0.7 : tương quan tuyến tính trung bình
>0.6-0.7 : Tương quan mạnh

T-test
Bài 2: Kiểm định trung bình tổng thế (one-sample t -test) được thực hiện để đánh giá
mức đọ stress trung bình của nhân viên công ty ABC so với mức tiêu chuẩn ngành là 4
(<4: chưa stress. >4 stress)
Giả định:
a/ biến định lượng có xấp xit phân phối chuẩn (normal distribution)
b/ Không có giá trị ngoại lệ đặc biệt(no significant outlier)
c/Các quan sát độc lập với nhau
Giả thuyết
Ho: Giá trị trung bình mức độ stress nhân viên công ty ABC bằng với tiêu chuẩn ngành
H1: Giá trị trung bình mức độ stress nhân viên công ty ABC khác với tiêu chuẩn ngành
Kết quả Kiểm định one -sample t test

One-Sample Test

Test Value = 4

t df Sig. (2-tailed) Mean Difference 95% Confidence Interval of the


Difference

Lower Upper

dep_score -2.381 39 .022 -.27750 -.5132 -.0418

Kết quả cho thấy, chỉ số Sig (p.value) =0.022<0.05 vì vậy bác bỏ Ho, chấp nhận H1: Giá trị
trung bìn mức độ stress của cty ABC khác với tiêu chuẩn ngành
Mean difference =mean (stress_tổng thể)-4(test_value)= -0.2775. Như vậy giá trị trung bình
mức độ stress nhân viên công tu ABC thấp hơn so với tiêu chuẩn ngành là 4

Bài 3 Kiểm định 2 mẫu độc lập (independent sample t test) được thực hiện để đánh
giá có hay không sự khác biệt giá trị trung bình tương tác giữa 2 nhóm nam và nữ sau
khi xem quảng cáo. Hoặc kiểm định có sự khác biệt về sự hài lòng giữa 2 nhóm
giới tính Nam và Nữ

Giả định:
a/ Các nhóm có xấp xỉ phân phối chuẩn
b/ Ko có giá trị ngoại lệ đặc biệt
c/ Các quan sát độc lập với nhau
d/ Đồng nhất phương sai

Giả thuyết
Ho: Giá trị trung bình tương tác giữa 2 nhóm nam và nữ sau khi xem quảng cáo là
không khác nhau
H1: Giá trị trung bình tương tác giữa 2 nhóm nam và nữ sau khi xem quảng cáo là
khác nhau
Kiểm định independent sample t test được thực hiện, kết quả như sau:

Independent Samples Test

Levene's Test for t-test for Equality of Means


Equality of Variances
(test đồng nhất
phương sai)
Ho: có sự đồng nhất
về psai
H1: ko đồng nhất về
psai
F Sig. t df Sig. Mean Std. Error 95%
(2- Differenc Differenc Confidence
tailed e e Interval of the
) Difference

Lower Upper

.174
0.174>0.0
Equal 5
2.36 .0372 .4807
variances 1.922 =>có sự 38 .023 .25900 .10954
5 6 4
assumed đồng nhất
engagemen
=>Lấy
t
dòng trên

Equal
variances 2.36 35.05 .0366 .4813
.024 .25900 .10954
not 5 5 4 6
assumed

Kiểm định Levene’test có kết quả, chỉ số Sig.= 0.174> 0.05, như vậy có sự đồng nhất về
phương sai

Kiểm định independent sample t-test có kết quả, chỉ số Sig.(p.value) = 0.023 <0.05, vì cậy
bác bỏ Ho, chấp nhận H1: giá trị trung bình tương tác giữa 2 nhóm nam và nữ sau khi xem
quảng cáo là khác nhau
Mean difference = Mean (male) =Mean(female) =0.259, như vậy nhóm nam có giá trị trung
bình tương tác cao hơn nhóm nữ sau khi xem quảng cáo.
Bài 4 :Kiểm định thống kê mẫu theo cặp ( paired sample t-test) được thực hiện để đánh
giá có hay ko sự thay đổi giá trị trung bình thành tích của các vận động viên trước và sau khi
bổ sung protein và khẩu phần ăn
Giả định:
a/ 2 biến xấp xỉ phân phối chuẩn
b/ Ko có giá trị ngoại lệ đặc biệt
Giả thuyết:
Ho: ko có sự khác biệt giá trị trung bình thành tích của các vận động viên trước và sau khi bổ
sung protein vào khẩu phần ăn
H1: Có sự khác biệt giá trị trung bình thành tích của các vận động viên trước và sau khi bổ
sung protein vào khẩu phần ăn
Kiểm định paired sample t test được thực hiên. Kết quả như sau:

Paired Samples Test

Paired Differences t df Sig. (2-

Mean Std. Std. Error 95% Confidence tailed)

Deviation Mean Interval of the


Difference

Lower Upper

Distance run in km
for carbohydrate
Pair only trial -
-.13550 .09539 .02133 -.18015 -.09085 -6.352 19 .000
1 Distance run in km
for carbohydrate-
protein trial

Chỉ số Sig.(p.value)<<0.05, vì vậy bác bỏ Ho, châp nhận H1: Có sự khsc biệt giá trị trung
bình thành tích của các vận động viên trước và sau khi bổ sung protein vào khẩu phần ăn.
Mean difference= Mean differ(trước)-Mean (sau) = -0.1355, như vậy thành tích của các
vận động viên được cải thiện sau khi bổ sung protein.

 Chi-square:
dùng cho 2 biến định tính (thang đo nominal hoặc ordinal)
Bài 1:kiểm định chi-square được thực hiện để kiểm định có hay ko mối quan hệ
giữa kỳ vọng trong học tập (STU) và mức độ lo lắng (ANXIETY_LEVEL) của
sinh viên. “thang đo ordinal: quy ước cao thấp, kì vọng cao thấp)
Giả định:
a/ 2 biến định tính, thang đo nominal hoặc ordinal
b/ Các quan sát độc lập với nhau chấp nhận luôn
c/Các giá trị mong đợi không có giá trị nhỏ hơn 5 (khi chạy ra kq thì mới kiểm
tra được)
Giả thuyết:
Ho: ko có mối liên hệ có ý nghĩa thống kê giữa kỳ vọng trong học tập và mức
độ lo lắng của sinh viên
H1: Có mối liên hệ có ý nghĩa thống kê giữa kỳ vọng trong học tập và mức độ
lo lắng của sinh viên
P value<0/05: bác bỏ Ho, chấp nhận H1
Kết quả kiểm đinh:

Chi-Square Tests
Value df Asymp. Sig. (2-
sided)
( P value)
a
Pearson Chi-Square 48.420 8 .000
Likelihood Ratio 47.660 8 .000
Linear-by-Linear
39.792 1 .000
Association
N of Valid Cases 400

a. 0 cells (0.0%) have expected count less than 5. The minimum


expected count is 7.41.

Chỉ số Sig.(p.value) rất nhỏ so với 0.05, vì vậy bác bỏ Ho, chấp nhận H1: Có mối liên hệ có ý
nghĩa thống kê giữa kỳ vọng trong học tập và mức độ lo lắng của sinh viên. Chỉ số Person
Chi-Square = 48.420 (df=8)

You might also like