Professional Documents
Culture Documents
Multiple Regression 2563
Multiple Regression 2563
AGE
CHOL Systolic BP
...
TRI
ตัวอย่าง การศึกษาความสัมพันธ์ระหว่างอายุ ระดับ cholesterol
ระดับ triglyceride กับ systolic blood pressure
idno sysbp chol age tri idno sysbp chol age tri
1 155 375 66 230 11 132 304 40 140
2 136 290 49 161 12 164 428 51 175
3 133 267 47 187 13 136 282 56 159
4 166 340 55 178 14 73 165 36 44
5 111 282 42 112 15 153 395 51 181
6 150 352 71 125 16 135 324 54 164
7 131 285 39 149 17 149 426 51 205
8 167 383 59 208 18 149 337 57 189
9 166 363 60 208 19 142 347 45 152
10 126 283 48 138 20 148 349 55 194
การคํานวณสัมประสิทธิการวิเคราะห์การถดถอยพหุคุณ
ใช้ วิธี least square method โดยใช้ matrix approach
yˆ 0 1 x1 2 x2 3 x3 i
ข้ อมูลตัวแปร sysbp และเมตริกซ์ตัวแปรอิสระ (chol, age,tri)
155 1 375 66 230
136 1 290 49 161 b ( x' x ) 1 x' y
y x
... ... p x1 p x p p x1
148 1 349 55 194
การวิเคราะห์การถดถอยพหุคุณโดยใช้ Stata
. regress sysbp chol age tri
Source | SS df MS Number of obs = 20
---------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
---------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
chol | .1654515 .0496455 3.333 0.004 .0602077 .2706953
age | .5122311 .2802612 1.828 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.691 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.120 0.050 -.0007308 54.31117
------------------------------------------------------------------------------
(ก.) ความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและ
กลุ่มของตัวแปรอิสระ
เพือสรุปว่าตัวแปรอิสระอย่างน้ อย 1 ตัวแปร มีความสัมพันธ์เชิงเส้น
กับตัวแปร Y
การทดสอบสมมุติฐาน
H :β β ... β 0
0 1 2 k
หรือ H 0 :β 0
ik
H A :β 0
ik
การสรุปภาพรวม ใช้ ตารางการวิเคราะห์ความแปรปรวน (ANOVA)
สําหรับการวิเคราะห์การถดถอย เพือคํานวณค่า F-test
ตาราง ANOVA สําหรับการวิเคราะห์การถดถอย
MSR
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
chol | .1654515 .0496455 3.333 0.004 .0602077 .2706953
age | .5122311 .2802612 1.828 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.691 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.120 0.050 -.0007308 54.31117
------------------------------------------------------------------------------
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117
------------------------------------------------------------------------------
. regress sysbp chol age tri
F( 3, 16) = 35.56
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117
------------------------------------------------------------------------------
การแปลความหมาย
แปลผลโดยพิจารณาเครืองหมาย
พิจารณา ความสัมพันธ์ระหว่างตัวแปรอิสระกับตัวแปรตาม
ตัวแปร chol, tri มีความสัมพันธ์ทางบวกกับ sysbp และมีนัยสําคัญทางสถิติ
ตัวแปร age ไม่มีความสัมพันธ์กับ sysbp (มีความสัมพันธ์แต่ไม่มีนัยสําคัญ
ทางสถิต)ิ
การพิจารณาตัวแปรอิสระแต่ละตัวแปรมีความสัมพันธ์
กับตัวแปรตามมากน้อยเพียงใด
พิจารณาจากสมการทีมการปรั
ี บตัวแปรอิสระ มีหน่วยเดียวกัน
x x S
ทํา Xi ให้ เป็ นคะแนนมาตรฐาน Z-scorez ; or
i
*
xx
sd S yy
. regress sysbp chol age tri, beta
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| Beta
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .4663705
age | .5122311 .2802612 1.83 0.086 .2076355
tri | .2006968 .0745745 2.69 0.016 .3805016
_cons | 27.15522 12.80998 2.12 0.050 .
------------------------------------------------------------------------------
xi x
กรณีทาํ ให้ เป็ นคะแนนมาตรฐาน Z-score z
sd
.zscore sysbp chol age tri
.regress z_sysbp z_chol z_age z_tri
. di .16545147*(61.802976/21.925472)
.46637049
Constant มีค่าน้ อยมาก ~ 0
S xx
. di .51223109*(8.8876022/21.925472)
*
.20763549 S yy
. di .20069683*(41.568555/21.925472)
.3805016
สมการทํานายและการประเมินสมการถดถอยพหุคุณ
สมการทํานาย: yˆ i 27.16 0.17(chol ) 0.51(age) 0.20(tri)
การประเมินสมการถดถอยพหุ คุณ พิจารณาจากค่าสัมประสิทธิการกําหนด
(coefficient of determination n
(Yˆ Y )
2
2 SSR i 1 i 7942.70165
R 0.869594
y|x ,x ...x SSY n
2
9133.80
1 2 k
(Yi Y )
i 1
. regress sysbp chol age tri
yˆ 0 x jl D jl p x p
1 l 1
ตัวอย่าง ตัวแปรอาชีพ (เกษตรกรรม, ค้ าขาย, ข้ าราชการ) เป็ นตัวแปรกลุ่ม
ให้ ทาํ เป็ น ตัวแปรหุ่น k-1=3-1 = 2 ตัวแปร ดังนี
ตัวแปรหุ่น (dummy variable)
อาชีพ D1 D2
เกษตรกรรม = 1 0 0
ค้ าขาย = 2 1 0
รับราชการ = 3 0 1
*** กรณีมี 2 กลุ่ม เพศ รหัสเป็ น 0, 1 วิเคราะห์ในโปรแกรม Stata ได้ เลย
ถ้ ามีรหัส 1, 2 กําหนดเป็ น ตัวแปรหุ่น
yˆ β0 β (chol) β2(age) β3(tri) β4(occcomm ) β5(occoffice ) 6 ( gender )
1
คําสัง Stata: xi: regresst sysbp age tri i.occ i.gender
. xi: regress sysbp chol age tri i.occ i.gender
. xi: regress sysbp chol age tri i.occ i.gender
i.occ _Iocc_1-3 (naturally coded; _Iocc_1 omitted)
i.gender _Igender_1-2 (naturally coded; _Igender_1 omitted)
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1745477 .0564986 3.09 0.009 .0524899 .2966054
age | .504353 .3139673 1.61 0.132 -.173932 1.182638
tri | .2081322 .0796249 2.61 0.021 .036113 .3801514
_Iocc_2 | 5.242509 5.77858 0.91 0.381 -7.241355 17.72637
_Iocc_3 | -1.13821 5.298263 -0.21 0.833 -12.58441 10.30799
_Igender_2 | -4.495496 4.72941 -0.95 0.359 -14.71276 5.721772
_cons | 24.02471 13.96057 1.72 0.109 -6.135272 54.18469
------------------------------------------------------------------------------
. list
+-------------------------------------------------------------------------------+
| idno sysbp chol age tri occ gender _Iocc_2 _Iocc_3 _Igend~2 |
|-------------------------------------------------------------------------------|
1. | 1 155 375 66 230 3 2 0 1 1 |
2. | 2 136 290 49 161 1 1 0 0 0 |
3. | 3 133 267 47 187 1 1 0 0 0 |
4. | 4 166 340 55 178 2 1 1 0 0 |
5. | 5 111 282 42 112 2 2 1 0 1 |
|-------------------------------------------------------------------------------|
6. | 6 150 352 71 125 3 1 0 1 0 |
7. | 7 131 285 39 149 2 2 1 0 1 |
8. | 8 167 383 59 208 3 1 0 1 0 |
9. | 9 166 363 60 208 1 1 0 0 0 |
10. | 10 126 283 48 138 2 2 1 0 1 |
|-------------------------------------------------------------------------------|
11. | 11 132 304 40 140 3 1 0 1 0 |
12. | 12 164 428 51 175 2 2 1 0 1 |
13. | 13 136 282 56 159 3 1 0 1 0 |
14. | 14 73 165 36 44 1 1 0 0 0 |
15. | 15 153 395 51 181 1 2 0 0 1 |
|-------------------------------------------------------------------------------|
16. | 16 135 324 54 164 2 1 1 0 0 |
17. | 17 149 426 51 205 3 1 0 1 0 |
18. | 18 149 337 57 189 1 1 0 0 0 |
19. | 19 142 347 45 152 3 2 0 1 1 |
20. | 20 148 349 55 194 3 2 0 1 1 |
+-------------------------------------------------------------------------------+
การคัดเลือกตัวแปรอิสระเข้าในสมการ: การวิเคราะห์สําหรับ
การถดถอยพหุคุณ
1. Forward selection Procedure
พิจารณานําเข้ าตัวแปรอิสระทีละ 1 ตัวแปร
2. Backward elimination procedure
พิจารณาขจัดออกทีละ 1 ตัวแปร
3. The Stepwise regression procedure
ใช้ ทงวิ
ั ธี Forward & Backward
* การพิจารณาตัวแปรอิสระจาก P-value (จากค่าสถิติ t)
โดยกําหนด (ก) Probability to Entry (Pe) -> Forward
(ข) Probability to Remove (Pr)->Backward
(ค) Pe และ Pr -> Stepwise
วิธีการขจัดออก (Backward elimination procedure)
ขันตอนที 1 สร้ างสมการถดถอยประกอบด้ วย ตัวแปรอิสระทุกตัวแปร
SYSBP = 27.16 + 0.17(chol) + 0.51(age) + 0.20(tri)
ขันตอนที 2 คํานวณค่าสถิติ t (partial) และ p-value ตัวแปรอิสระทุกตัวแปร
ในโมเดล
ขันตอนที 3 พิจารณาตัวแปรทีมคี ่า p-value (จากค่า t) มากทีสดุ
. regress sysbp chol age tri
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117
------------------------------------------------------------------------------
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10278
------------------------------------------------------------------------------
วิธกี ารขจัดออก (Backward elimination procedure)
. sw regress sysbp chol age tri, pr(.05)
begin with full model
p = 0.0863 >= 0.0500 removing age
Source | SS df MS Number of obs = 20
---------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
---------+------------------------------ Adj R-squared = 0.8238
Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
chol | .1875776 .0513543 3.653 0.002 .0792295 .2959258
tri | .238911 .0763522 3.129 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.503 0.003 15.91068 64.10278
------------------------------------------------------------------------------
หรือ (2) ใช้ Partial Correlation . pcorr sysbp age chol tri
(obs=20)
Partial correlation of sysbp with
ให้ ค่า t, p-value เช่นเดียวกัน Variable | Corr. Sig.
-------------+------------------
age | 0.4156 0.086
chol | 0.6401 0.004
tri | 0.5582 0.016
. regress sysbp age chol tri
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007311 54.31117
------------------------------------------------------------------------------
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10278
------------------------------------------------------------------------------
วิธีนาํ เข้ า (Forward selection procedure)
. sw regress sysbp chol age tri, pe(.05)
begin with empty model
p = 0.0000 < 0.0500 adding chol
p = 0.0061 < 0.0500 adding tri
Source | SS df MS Number of obs = 20
---------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
---------+------------------------------ Adj R-squared = 0.8238
Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
chol | .1875776 .0513543 3.653 0.002 .0792295 .2959258
tri | .238911 .0763522 3.129 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.503 0.003 15.91068 64.10278
------------------------------------------------------------------------------
. stepwise, pe(.05) : regress sysbp chol age tri
begin with empty model
p = 0.0000 < 0.0500 adding chol
p = 0.0061 < 0.0500 adding tri
...
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279
------------------------------------------------------------------------------
วิธีสมการถดถอยแบบขันตอน (Stepwise regression procedure)
. sw regress sysbp chol age tri, pr(0.1) pe(.05) forward
begin with empty model
p = 0.0000 < 0.0500 adding chol
p = 0.0061 < 0.0500 adding tri
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238
Total | 9133.8 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279
------------------------------------------------------------------------------
เลือกตัวแปรอิสระทีมีความสัมพันธ์เชิงเส้ นกับตัวแปรตามมากกว่า
พิจารณาจากตัวแปรทีมี ค่า t มาก หรือค่า p-value น้ อยกว่าและ
p-value < ระดับนัยสําคัญทีกาํ หนด (Pe) นําเข้ าตัวแปรอิสระ
p-value > Pe ยุติการวิเคราะห์
วิเคราะห์การถดถอยอย่างง่ายทีละตัวแปร เลือกตัวแปรอิสระทีมีความสัมพันธ์กบั
ตัวแปรตามสูงก่อน (p-value น้อยกว่า) และ < Pe
. regress sysbp chol
...
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .3075584 .0416769 7.38 0.000 .2199986 .3951183
_cons | 39.95941 13.93348 2.87 0.010 10.68625 69.23256
------------------------------------------------------------------------------
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10278
------------------------------------------------------------------------------
วิธีสมการถดถอยแบบขันตอน (Stepwise regression procedure)
. sw regress sysbp chol age tri, pr(0.1) pe(.05) forward
begin with empty model
p = 0.0000 < 0.0500 adding chol
p = 0.0061 < 0.0500 adding tri
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238
Total | 9133.8 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279
------------------------------------------------------------------------------
รูป a รูป b
ŷi ŷi
.regress sysbp chol tri
.rvfplot ,yline(0)
ei VS ŷi
ŷi
ค่า residual (ei) มีการแจกแจงแบบปกติ
Normal probability plot, Box-Whisker plot, Stem & leaf etc.
Shapiro-Wilk test
. quietly regress sysbp chol age tri
. predict e,residual
. swilk e
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
-------------+-------------------------------------------------
e | 20 0.95467 1.073 0.142 0.44361
. pnorm e
ค่า residual (ei) มีค่า variance คงที (homoscedasticity)
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of sysbp
chi2(1) = 1.38
Prob > chi2 = 0.2409
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of sysbp
chi2(1) = 1.38
Prob > chi2 = 0.2409
. estat imtest
Cameron & Trivedi's decomposition of IM-test
---------------------------------------------------
Source | chi2 df p
---------------------+-----------------------------
Heteroskedasticity | 3.28 5 0.6563
Skewness | 2.14 2 0.3438
Kurtosis | 1.21 1 0.2720
---------------------+-----------------------------
Total | 6.63 8 0.5775
---------------------------------------------------
. hettest
Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
chi2(1) = 0.00
Prob > chi2 = 1.0000
ความสัมพันธ์ระหว่างค่าระหว่างรายข้ อมูลของตัวแปรเดียวกัน
n 2
error รายที i VS error รายที i-1 (e ei 1 )
การคํานวณค่า Durbin-Watson (d) d i 2
n 2
d มีค่า 1-4 ei
d < 2 พบว่าเกิด positive autocorrelation i 1
d > 2 เกิด negative autocorrelation
As a rough rule of thumb, Durbin–Watson is 1.5 – 2.5
are relatively normal.
ตัวอย่าง การศึกษาการได้ รับสาร Beryllium ในคนงานเหมืองถ่านหิน
โดยศึกษาตัวแปร age exposure กับ higher rate of blastogenic
lymphocyte transformation (lt ratio)
id age time expose lt
1 42 15 1 54
2 46 14 2 7.3
3 43 8 4 3
4 25 3 3 2
5 26 13 4 5.4
6 55 12 4 5
7 23 10 4 3.7
8 24 11 4 5
9 38 7 3 2.8
10 24 4 4 2.2
11 28 6 4 2.5
12 38 9 4 3.1
13 26 5 4 2.5
14 28 1 4 .8
15 26 2 2 1.2
. tsset time
time variable: time, 1 to 15
delta: 1 unit
. estat durbinalt
Durbin's alternative test for autocorrelation
--------------------------------------------------------------------
lags(p) | chi2 df Prob > chi2
-------------+------------------------------------------------------
1 | 1.843 1 0.1746
--------------------------------------------------------------------
H0: no serial correlation
H 0 : 0; H A : 0
ภาวะร่วมเส้นตรง* (Collinearity)
ความสัมพันธ์ระหว่างตัวแปรอิสระด้ วยกัน มีค่าสูง
(r2 > 0.90; r > 0.95 Kleinbaum, Muller, Nizam; 1998, 241)
ชืออืน “ภาวะร่วมเส้นตรงพหุ (Multicollinearity)”
การลดหรือเพิมตัวแปรในโมเดล ทําให้ เปลียนแปลงค่าสัมประสิทธิ
ทังขนาดและ/หรือเครืองหมาย
ค่า R2 มีค่าสูงแต่การทดสอบทางสถิติกบั สัมประสิทธิ พบว่า
ไม่มีนยั สําคัญ
ทําให้ ค่า Standard error สูง ซึงส่งผลให้ ค่าสถิติมคี ่าตํา เช่น t, z
และทําให้ ค่าช่วงเชือมันของสัมประสิทธิมีค่ากว้ าง
*พจนานุกรมศัพท์คณิตศาสตร์ ฉบับราชบัณฑิตยสถาน, 2552
การตรวจสอบ Collinearity หรือ Multicollinearity
Pearson Correlation (informal method)
ตรวจสอบความสัมพันธ์ทุกตัวแปร โดยใช้ สถิติ Pearson correlation
พิจารณาตัวแปรทีมีความสัมพันธ์กบั ตัวแปรอืนๆ สูง
. corr chol age age tri
(obs=20)
Stata
collin [varlist…]
estat vif variance inflation factors for the
independent variables
Variance Inflation Factors (VIF: formal method)
พิจารณาค่า VIF > 10 และ
ค่าเฉลียของ VIF มากกว่า 1 มีปัญหาการเกิด Multicolinearity
1
VIF (1 R 2 ) 1
. collin age chol tri
Collinearity Diagnostics
i i 2
SQRT R-
1 R
Variable VIF VIF Tolerance Squared i
----------------------------------------------------
age 1.58 1.26 0.6315 0.3685
chol 2.40 1.55 0.4162 0.5838
tri 2.45 1.57 0.4077 0.5923
---------------------------------------------------- p-1
Mean VIF 2.15 (VIF ) K
Cond
Eigenval Index VIF i 1
--------------------------------- p-1
1 3.9477 1.0000
2 0.0303 11.4206
3 0.0126 17.7302
4 0.0094 20.4609
---------------------------------
Condition Number 20.4609
Eigenvalues & Cond Index computed from scaled raw sscp (w/ intercept)
Det(correlation matrix) 0.2794
. quietly regress sysbp chol age tri
. vif
Variable | VIF 1/VIF
-------------+----------------------
tri | 2.45 0.407722
chol | 2.40 0.416193
age | 1.58 0.631508
-------------+----------------------
Mean VIF | 2.15
หรือ
. estat vif
Variable | VIF 1/VIF
-------------+----------------------
tri | 2.45 0.407722
chol | 2.40 0.416193
age | 1.58 0.631508
-------------+----------------------
Mean VIF | 2.15
. di (2.45+2.40+1.58)/3
2.1433333
ความสัมพันธ์ระหว่าง VIF vs ค่า correlation
r r2 vif
.1 0.01 1.01
.2 0.04 1.04
.3 0.09 1.10
.4 0.16 1.19
.5 0.25 1.33
.6 0.36 1.56
.7 0.49 1.96
.8 0.64 2.78
.9 0.81 5.26
.91 0.83 5.82
.92 0.85 6.51
.93 0.86 7.40
.94 0.88 8.59
.95 0.90 10.26
.96 0.92 12.76
.97 0.94 16.92
.98 0.96 25.25
.99 0.98 50.25 .95
1 1.00 .
Conditional Index & Variance Decomposition Proportion
ค่า Conditional Index (CI) และค่า Variance Decomposition
Proportion (VDP) เป็ นค่าทีคาํ นวณจาก eigenvalue จากการ
วิเคราะห์เมตริกซ์สหสัมพันธ์ ของตัวแปรอิสระ โดย Conditional
Index คํานวณจาก
k Max / Min ; Eigenvalue
ค่า Conditional Index มีค่า 10-30 แสดงว่ามีภาวะร่ วมเส้ นตรง
ค่า conditional index > 30 แสดงว่ามีปัญหาภาวะร่วมเส้ นตรง
Conditional Index > 100 แสดงว่ามีภาวะร่ วมเส้ นตรงสูงมากๆ
(Belsley, 1991a)
between 10 and 30, there is moderate to strong multicollinearity and
if it exceeds 30 there is severe multicollinearity. (Gujarati, 2002)
Conditional Index & Variance Decomposition Proportion
ค่า Variance Decomposition Proportion แนะนําโดย
Belsley et al. (1980) และ Belsley (1991a)
พิจารณา VDP มากกว่า 0.5
คํานวณค่าสัดส่วนของความแปรปรวน (proposed calculation of
the proportions of variance) ของแต่ละตัวแปรสัมพันธ์กบั
ค่าองค์ประกอบ (principal component) เปรียบเสมือน
องค์ประกอบของค่าสัมประสิทธ์ความแปรปรวนในแต่ละมิติ
(decomposition of the coefficient variance for each dimension)
V jk2
p jk (Fox,1984)
VIFj k
. coldiag2 tri chol age, force w(5)
Condition number using scaled variables = 20.46
condition
index _cons tri chol age
1 1.00 0.00 0.00 0.00 0.00
2 11.42 0.32 0.38 0.01 0.03
3 17.73 0.32 0.00 0.14 0.95
4 20.46 0.36 0.61 0.85 0.02