Download as pdf or txt
Download as pdf or txt
You are on page 1of 70

การวิเคราะห์การถดถอยพหุคุณ

(Multiple Regression Analysis)

ผูช้ ่วยศาสตราจารย์นิคม ถนอมเสียง


สาขาวิชาวิทยาการระบาดและชีวสถิติ
คณะสาธารณสุขศาสตร์ มหาวิทยาลัยขอนแก่น
Email: nikom@kku.ac.th Web: https://home.kku.ac.th/nikom
การวิเคราะห์การถดถอยพหุคุณ
วิเคราะห์ความสัมพันธ์ระหว่างตัวแปรตาม 1 ตัวแปร และตัวแปร
อิสระ 2 ตัวแปร ขึนไป
ตัวแปรอิสระ (independent variables) หรือตัวแปรอธิบาย
(explanatory variables)
ตัวแปรตาม (dependent variable) หรือตัวแปรตอบสนอง
(response variable) ตัวแปรผลลัพธ์ (outcome variable)
การวิเคราะห์การถดถอยอย่างง่าย (Simple Regression)
yˆ  a  bx  ei หรือ yˆ   0  x  ei
การวิเคราะห์การถดถอยพหุคุณ (Multiple Regression)
yˆ   0  1 x1   2 x2 ,...,   p x p   i
วัตถุประสงค์การวิเคราะห์การถดถอยพหุคุณ
 วัดความสัมพันธ์เชิงเส้ นระหว่างตัวแปรอิสระ (independent variables)
(ก) ตัวแปรต่อเนือง (ข) ตัวแปรจําแนกประเภท (สร้ างตัวแปรหุ่น)
กับตัวแปรตาม (dependent variable) -> ตัวแปรต่อเนือง
 ทํานาย (prediction)

AGE
CHOL Systolic BP
...
TRI
ตัวอย่าง การศึกษาความสัมพันธ์ระหว่างอายุ ระดับ cholesterol
ระดับ triglyceride กับ systolic blood pressure
idno sysbp chol age tri idno sysbp chol age tri
1 155 375 66 230 11 132 304 40 140
2 136 290 49 161 12 164 428 51 175
3 133 267 47 187 13 136 282 56 159
4 166 340 55 178 14 73 165 36 44
5 111 282 42 112 15 153 395 51 181
6 150 352 71 125 16 135 324 54 164
7 131 285 39 149 17 149 426 51 205
8 167 383 59 208 18 149 337 57 189
9 166 363 60 208 19 142 347 45 152
10 126 283 48 138 20 148 349 55 194
การคํานวณสัมประสิทธิการวิเคราะห์การถดถอยพหุคุณ
 ใช้ วิธี least square method โดยใช้ matrix approach
yˆ  0  1 x1   2 x2  3 x3   i
ข้ อมูลตัวแปร sysbp และเมตริกซ์ตัวแปรอิสระ (chol, age,tri)
155 1 375 66 230
136 1 290 49 161  b  ( x' x )  1 x' y
y  x 
...  ...  p x1 p x p p x1
   
148 1 349 55 194 
การวิเคราะห์การถดถอยพหุคุณโดยใช้ Stata
. regress sysbp chol age tri
Source | SS df MS Number of obs = 20
---------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
---------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
chol | .1654515 .0496455 3.333 0.004 .0602077 .2706953
age | .5122311 .2802612 1.828 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.691 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.120 0.050 -.0007308 54.31117
------------------------------------------------------------------------------
(ก.) ความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและ
กลุ่มของตัวแปรอิสระ
เพือสรุปว่าตัวแปรอิสระอย่างน้ อย 1 ตัวแปร มีความสัมพันธ์เชิงเส้น
กับตัวแปร Y
การทดสอบสมมุติฐาน
H :β  β  ...  β  0
0 1 2 k
หรือ H 0 :β  0
ik
H A :β  0
ik
การสรุปภาพรวม ใช้ ตารางการวิเคราะห์ความแปรปรวน (ANOVA)
สําหรับการวิเคราะห์การถดถอย เพือคํานวณค่า F-test
ตาราง ANOVA สําหรับการวิเคราะห์การถดถอย

MSR

Source | SS df MS Number of obs = 20


---------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
---------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281

Yˆ  27.16  .17chol  .51age  .20tri F-test


i
สมมุติฐานสําหรับการทดสอบนัยสําคัญของสมการถดถอยทังหมด
H0 : ตัวแปรอิสระ k ตัวแปรไม่สามารถอธิบายความผันแปร
ของตัวแปร Y ได้ H :β ik  0 ตัวแปรอิสระแต่ละตัวแปรไม่มี
0

หรือ H 0:β1  β2  ...  β k  0 ความสัมพันธ์เชิงเส้นกับตัวแปรตาม


HA : ตัวแปรอิสระ k ตัวแปรสามารถอธิบายความผันแปร
ของตัวแปร Y ได้
ตัวแปรอิสระอย่างน้อย 1 ตัวแปร มี
หรือ H A :β ik  0 ความสัมพันธ์เชิงเส้นกับตัวแปรตาม

การทดสอบใช้ สถิติ F-test


mean square regression (or model) MSR
F 
mean square residual (or error) MSE
หรือคํานวณค่า F จาก
 R 2   n  k  1
F   
1  R 2   k 

2 SSY  SSE SSR


เมือ R  
SSY SSY
การคํานวณค่า
n=ขนาดตัวอย่าง
k=จํานวนตัวแปร
R2 = สัมประสิทธิการกําหนด (coefficient of determination)
. regress sysbp chol age tri

Source | SS df MS Number of obs = 20


---------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
---------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
chol | .1654515 .0496455 3.333 0.004 .0602077 .2706953
age | .5122311 .2802612 1.828 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.691 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.120 0.050 -.0007308 54.31117
------------------------------------------------------------------------------

การวิเคราะห์ พบว่า มีตวั แปรอิสระอย่างน้ อย 1 ตัวแปรมีความสัมพันธ์


เชิงเส้ นกับตัวแปรตาม อย่างนัยสําคัญทางสถิติ (F-test= 35.56;
p<.0001) [ตัวแปรอิสระได้ แก่ chol, tri]
ข. การวิเคราะห์ความสัมพันธ์เชิงเส้น ตัวแปรอิสระแต่ละตัวแปร
มีความสัมพันธ์กบั ตัวแปรตาม
การทดสอบสมมุติฐาน H0: i = 0; HA: i  0
βˆi
t เมือ ˆi คือสัมประสิทธิและ Sˆ คือ Standard Error
S ̂ ̂ i
i
. regress sysbp chol age tri
F( 3, 16) = 35.56
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117
------------------------------------------------------------------------------
. regress sysbp chol age tri
F( 3, 16) = 35.56
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117
------------------------------------------------------------------------------

การแปลความหมาย
แปลผลโดยพิจารณาเครืองหมาย
พิจารณา ความสัมพันธ์ระหว่างตัวแปรอิสระกับตัวแปรตาม
ตัวแปร chol, tri มีความสัมพันธ์ทางบวกกับ sysbp และมีนัยสําคัญทางสถิติ
ตัวแปร age ไม่มีความสัมพันธ์กับ sysbp (มีความสัมพันธ์แต่ไม่มีนัยสําคัญ
ทางสถิต)ิ
การพิจารณาตัวแปรอิสระแต่ละตัวแปรมีความสัมพันธ์
กับตัวแปรตามมากน้อยเพียงใด
 พิจารณาจากสมการทีมการปรั
ี บตัวแปรอิสระ มีหน่วยเดียวกัน
x x S 
 ทํา Xi ให้ เป็ นคะแนนมาตรฐาน Z-scorez  ; or    
i

* 
xx

sd  S yy 
. regress sysbp chol age tri, beta
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| Beta
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .4663705
age | .5122311 .2802612 1.83 0.086 .2076355
tri | .2006968 .0745745 2.69 0.016 .3805016
_cons | 27.15522 12.80998 2.12 0.050 .
------------------------------------------------------------------------------
xi  x
กรณีทาํ ให้ เป็ นคะแนนมาตรฐาน Z-score z
sd
.zscore sysbp chol age tri
.regress z_sysbp z_chol z_age z_tri

Source | SS df MS Number of obs = 20


-------------+------------------------------ F( 3, 16) = 35.56
Model | 16.5222943 3 5.50743142 Prob > F = 0.0000
Residual | 2.47770574 16 .154856609 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 19.00 19 1.00 Root MSE = .39352
------------------------------------------------------------------------------

z_sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]


-------------+----------------------------------------------------------------
z_chol | .4663705 .1399396 3.33 0.004 .1697118 .7630292
z_age | .2076355 .1136053 1.83 0.086 -.033197 .448468
z_tri | .3805016 .1413859 2.69 0.016 .0807768 .6802263
_cons | 3.62e-16 .0879934 0.00 1.000 -.1865376 .1865376
------------------------------------------------------------------------------

. di .16545147*(61.802976/21.925472)
.46637049
Constant มีค่าน้ อยมาก ~ 0
 S xx 
. di .51223109*(8.8876022/21.925472)
  
* 
.20763549  S yy 
 
. di .20069683*(41.568555/21.925472)
.3805016
สมการทํานายและการประเมินสมการถดถอยพหุคุณ
 สมการทํานาย: yˆ i  27.16  0.17(chol )  0.51(age)  0.20(tri)
 การประเมินสมการถดถอยพหุ คุณ พิจารณาจากค่าสัมประสิทธิการกําหนด
(coefficient of determination n
 (Yˆ  Y )
2

2 SSR i  1 i 7942.70165
R     0.869594
y|x ,x ...x SSY n
2
9133.80
1 2 k
 (Yi  Y )
i 1
. regress sysbp chol age tri

Source | SS df MS Number of obs = 20


-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281

ตัวอย่าง จากข้ อมูลตัวอย่างคํานวณค่าของ coefficient of determination


ตัวแปร chol ,age และ trigyceride สามารถอธิบายการเปลียนแปลง
(ความแปรปรวน) ระดับ systolic blood pressure ได้ ถึงร้ อยละ 86.96
Adjusted coefficient of determination
ในการสร้ างโมเดล (ตัวแบบ) พบว่าเมือจํานวนตัวแปรอิสระมากขึน
ทําให้ ค่า R2 สูงขึน ควรมีการปรับค่า R2 เรียกว่า
“Adjusted coefficient of determination”
2  n  1  SSR
R   
adj  n  p  SSY

. regress sysbp chol age tri

Source | SS df MS Number of obs = 20


-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281
Report Regression Table (Publication Manual of the American Psychological
Association sixth Edition,2010; pp 144)
Variable b s.e. Wald (t) P-value 95%CI  R2 R2 change
Cholesterol .17 .05 3.33 0.004 .06-.07 .47 .75 .75
Age .51 .28 1.83 0.086 -.08-1.11 .21 .81 .07
Trigyceride .20 .07 2.69 0.016 .04-3.36 .38 .87 .06
Constant 27.16 12.81 2.12 0.050 .00-54.31
R2=0.87, Adjusted R2 = .85 , F = 35.56, p-value <.0001, n = 20
Recommended Report (Lang, et al. (1997). How to report Statistics in Medicine.pp,115

. regress sysbp chol age tri


Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117
------------------------------------------------------------------------------
. do "M:\516701_2555\report_mreg.do"
. use "M:\516701_2555\multiple_reg_data.dta", clear
. regress sysbp chol
...
Residual | 2267.92107 17 133.407122 R-squared = 0.7516
...
. regress sysbp chol age
Residual | 1729.02942 16 108.064339 R-squared = 0.8106
...
. regress sysbp chol age tri
Residual | 1191.02416 15 79.4016106 R-squared = 0.8696
...

. regress sysbp chol age tri, beta


Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.8 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| Beta
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .4663705
age | .5122311 .2802612 1.83 0.086 .2076355
tri | .2006968 .0745745 2.69 0.016 .3805016
_cons | 27.15522 12.80998 2.12 0.050 .
------------------------------------------------------------------------------
การวิเคราะห์การถดถอยพหุคุณ เมือตัวแปรอิสระเป็ นตัวแปรจําแนก
ประเภท เช่น เพศ อาชีพ ฯลฯ ต้ องทําให้ เป็ นตัวแปรหุ่น (dummy
variables)
 ตัวแปรอิสระมี k ระดับ สร้ างตัวแปรหุ่นได้ เท่ากับ k-1 ตัวแปร
(k=ระดับ, กลุ่ม)
ตัวแปรหุ่น (dummy variable)
ตัวแปร D1 D2
code = 1 0 0
code = 2 1 0
Code = 3 0 1
k j 1

yˆ   0   x    jl D jl   p x p
1 l 1
ตัวอย่าง ตัวแปรอาชีพ (เกษตรกรรม, ค้ าขาย, ข้ าราชการ) เป็ นตัวแปรกลุ่ม
ให้ ทาํ เป็ น ตัวแปรหุ่น k-1=3-1 = 2 ตัวแปร ดังนี
ตัวแปรหุ่น (dummy variable)
อาชีพ D1 D2
เกษตรกรรม = 1 0 0
ค้ าขาย = 2 1 0
รับราชการ = 3 0 1
*** กรณีมี 2 กลุ่ม เพศ รหัสเป็ น 0, 1 วิเคราะห์ในโปรแกรม Stata ได้ เลย
ถ้ ามีรหัส 1, 2 กําหนดเป็ น ตัวแปรหุ่น
yˆ  β0  β (chol)  β2(age)  β3(tri)  β4(occcomm )  β5(occoffice )   6 ( gender )
1
คําสัง Stata: xi: regresst sysbp age tri i.occ i.gender
. xi: regress sysbp chol age tri i.occ i.gender
. xi: regress sysbp chol age tri i.occ i.gender
i.occ _Iocc_1-3 (naturally coded; _Iocc_1 omitted)
i.gender _Igender_1-2 (naturally coded; _Igender_1 omitted)

Source | SS df MS Number of obs = 20


-------------+------------------------------ F( 6, 13) = 16.99
Model | 8101.00425 6 1350.16737 Prob > F = 0.0000
Residual | 1032.79575 13 79.4458272 R-squared = 0.8869
-------------+------------------------------ Adj R-squared = 0.8347
Total | 9133.8 19 480.726316 Root MSE = 8.9132

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1745477 .0564986 3.09 0.009 .0524899 .2966054
age | .504353 .3139673 1.61 0.132 -.173932 1.182638
tri | .2081322 .0796249 2.61 0.021 .036113 .3801514
_Iocc_2 | 5.242509 5.77858 0.91 0.381 -7.241355 17.72637
_Iocc_3 | -1.13821 5.298263 -0.21 0.833 -12.58441 10.30799
_Igender_2 | -4.495496 4.72941 -0.95 0.359 -14.71276 5.721772
_cons | 24.02471 13.96057 1.72 0.109 -6.135272 54.18469
------------------------------------------------------------------------------
. list
+-------------------------------------------------------------------------------+
| idno sysbp chol age tri occ gender _Iocc_2 _Iocc_3 _Igend~2 |
|-------------------------------------------------------------------------------|
1. | 1 155 375 66 230 3 2 0 1 1 |
2. | 2 136 290 49 161 1 1 0 0 0 |
3. | 3 133 267 47 187 1 1 0 0 0 |
4. | 4 166 340 55 178 2 1 1 0 0 |
5. | 5 111 282 42 112 2 2 1 0 1 |
|-------------------------------------------------------------------------------|
6. | 6 150 352 71 125 3 1 0 1 0 |
7. | 7 131 285 39 149 2 2 1 0 1 |
8. | 8 167 383 59 208 3 1 0 1 0 |
9. | 9 166 363 60 208 1 1 0 0 0 |
10. | 10 126 283 48 138 2 2 1 0 1 |
|-------------------------------------------------------------------------------|
11. | 11 132 304 40 140 3 1 0 1 0 |
12. | 12 164 428 51 175 2 2 1 0 1 |
13. | 13 136 282 56 159 3 1 0 1 0 |
14. | 14 73 165 36 44 1 1 0 0 0 |
15. | 15 153 395 51 181 1 2 0 0 1 |
|-------------------------------------------------------------------------------|
16. | 16 135 324 54 164 2 1 1 0 0 |
17. | 17 149 426 51 205 3 1 0 1 0 |
18. | 18 149 337 57 189 1 1 0 0 0 |
19. | 19 142 347 45 152 3 2 0 1 1 |
20. | 20 148 349 55 194 3 2 0 1 1 |
+-------------------------------------------------------------------------------+
การคัดเลือกตัวแปรอิสระเข้าในสมการ: การวิเคราะห์สําหรับ
การถดถอยพหุคุณ
1. Forward selection Procedure
พิจารณานําเข้ าตัวแปรอิสระทีละ 1 ตัวแปร
2. Backward elimination procedure
พิจารณาขจัดออกทีละ 1 ตัวแปร
3. The Stepwise regression procedure
ใช้ ทงวิ
ั ธี Forward & Backward
* การพิจารณาตัวแปรอิสระจาก P-value (จากค่าสถิติ t)
โดยกําหนด (ก) Probability to Entry (Pe) -> Forward
(ข) Probability to Remove (Pr)->Backward
(ค) Pe และ Pr -> Stepwise
วิธีการขจัดออก (Backward elimination procedure)
ขันตอนที 1 สร้ างสมการถดถอยประกอบด้ วย ตัวแปรอิสระทุกตัวแปร
SYSBP = 27.16 + 0.17(chol) + 0.51(age) + 0.20(tri)
ขันตอนที 2 คํานวณค่าสถิติ t (partial) และ p-value ตัวแปรอิสระทุกตัวแปร
ในโมเดล
ขันตอนที 3 พิจารณาตัวแปรทีมคี ่า p-value (จากค่า t) มากทีสดุ
. regress sysbp chol age tri

Source | SS df MS Number of obs = 20


-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117
------------------------------------------------------------------------------
ขันที 4 เปรียบเทียบค่า p-value กับ ระดับนัยสําคัญ
ทีกาํ หนด ( เช่น Pr = 0.05)
ถ้ า p-value > ระดับนัยสําคัญทีกาํ หนด (p-value > Pr)
ตัดตัวแปรนันออกจากสมการ
. regress sysbp chol age tri

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117
------------------------------------------------------------------------------

ขจัดตัวแปร age ออก (p-value = .086 > 0.05)


วนรอบ: ทําการทดสอบตามขันตอนที 1 ถึง ขันตอนที 4 ใหม่กบั
ตัวแปรทีเหลือจนกว่าไม่มตี วั แปรใดมากกว่าระดับนัยสําคัญ
ทีกาํ หนด (เช่น Pr=0.05)
. regress sysbp chol tri

Source | SS df MS Number of obs = 20


-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238
Total | 9133.80 19 480.726316 Root MSE = 9.2029

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10278
------------------------------------------------------------------------------
วิธกี ารขจัดออก (Backward elimination procedure)
. sw regress sysbp chol age tri, pr(.05)
begin with full model
p = 0.0863 >= 0.0500 removing age
Source | SS df MS Number of obs = 20
---------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
---------+------------------------------ Adj R-squared = 0.8238
Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
chol | .1875776 .0513543 3.653 0.002 .0792295 .2959258
tri | .238911 .0763522 3.129 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.503 0.003 15.91068 64.10278
------------------------------------------------------------------------------

. stepwise, pr(.05) : regress sysbp chol age tri


begin with full model
p = 0.0863 >= 0.0500 removing age
...
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279
วิธีนาํ เข้า (Forward selection procedure)
ขันตอนที 1 เลือกตัวแปรอิสระตัวแรกเข้ ามาในสมการ
กําหนด Pe (เช่น Pe=0.05)
(ก) วิเคราะห์การการถดถอยอย่างง่าย ตัวแปรตามกับตัวแปรอิสระ
ทีละตัวแปร
เลือกตัวแปรอิสระทีมีความสัมพันธ์เชิงเส้ นกับตัวแปรตาม ค่า p-value
น้ อยทีสดุ และ < ระดับนัยสําคัญ (Pe)
*****กรณี p-value > Pe ยุติการวิเคราะห์
. regress sysbp chol

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .3075584 .0416769 7.38 0.000 .2199986 .3951183
_cons | 39.95941 13.93348 2.87 0.010 10.68625 69.23256
------------------------------------------------------------------------------
การวิเคราะห์การถดถอยอย่างง่าย ตัวแปรตาม ตัวแปรอิสระ
. regress sysbp chol

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .3075584 .0416769 7.38 0.000 .2199986 .3951183
_cons | 39.95941 13.93348 2.87 0.010 10.68625 69.23256
------------------------------------------------------------------------------

. regress sysbp age



------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | 1.695629 .4223477 4.01 0.001 .8083094 2.582949
_cons | 53.60554 22.09811 2.43 0.026 7.179137 100.032
------------------------------------------------------------------------------

. regress sysbp tri



------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tri | .4471421 .0659423 6.78 0.000 .3086025 .5856817
_cons | 67.34391 11.2005 6.01 0.000 43.81254 90.87528
------------------------------------------------------------------------------

ดังนันตัวแปร chol เป็ นตัวแปรอิสระตัวแปรแรกทีนาํ เข้ าในสมการ


หรือ วิธีนาํ เข้า (Forward selection procedure)
วิเคราะห์สหสัมพันธ์ระหว่างตัวแปรตามกับตัวแปรอิสระ เลือกตัวแปร
อิสระทีมคี วามสัมพันธ์กบั ตัวแปรตามมากทีสดุ และ P-Value < Pe
จากตัวอย่างพบว่าสหสัมพันธ์เป็ นดังนี
rSYSBP-CHOL =0.8669. pwcorr sysbp chol age tri, sig

rSYSBP-AGE =0.6873 | sysbp chol age tri


-------------+------------------------------------
sysbp | 1.0000
rSYSBP-TRI =0.8477 |
chol | 0.8669 1.0000
| 0.0000
|
age | 0.6873 0.5609 1.0000
| 0.0008 0.0101
|
tri | 0.8477 0.7467 0.5732 1.0000
| 0.0000 0.0002 0.0082

ดังนันตัวแปร chol เป็ นตัวแปรอิสระตัวแปรแรกทีนาํ เข้ าในสมการ


ขันตอนที 2 พิจารณาตัวแปรที 2 เข้ าโมเดล
(ก) สร้ างโมเดลตัวแปรตามกับตัวแปรอิสระทีนาํ เข้ าในขันตอนที 1
และตัวแปรอิสระทีเหลือทีละตัวแปร พิจารณาเลือกค่า p-value
(จาก t-test) (ก) P-value < Pe ให้ นาํ เข้ าตัวแปรอิสระในโมเดล
(ข) P-value > Pe ยุติการนําเข้ าตัวแปรอิสระในโมเดล
. regress sysbp age chol

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .7236989 .3145605 2.30 0.034 .0600341 1.387364
chol | .2491839 .0452355 5.51 0.000 .1537453 .3446225
_cons | 21.81301 14.79754 1.47 0.159 -9.407062 53.03308
------------------------------------------------------------------------------

.regress sysbp tri chol



------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tri | .238911 .0763522 3.13 0.006 .0778219 .4
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279

ตัวแปร tri มีค่า p-valueน้ อยกว่า (t =3.13, p-value=.006)


หรือ ขันตอนที 2 พิจารณาตัวแปรที 2 เข้ าโมเดล
*ใช้ วิธี partial correlation ได้ ให้ ผลเช่นเดียวกัน
rYX  rYZ rXZ
rYX|Z 
(1  rYZ2 )(1  rXZ
2
)
. pcorr sysbp age chol
(obs=20)
rsysbp  age  rsysbp  chol rage  chol Partial correlation of sysbp with
rsysbp  age|chol  Variable | Corr. Sig.
(1  rsysbp
2
 chol )(1  rage  chol )
2
-------------+------------------
age | 0.4873 0.034
chol | 0.8006 0.000

. pcorr sysbp tri chol


(obs=20)
rsysbp  tri  rsysbp  chol rtri  chol Partial correlation of sysbp with
rsysbp tri|chol  Variable | Corr. Sig.
(1  rsysbp
2
 chol )(1  r 2
tri  chol ) -------------+------------------
tri | 0.6045 0.006
chol | 0.6631 0.002
ขันที 3 พิจารณาตัวแปรอิสระทีนาํ เข้ าหาค่า t และ p-value
ร่วมกับตัวแปรอิสระทีนาํ เข้ าก่อน
ถ้ า
(ก.) P-value < ระดับนัยสําคัญทางสถิติทกี าํ หนด (Pe) ให้ นาํ เข้ า
ตัวแปรอิสระดังกล่าวในโมเดลสมการถดถอย
(ข.) P-value > ระดับนัยสําคัญทางสถิตทิ กํี าหนด (Pe) ยุติการนําเข้ า
ตัวแปรอิสระ คงใช้ โมเดล ในขันตอนที 1
ขันที 3 ทําตามขันตอนที 2 ซํากับตัวแปรทีเหลือ ทําเช่นนีจนครบทุก
ตัวแปรอิสระ จนไม่มีตัวแปรใดที P-value < Pe ทีกาํ หนด ให้ ยุติการ
นําเข้ า
. regress sysbp age chol tri

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007311 54.31117
------------------------------------------------------------------------------

หรือ (2) ใช้ Partial Correlation . pcorr sysbp age chol tri
(obs=20)
Partial correlation of sysbp with
ให้ ค่า t, p-value เช่นเดียวกัน Variable | Corr. Sig.
-------------+------------------
age | 0.4156 0.086
chol | 0.6401 0.004
tri | 0.5582 0.016
. regress sysbp age chol tri

Source | SS df MS Number of obs = 20


-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.8 19 480.726316 Root MSE = 8.6281

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007311 54.31117
------------------------------------------------------------------------------

ดูที p-value = 0.086 (ของค่า t=1.83) > นัยสําคัญทางสถิติทกี าํ หนด


(Pe=0.05) ยุติการนําเข้ า
ค่า p-value = 0.086 > นัยสําคัญทางสถิติทกี าํ หนด (Pe=0.05)
ยุติการนําเข้ า ใช้ โมเดลในขันตอนที 2
. regress sysbp chol tri

Source | SS df MS Number of obs = 20


-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238
Total | 9133.80 19 480.726316 Root MSE = 9.2029

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10278
------------------------------------------------------------------------------
วิธีนาํ เข้ า (Forward selection procedure)
. sw regress sysbp chol age tri, pe(.05)
begin with empty model
p = 0.0000 < 0.0500 adding chol
p = 0.0061 < 0.0500 adding tri
Source | SS df MS Number of obs = 20
---------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
---------+------------------------------ Adj R-squared = 0.8238
Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
chol | .1875776 .0513543 3.653 0.002 .0792295 .2959258
tri | .238911 .0763522 3.129 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.503 0.003 15.91068 64.10278
------------------------------------------------------------------------------
. stepwise, pe(.05) : regress sysbp chol age tri
begin with empty model
p = 0.0000 < 0.0500 adding chol
p = 0.0061 < 0.0500 adding tri
...
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279
------------------------------------------------------------------------------
วิธีสมการถดถอยแบบขันตอน (Stepwise regression procedure)
. sw regress sysbp chol age tri, pr(0.1) pe(.05) forward
begin with empty model
p = 0.0000 < 0.0500 adding chol
p = 0.0061 < 0.0500 adding tri
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238
Total | 9133.8 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279
------------------------------------------------------------------------------

. stepwise, pr(.10) pe(.05) forward: regress sysbp chol age tri


begin with empty model
p = 0.0000 < 0.0500 adding chol
p = 0.0061 < 0.0500 adding tri
...
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279
------------------------------------------------------------------------------
วิธีสมการถดถอยแบบขันตอน (Stepwise regression procedure)
 เป็ นวิธที คี ัดเลือกตัวแปรอิสระร่วมกัน ระหว่างวิธขี จัดออกและ
วิธนี าํ เข้ า
ในเอกสารนีใช้ วิธนี าํ เข้ าก่อนวิธขี จัดออก
ขันตอนที 1 (ก) วิเคราะห์การถดถอยอย่างง่าย ระหว่างตัวแปรตาม
กับตัวแปรอิสระทีละตัวแปร

เลือกตัวแปรอิสระทีมีความสัมพันธ์เชิงเส้ นกับตัวแปรตามมากกว่า
พิจารณาจากตัวแปรทีมี ค่า t มาก หรือค่า p-value น้ อยกว่าและ
p-value < ระดับนัยสําคัญทีกาํ หนด (Pe) นําเข้ าตัวแปรอิสระ
p-value > Pe ยุติการวิเคราะห์
วิเคราะห์การถดถอยอย่างง่ายทีละตัวแปร เลือกตัวแปรอิสระทีมีความสัมพันธ์กบั
ตัวแปรตามสูงก่อน (p-value น้อยกว่า) และ < Pe
. regress sysbp chol
...
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .3075584 .0416769 7.38 0.000 .2199986 .3951183
_cons | 39.95941 13.93348 2.87 0.010 10.68625 69.23256
------------------------------------------------------------------------------

. regress sysbp age


...
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | 1.695629 .4223477 4.01 0.001 .8083094 2.582949
_cons | 53.60554 22.09811 2.43 0.026 7.179137 100.032
------------------------------------------------------------------------------

. regress sysbp tri


...
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tri | .4471421 .0659423 6.78 0.000 .3086025 .5856817
_cons | 67.34391 11.2005 6.01 0.000 43.81254 90.87528
------------------------------------------------------------------------------

p-value ตัวแปร chol < Pe: ตัวแปร chol เป็ นตัวแปรอิสระลําดับแรก


ทีนาํ เข้ าในโมเดล
ขันตอนที 2 พิจารณาตัวแปรที 2 เข้ าโมเดล
(ก) สร้ างโมเดลตัวแปรตามกับตัวแปรอิสระทีนาํ เข้ าในขันตอนที 1 และ
ตัวแปรอิสระทีเหลือทีละตัวแปร พิจารณาเลือกค่า p-value
(จาก t-test) ทีมคี ่าน้ อยกว่า กรณีค่า p-value > Pe ยุติการนําเข้ า
. regress sysbp age chol

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .7236989 .3145605 2.30 0.034 .0600341 1.387364
chol | .2491839 .0452355 5.51 0.000 .1537453 .3446225
_cons | 21.81301 14.79754 1.47 0.159 -9.407062 53.03308
------------------------------------------------------------------------------

.regress sysbp tri chol



------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tri | .238911 .0763522 3.13 0.006 .0778219 .4
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279

จากข้ อมูลตัวอย่าง ตัวแปร tri (triglyceride) มีค่า t มากทีสุดและ p-value น้อยกว่า


และ (p-value < Pe) ให้ นาํ ตัวแปร tri ในโมเดลการถดถอยพหุคุณ
ขันที 3 พิจารณาขจัดตัวแปรออกจากโมเดล
สร้ างการถดถอยพหุ แล้ วพิจารณาค่า t , p-value ตัวแปรอิสระทีอยู่
ในสมการถดถอยพหุ
พิจารณา
p-value (จากค่า t) ตัวแปรอิสระกับ Pr
P-value > Probability to Remove (Pr) ตัดตัวแปรนันออกจากสมการ
P-value < Probability to Remove (Pr) คงตัวแปรอิสระในสมการ
. regress sysbp chol tri
...
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279
------------------------------------------------------------------------------

ค่า p-value ตัวแปร cholesterol, trigyceride < Pr (ระดับนัยสําคัญ


ทีกาํ หนด, Pr =0.20) คงตัวแปรอิสระทัง 2 ตัวแปร อยู่ในสมการ
ขันที 4 ทําตามขันตอนที 2-3 ซํากับตัวแปรทีเหลือ ในทีนีคือ age
พิจารณานําเข้ า (ขันตอนที 2)
 (ก) พิจารณาค่า p-value (จากค่า t) ตัวแปรอิสระทีเหลือ จากสมการ
ถดถอยพหุ
 (ข) กรณี p-value > Pribability to Entry (Pe) ยุติการนําเข้ า
 (ค) กรณีทสี ามารถนําเข้ าตัวแปรอิสระได้ ให้ ทาํ ขันตอน 2-3 จนครบทุก
ตัวแปร จนไม่มี ตัวแปรอิสระใดที p-vakue < Pe ให้ ยุติการนําเข้ า
. regress sysbp age chol tri

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007311 54.31117
------------------------------------------------------------------------------

ตัวแปร age มีค่า p-value=0.086 > Pe (0.05) ยุติการนําเข้ า


โมเดลทีคัดเลือกแบบ Stewise regression
yˆ i  40.01  0.19( x1 )  0.24( x2 )
sysbp predicted
. regress sysbp chol tri

Source | SS df MS Number of obs = 20


-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238
Total | 9133.80 19 480.726316 Root MSE = 9.2029

------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10278
------------------------------------------------------------------------------
วิธีสมการถดถอยแบบขันตอน (Stepwise regression procedure)
. sw regress sysbp chol age tri, pr(0.1) pe(.05) forward
begin with empty model
p = 0.0000 < 0.0500 adding chol
p = 0.0061 < 0.0500 adding tri
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238
Total | 9133.8 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279
------------------------------------------------------------------------------

. stepwise, pr(.10) pe(.05) forward: regress sysbp chol age tri


begin with empty model
p = 0.0000 < 0.0500 adding chol
p = 0.0061 < 0.0500 adding tri
...
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258
tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279
------------------------------------------------------------------------------
การกําหนดให้ ตัวแปรอิสระอยู่ในโมเดลการคัดเลือก
lockterm1 = keep the first term
. stepwise, forward lockterm1 pr(.10) pe(.05): regress sysbp (age) chol tri
begin with term 1 model
p = 0.0000 < 0.0500 adding chol
p = 0.0161 < 0.0500 adding tri
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.8 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953
tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007311 54.31117
------------------------------------------------------------------------------

*กรณีตัวแปรหุ่น (Dummy Variable) ใช้ พิจารณาเป็ นกลุ่มตัวแปร


โดยใช้ (age i.occ)
. xi:stepwise, forward lockterm1 pr(.10) pe(.05): regress sysbp (age i.occ) chol tri
Report Regression Table (Publication Manual of the American Psychological
Association sixth Edition,2010;pp 145.)
Stepwise logistic regression พิจารณาค่า p-value
Hosmer & Lemeshow (2000) ควรกําหนด
p-value for entry (Pe) 0.15-0.25 , p-value for remove (Pr) > Pe

การกําหนด p-value for entry สูงหรือตําเกินไป


use more tradition level (0.05) fails to identify variables known
to be important ?
higher level has disadvantage of including variables that are of
questionable importance at the model building stage
(Original: Mickey & Greenland, 1977: p125-137;
Reference: Hosmer & Lemeshow (2000): p95)
ข้อกําหนดในการวิเคราะห์การถดถอยพหุคุณ
(Assumption)
 พิจารณาจากส่วนทีเหลือ (Residual: ei หรือ yi  yˆ i )
 ตัวแบบมีความสัมพันธ์เชิงเส้ น (The regression function is linear)
 ค่า residual (ei) มีการแจกแจงแบบปกติ
 ค่า residual (ei) มีค่า variance คงที (homoscedasticity)
 ค่า residual (ei) ไม่มีความสัมพันธ์กบั ค่าอืนๆ
(no auto-correlation, no serial correlation)
 พิจารณา Independent variable
 ไม่มี Multicollinearity
ความเหมาะสมของตัวแบบ (Aptness of Model)
ตัวแบบมีลกั ษณะเชิงเส้น (The regression function is linear)
วิธตี รวจสอบ ŷi
พล็อตกราฟระหว่างค่าส่วนทีเหลือ (residual: ei) กับ fitted value
ตัวแบบมีลักษณะเชิงเส้ น เมือจุดพล็อตปรากฏรอบเส้ นแกนนอน ทีมีค่าส่วน
ทีเหลือ (ei) เท่ากับ 0 ดังรูป a
ตัวแบบไม่มีลักษณะเชิงเส้ น แสดงดังรูป b โดยทีจุดพล็อตมีลักษณะเพิมขึนและ
ลดลงอย่างเป็ นระบบ

รูป a รูป b

ŷi ŷi
.regress sysbp chol tri
.rvfplot ,yline(0)

ei VS ŷi

ŷi
ค่า residual (ei) มีการแจกแจงแบบปกติ
 Normal probability plot, Box-Whisker plot, Stem & leaf etc.
 Shapiro-Wilk test
. quietly regress sysbp chol age tri
. predict e,residual
. swilk e
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
-------------+-------------------------------------------------
e | 20 0.95467 1.073 0.142 0.44361
. pnorm e
ค่า residual (ei) มีค่า variance คงที (homoscedasticity)

การฟล็อตกราฟ ระหว่างค่า residual (ei) กับ ŷi


ทดสอบ Cook-Weisberg test for heteroscedasticity
Stata
estat hettest tests for heteroskedasticity
estat imtest information matrix test
estat ovtest Ramsey regression specification-error
test for omitted variables
estat szroeter Szroeter's rank test for
heteroskedasticity

rvfplot residual-versus-fitted plot


 ค่า residual (ei) มีค่า variance คงที (homoscedasticity)
 การฟล็อตกราฟ ระหว่างค่า residual (ei) กับ ŷi
 ทดสอบ Cook-Weisberg test for heteroscedasticity
. rvfplot, ylin(0)

. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of sysbp
chi2(1) = 1.38
Prob > chi2 = 0.2409
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of sysbp
chi2(1) = 1.38
Prob > chi2 = 0.2409

. estat imtest
Cameron & Trivedi's decomposition of IM-test
---------------------------------------------------
Source | chi2 df p
---------------------+-----------------------------
Heteroskedasticity | 3.28 5 0.6563
Skewness | 2.14 2 0.3438
Kurtosis | 1.21 1 0.2720
---------------------+-----------------------------
Total | 6.63 8 0.5775
---------------------------------------------------

. estat szroeter , rhs mtest(holm)


Szroeter's test for homoskedasticity
Ho: variance constant
Ha: variance monotonic in variable
---------------------------------------
Variable | chi2 df p
-------------+-------------------------
chol | 2.37 1 0.2481 #
tri | 0.67 1 0.4134 #
---------------------------------------
# Holm-adjusted p-values
. hettest
Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
chi2(1) = 7.44
Prob > chi2 = 0.0064

. rvfplot, border yline(0)

. hettest
Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
chi2(1) = 0.00
Prob > chi2 = 1.0000

. rvfplot, border yline(0)


ค่า residual (ei) ไม่มีความสัมพันธ์กบั ค่าอืนๆ
(no auto-correlation, no serial correlation )
**ใช้เฉพาะข้อมู ลแบบ Time-Series

 ความสัมพันธ์ระหว่างค่าระหว่างรายข้ อมูลของตัวแปรเดียวกัน
n 2
error รายที i VS error รายที i-1  (e  ei  1 )
 การคํานวณค่า Durbin-Watson (d) d  i  2
n 2
d มีค่า 1-4  ei
d < 2 พบว่าเกิด positive autocorrelation i  1
d > 2 เกิด negative autocorrelation
As a rough rule of thumb, Durbin–Watson is 1.5 – 2.5
are relatively normal.
ตัวอย่าง การศึกษาการได้ รับสาร Beryllium ในคนงานเหมืองถ่านหิน
โดยศึกษาตัวแปร age exposure กับ higher rate of blastogenic
lymphocyte transformation (lt ratio)
id age time expose lt
1 42 15 1 54
2 46 14 2 7.3
3 43 8 4 3
4 25 3 3 2
5 26 13 4 5.4
6 55 12 4 5
7 23 10 4 3.7
8 24 11 4 5
9 38 7 3 2.8
10 24 4 4 2.2
11 28 6 4 2.5
12 38 9 4 3.1
13 26 5 4 2.5
14 28 1 4 .8
15 26 2 2 1.2
. tsset time
time variable: time, 1 to 15
delta: 1 unit

. qui regress lt age expose


. estat dwatson

Durbin-Watson d-statistic( 3, 15) = 1.98835

. estat durbinalt
Durbin's alternative test for autocorrelation
--------------------------------------------------------------------
lags(p) | chi2 df Prob > chi2
-------------+------------------------------------------------------
1 | 1.843 1 0.1746
--------------------------------------------------------------------
H0: no serial correlation

H 0 :   0; H A :   0
ภาวะร่วมเส้นตรง* (Collinearity)
ความสัมพันธ์ระหว่างตัวแปรอิสระด้ วยกัน มีค่าสูง
(r2 > 0.90; r > 0.95 Kleinbaum, Muller, Nizam; 1998, 241)
ชืออืน “ภาวะร่วมเส้นตรงพหุ (Multicollinearity)”
 การลดหรือเพิมตัวแปรในโมเดล ทําให้ เปลียนแปลงค่าสัมประสิทธิ
ทังขนาดและ/หรือเครืองหมาย
 ค่า R2 มีค่าสูงแต่การทดสอบทางสถิติกบั สัมประสิทธิ พบว่า
ไม่มีนยั สําคัญ
 ทําให้ ค่า Standard error สูง ซึงส่งผลให้ ค่าสถิติมคี ่าตํา เช่น t, z
และทําให้ ค่าช่วงเชือมันของสัมประสิทธิมีค่ากว้ าง
*พจนานุกรมศัพท์คณิตศาสตร์ ฉบับราชบัณฑิตยสถาน, 2552
การตรวจสอบ Collinearity หรือ Multicollinearity
 Pearson Correlation (informal method)
ตรวจสอบความสัมพันธ์ทุกตัวแปร โดยใช้ สถิติ Pearson correlation
พิจารณาตัวแปรทีมีความสัมพันธ์กบั ตัวแปรอืนๆ สูง
. corr chol age age tri
(obs=20)

| chol age age tri


-------------+------------------------------------
chol | 1.0000
age | 0.5609 1.0000
age | 0.5609 1.0000 1.0000
tri | 0.7467 0.5732 0.5732 1.0000
Indication of Multicollinearity ด้วยวิธี Variance inflation factors*
 VIF > 10 indication that Multicollinearity
 Mean VIF provides information about the severity of the
multicollinearity
 if Mean VIF > 1 are indicative of serious multicollinearity
problems
(*Neter, Wasserman & Kutner, 1987; Marquardt, 1970; Belsley, Kuh &
Welsch, 1980)

tolerence (O’Brien, 2007) tolerancei  (1  R i2 )


tolerence <0.20 (vif>5) or tolerence 0.10 (vif=10+)

Stata
collin [varlist…]
estat vif variance inflation factors for the
independent variables
 Variance Inflation Factors (VIF: formal method)
พิจารณาค่า VIF > 10 และ
ค่าเฉลียของ VIF มากกว่า 1 มีปัญหาการเกิด Multicolinearity
1
VIF  (1  R 2 )  1 
. collin age chol tri
Collinearity Diagnostics
i i 2
SQRT R-
1  R
Variable VIF VIF Tolerance Squared i
----------------------------------------------------
age 1.58 1.26 0.6315 0.3685
chol 2.40 1.55 0.4162 0.5838
tri 2.45 1.57 0.4077 0.5923
---------------------------------------------------- p-1
Mean VIF 2.15  (VIF ) K
Cond
Eigenval Index VIF  i  1
--------------------------------- p-1
1 3.9477 1.0000
2 0.0303 11.4206
3 0.0126 17.7302
4 0.0094 20.4609
---------------------------------
Condition Number 20.4609
Eigenvalues & Cond Index computed from scaled raw sscp (w/ intercept)
Det(correlation matrix) 0.2794
. quietly regress sysbp chol age tri
. vif
Variable | VIF 1/VIF
-------------+----------------------
tri | 2.45 0.407722
chol | 2.40 0.416193
age | 1.58 0.631508
-------------+----------------------
Mean VIF | 2.15
หรือ
. estat vif
Variable | VIF 1/VIF
-------------+----------------------
tri | 2.45 0.407722
chol | 2.40 0.416193
age | 1.58 0.631508
-------------+----------------------
Mean VIF | 2.15

. di (2.45+2.40+1.58)/3
2.1433333
ความสัมพันธ์ระหว่าง VIF vs ค่า correlation
r r2 vif
.1 0.01 1.01
.2 0.04 1.04
.3 0.09 1.10
.4 0.16 1.19
.5 0.25 1.33
.6 0.36 1.56
.7 0.49 1.96
.8 0.64 2.78
.9 0.81 5.26
.91 0.83 5.82
.92 0.85 6.51
.93 0.86 7.40
.94 0.88 8.59
.95 0.90 10.26
.96 0.92 12.76
.97 0.94 16.92
.98 0.96 25.25
.99 0.98 50.25 .95
1 1.00 .
Conditional Index & Variance Decomposition Proportion
ค่า Conditional Index (CI) และค่า Variance Decomposition
Proportion (VDP) เป็ นค่าทีคาํ นวณจาก eigenvalue จากการ
วิเคราะห์เมตริกซ์สหสัมพันธ์ ของตัวแปรอิสระ โดย Conditional
Index คํานวณจาก
k  Max / Min ;   Eigenvalue
 ค่า Conditional Index มีค่า 10-30 แสดงว่ามีภาวะร่ วมเส้ นตรง
ค่า conditional index > 30 แสดงว่ามีปัญหาภาวะร่วมเส้ นตรง
Conditional Index > 100 แสดงว่ามีภาวะร่ วมเส้ นตรงสูงมากๆ
(Belsley, 1991a)
 between 10 and 30, there is moderate to strong multicollinearity and
if it exceeds 30 there is severe multicollinearity. (Gujarati, 2002)
Conditional Index & Variance Decomposition Proportion
 ค่า Variance Decomposition Proportion แนะนําโดย
Belsley et al. (1980) และ Belsley (1991a)
พิจารณา VDP มากกว่า 0.5
 คํานวณค่าสัดส่วนของความแปรปรวน (proposed calculation of
the proportions of variance) ของแต่ละตัวแปรสัมพันธ์กบั
ค่าองค์ประกอบ (principal component) เปรียบเสมือน
องค์ประกอบของค่าสัมประสิทธ์ความแปรปรวนในแต่ละมิติ
(decomposition of the coefficient variance for each dimension)
V jk2
p jk  (Fox,1984)
VIFj k
. coldiag2 tri chol age, force w(5)
Condition number using scaled variables = 20.46

Condition Indexes and Variance-Decomposition Proportions

condition
index _cons tri chol age
1 1.00 0.00 0.00 0.00 0.00
2 11.42 0.32 0.38 0.01 0.03
3 17.73 0.32 0.00 0.14 0.95
4 20.46 0.36 0.61 0.85 0.02

. prnt_cx, force w(5)


Condition Indexes and Variance-Decomposition Proportions
condition
index _cons tri chol age
1 1.00 . . . .
2 11.42 0.32 0.38 . .
3 17.73 0.32 . . 0.95
4 20.46 0.36 0.61 0.85 .

Variance-Decomposition Proportions less than .3 have been printed as "."

You might also like