Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 10

다변인 회귀분석

(Multiple Regression Analysis)

▨ 정의
등간척도 ( 또는 비율척도 ) 로 측정된 두개 이상 여러개의 독립변인이
등간척도 ( 또는 비율처도 ) 로 측정된 한개의 종속 변인에 미치는 영향력을
분석하여 연구가설을 검증하는 통계방법

▨ 조건
1) 독립변인
(1) 수 : 두개 이상 여러개
(2) 측정 : 등간척도 또는 비율척도 ( 명명척도 : 가변인사용 )
2) 종속변인
(1) 수: 한 개
(2) 측정 : 등간척도 또는 비율척도
연구절차

1. 연구가설 선정

2. 통계프로그램 실행

3. 변인의 기술통계값 분석 : 변인의 사례수와 평균값 , 표준편차 값을 분석

4. 변인의 상관관계계수 분석

5. 회귀모델의 변량분석 및 유의도검증

6. 회귀계수 분석 및 유의도 검증

7. 모수치 추정 : 비표준 회귀계수의 신뢰구간을 통해 모수치를 추정

8. 부분 / 편 상관관계 분석 : 독립변인이 종속변인과 얼마나 밀접한 관계를 가지는가

9. 다중 공선성 문제 확인 : multicollinearity

10. 전제 조건 검증
1. 연구가설 선정

예> 연구가설 : 교육과 연령이 텔레비전 시청량에 영향을 줄 것이다 .


독립변인 : 교육 (① 중학교 졸업 ,② 고등학교 졸업 ,③ 대학교 졸업 )
연령 ( 응답자의 실제나이 )
종속변인 : 텔레비전 시청량 ( 일일 평균 텔레비전 시청량 )

▨ 다변인 회귀분석방법의 방정식


1. 원회귀 방정식
Y = A + B1X1 + B2X2 + E
Y : 종속변인 원 점수 ( 텔레비전 시청량 )
X1 : 독립변인 원 점수 ( 교육 )
X2 : 독립변인 원 점수 ( 연령 )
B1,B2 : 비표준 회귀계수
A : 상수
E : 오차
2. 예측 회귀방정식
Y' = A + B1X1 + B2X2 ( 비표준 회귀계수일 경우 )
Y' = B1X1 + B2X2 ( 표준 회귀계수일 경우 )
Y' : 종속변인 예측 점수 ( 텔레비전 시청량 )
X1 : 독립변인 점수 ( 교육 )
X2 : 독립변인 점수 ( 연령 )
B1,B2 : 회귀계수
A : 상수
3. 기술통계

예 > 기술통계

평균 표준편차 사례수
(n)
TV 시청량 47.2000 14.7930 25
연령 28.7600 6.7656 25
교육 2.1200 .7810 25

4. 상관관계계수
예 > 상관관계계수 행렬표

TV 시청량 연령 교육 : 단순회귀분석방법과 마찬가지


로 다변인 회귀분석방법도 독립
Pearson TV 시청 1.000
변인과 종속변인 간의 상관관계
상관 량
연령 .449 1.000 계수를 구한 후 이를 이용하여 변
P=.012 량분석을 한다 .

교육 -.579 .006 1.000


P=.001 p=.489

< 연령 > 과 < 텔레비전 시청량 > 은 0.449 로 비교적 관계가 있는 것으로 나타났다 .
반면 < 교육 ) 과 < 연령 > 간의 상관관계계수는 0.006 으로 매우 낮았다 .
5. 회귀모델의 변량 분

(1) 독립변인간 상관관계가 존재하지 않을때 ( 상관관계 =0)

R2( 설명변량 ) = 교육 r2 + 연령 r2
but, 독립변인간 상관관계가 '0' 일 경우 거의 없음

(2) 독립변인간의 상관관계가 존재할때

① 변량 분석

R2 < 교육 r2 + 연령 r2
R2 = 교육 r2 + 연령 r2 - 교육과 연령 r2

즉 , 개별 설명변량을 합한 후에 독립변인간의 겹친 부분인 설명변량을 뺀값이 설


명변량이 된다 .
② 유의도 검증
예 > 회귀모델의 유의도 검증

모형 자승의 합 자유도 평균제곱 F 유의확률


(Sum of Square) (Mean Square)
선형회귀분석 2837.564 2 1418.782 12.92 .000
8
잔차 2414.436 22 109.747
합계 5252.000 24

▶ 자유도 2 와 22 에서 F 값 12.928 의 유의도는 0.000 으로 통계적으로 유의미 하기


때문에 연구가설을 받아들인다 . 즉 < 교육 > 과 < 연령 > 은 < 텔레비전 시청량 > 에
영향을 주는 것으로 나타났다 .

▶ but,
이 유의도 검증은 변인간의 관계가 있는지 없는지만을 판단해 주기 때문에 변인가
의 관계가 정적인 (+) 관계인지 , 또는 부적인 (-) 관계인지 , 얼마나 밀접한 관계인지는
알 수 없다 . 이를 알기 위해서는 개별 회귀계수의 유의도를 검증해야 한다 .
6. 회귀계수의 유의도 검증

예 > 회귀계수와 신뢰구간

모형 비표준 계수 표준화계수 t 유의확률 B 에 대한 95%


신뢰구간
B 표준오차 베타 (Beta) 최소값 최대값
연 (상 42.099 10.960 3.841 .001 19.369 64.828
령 수)
-11.019 2.738 -.582 -4.024 .001 -16.697 -5.340
교육
.990 .316 .453 3.131 .005 .334 1.645
연령

▶ 비표준 회귀방정식 Y’ = 42.099 – 11.019X1 + 0.990X2


-> X1 에 < 교육 >, X2 에 < 연령 > 의 원점수를 넣으면 종속변인 Y’ < 텔레비전 시청량
> 의 예측점수를 구할 수 있다 .

▶ 표준 회귀방정식 Y’ = -0.582X1 + 0.453X2


-> 표준 회귀계수는 상호비교가 가능하기 때문에 < 교육 > 이 < 연령 > 보다 < 텔레비
전 시청량 > 에 더 큰 영향력을 준다는 것을 알 수 있다 .

※ 주의 : 개별 독립변인의 회귀계수는 나머지 독립변인을 통제 (Control) 한 상태에서 구


한 값이다 .
7. 모수치 추정

모든 통계치에는 표본추출 과정에서 생기는 오류 때문에 오차가 포함되며 , 오차를 제거하


고 모수치를 추정해 나가는 통계적 방법이 추리통계

8. 부분 / 편 상관관계계수 분

다른 독립 변인을 제거한 후 남은 독립 변인이 종속 변인과 얼마나 밀접한 관계를 가지는가
를 보여 주는 값

① 단순상관계수 (zero-order correlation coefficient)


: 아무런 변수도 통제되지 않은 상태에서의 두 변수간의 상관계수
② 부분상관관계계수 (part correlation coefficient):
: 나머지 독립변수개의 독립변수에 의한 선형효과를 제거한 후 독립변수

종속변수와의 상관계수
③ 편 상관계수 (partial correlation coefficient)
: 나머지 개의 독립변수로 ** 설명되어지는 부분을 제거한 후 구한 상관
관계
로서 이 값의 절대값이 크면 기존의 모형에 독립변수를 추가적으로 포

7. 다중공선성 (multicollinearity) 문제

- 여러 독립 변인 간의 상관관계가 높을 때 발생하는 문제
- 한 변인이 통계적으로 유의하게 나오면 이 변인과 상관관계가 높은 다른 변인은 거의 통
계적으로 유의하지 않게 나오는 현상 .

※ 일반적으로 독립변인들간의 상관관계계수가 0.5 이상이면 다중 공선성 문제가 있다고


할 수 있다 .

▶ 다중 공선성 문제의 해결책


1. 상관관계가 높은 독립 변인을 합하여 한 변인으로 만든다 .
2. 상관관계가 높은 독립변인 중 가장 적합한 하나의 변인을 두고 다른 변인들은 제외한다 .
3. 연구자의 이론에 따라 독립 변인간의 인과관계를 설정하는 통로분석모델을 만든다 .
전제 조건 검사

1. 선형성과 변량의 동질성 검사


① 무작위 표본 축출
② 변인의 정상적인 분포
③ 독립 변인과 종속 변인과의 관계는 선형적이다 .
④ 변량이 동질적이어야 한다 .

※ ①, ② 의 조건은 표본의 크기가 크면 어느정도 위반해도 문제가 되지 않지만 , ③, ④ 의


조건은 반드시 충족되어야 한다 .

2. 편차가 큰 사례 검사
몇 개 안 되는 편차가 큰 점수 제외 시 설명력이 큰 회귀선 찾을 수 있음

- 편차가 큰 사례를 찾아내기 위해 세 가지 수치를 사용한다 .


① standardized residual (ZRESID 로 표기함 )
② studentized residual (SRESID 로 표기함 )
③ studentized deleted residual (SDRESID 로 표기함 )

You might also like