Professional Documents
Culture Documents
Regression Textbook10-1
Regression Textbook10-1
[표 10.1] 살충제 자료
살충제 양 벌레 수 죽은 벌레 수
1.6907 59 6
1.7242 60 13
1.7552 62 18
1.7842 56 28
1.8113 63 52
1.8369 59 53
1.8610 62 61
1.8839 60 60
10.1 예제
- 1 -
실험에서 사용된 살충제의 양, 각 수준에서 사용된 벌레 수와 죽은 벌레 수에 대한 것이다.
실험에 사용된 전체 벌레 수는 481마리이며, 각 벌레는 죽었으면 1, 살았으면 0으로 표시
되었다. 결과자료는 “beetle.txt”에 저장되어 있으며, 각 벌레에 대해 변수 conc는 살충제 양, 변
수 killed는 0과 1의 값을 가진다.
이 실험에서 변수 conc는 실험에서 사전에 설정된 살충제의 양이므로, 실험에서 관측되는
값이 아닌 이미 주어진 값이다. 실험의 결과로 관측되는 반응변수는 0과 1의 값을 갖는 killed
이다. 따라서 살충제의 양이 벌레의 살고 죽음에 어떻게 영향을 주는지를 알아보는 것이 이
실험의 목적이므로 killed를 반응변수로, conc를 설명변수로 하는 회귀모형을 생각할 수 있으
나, 반응변수가 연속형이 아닌 오직 0과 1의 두 값만을 갖는 이진변수(binary variable)이므로
앞에서 배운 선형회귀모형의 적용이 가능하지 않게 된다.
실제로 변수 killed와 conc의 산점도([그림 10.1])를 보면 conc의 값이 killed에 어떻게 영향
을 주는지는 명확하게 나타나지를 않는다.(이 자료의 경우 killed가 0, 1의 값을 가지므로 각
conc에 대해 2개의 점으로만 나타난다.) 그러나 이 산점도에 lowess 곡선을 추가하면([그림
10.2]) 곡선이 conc가 작은 경우에는 killed=0에서 시작하여, conc가 증가할수록 killed=1로 접근
하고 있음을 알 수 있다. 즉, conc가 killed의 값에 어떠한 영향을 주고 있음을 알 수 있다.
[그림 10.1] killed와 conc의 산점도 [그림 10.2] killed와 conc의 산점도(lowess곡선 추가)
- 2 -
[예제 10.2] 교원의 연봉
1980년대 초에 미국 중서부의 어느 작은 대학에서 교원 연봉의 성별 차별에 대한 논쟁이 있었
다. 여성이 남성보다 적은 연봉을 받고 있다는 주장이 대두되었던 것이다. 자료 “salary.txt”는
이를 분석하기 위해 그 학교 소속 교원들의 연봉과 관련된 변수들을 조사한 값들이다.
[그림 10.3]은 우선 연봉(salary)과 성별(gender: 0=남성, 1=여성)의 관계를 보기 위하여 작성
한 산점도로 lowess 곡선이 추가되어있다. 이 경우에는 고액 연봉에 남성들이 더 많이 있으며,
실제로 lowess 곡선도 처음에는 0.5 근처에서 시작하다가 연봉이 증가할수록 남성 쪽으로 접근
하는 것을 볼 수 있다. 즉, 이 경우에도 연봉과 성별은 어느 정도의 관련성을 가지고 있음을
알 수 있다.
- 3 -
위의 두 예제에서 우리는 0과 1로 값들이 주어지는 반응변수들도 다른 변수들과 상당한 관
계를 가질 수 있음을 알 수 있다. 위와 같은 자료들의 분석에 사용하는 회귀모형을 로지스틱
회귀모형(logistic regression model)이라 하는데, 이 모형에서는 반응변수가 이진변수로 주어지
므로 이와 같은 변수들의 분포인 이항분포를 먼저 살펴볼 필요가 있다.
- 4 -
로 식(10.3)을 보면 , , 의 값에 관계없이 의 값은 항상 0보다 크고 1보다 작은 값을
가짐을 알 수 있다.
[그림 10.4]는 식(10.3)의 그래프로(수직축은 확률 , 수평축은 변수), 왼쪽은 설명변수
의 회귀계수 이 양수인 경우이고, 오른쪽은 음수인 경우이다. 곡선의 형태가 각각 [그림
10.2]와 [그림 10.3]의 형태와 유사한 것을 알 수 있다. 그리고 [그림 10.5]는 이 양수인 경우
식(10.1)의 그래프이다. 설명변수 의 직선으로 주어지므로 식(10.1)의 설정이 타당함을 알 수
있다.
- 5 -
호는 다른 정보와 함께 컴퓨터의 데이터베이스에 실시간으로 저장되어 사용된다. 이와 같이
자료가 하나의 신호이거나 또는 개별 개체에 대한 정보로 주어지는 경우 이를 비그룹화 자료
(ungrouped data)라고 한다. 다른 한편으로 실험실 자료의 경우에는 관측값들을 일정 시간 후에
정리하게 되고 또한 효과적으로 나타내기 위하여 표의 형태를 사용하고 있다. [표 10.1]의 형
태가 대표적인 것으로, 이 표에는 살충제의 각 농도가 적용된 벌레들의 수와 죽은 벌레 수를
정리하여 나타내고 있다. 예를 들어, 첫줄의 자료는 살충제 양 1.6907이 적용된 벌레 수는 59
마리인데, 이들 중 6마리가 죽었음을 의미한다. 이와 같이 같은 속성을 가진 자료를 묶어 표
등으로 정리한 자료를 정리된 자료 또는 그룹화 자료(grouped data)라고 부른다.
위의 예제에서 동일한 살충제 농도에서 죽은 벌레 수를 통계학적으로 다음과 같이 해석할
수 있다. 예를 들어, 첫 번째 농도 수준에서 사용된 개별 벌레에서 관측된 반응변수
⋯ 는 0과 1의 값을 가지는 서로 독립적인 베르누이 분포를 따른다. 그리고 이들
값을 모두 더하면 59마리 벌레 수 중 죽은 벌레 수에 해당될 것이다(이 실험에서는 벌레가 죽
은 것을 “성공”이라 나타내고, 1로 표시하고 있음을 상기하라). 통계학 이론에서 우리는 개의
확률변수 ⋯ 가 서로 독립이고 성공확률이 인 베르누이 분포를 따를 때 그 합인
(10.5)
- 6 -
이 추정량은 반응변수가 특정한 확률분포를 따른다는 가정 하에서 구해지게 된다. 예를 들어,
선형회귀분석에서 사용한 최소제곱추정량도 반응변수가 정규분포를 따른다는 가정 하에서는
최대가능도추정량과 동일함을 보일 수 있다([연습문제 6.3] 참조).
로지스틱 모형에 대한 최대가능도추정방법을 이용한 구체적인 모수 추정방법은 11장에서
일반화선형모형을 소개한 다음 설명될 예정이다. 최대가능도추정량의 장점은 근사적으로 비편
향성을 만족하고 정규분포를 따른다는 것이다. 따라서 추정량의 분포를 구하는 수고를 할 필
요가 없고, 분산과 표준오차 또한 추정량을 구하는 과정에서 자연스럽게 얻어지게 된다. 그 결
과로 모수에 대한 추론이 쉽게 진행될 수가 있다. 근사적으로 정규분포를 따르므로 신뢰구간
이나 가설검정에는 t 분포 대신에 정규분포가 사용된다.
을 생각하자. 위에서 ⋯ ′ 이며, ⋯ ′ 로 정의된다. 이때
수준 에서의 오즈(odds) 는 다음과 같이 “성공”할 확률 대 “실패”할 확률의 비로 정의된다.
exp ′
- 7 -
즉, 다른 설명변수들의 값들이 고정된 상태에서 번째 설명변수 가 한 단위 변할 때의 오
즈비는 exp 로 주어짐을 알 수 있다. 예를 들어, 이면, 가 1단위 증가하면 오즈
비는 exp 이며, 따라서 ‘오즈가 42배 증가’한다는 것을 의미한다.
그리고 이면 이 되어 오즈가 변하지 않게 된다. 따라서 가 오즈 또는 반응
변수 의 성공확률 에 영향을 주지 않는다고 해석할 수 있고, 는 모형에서 제거될 수도
있다. 이는 선형회귀분석에서의 회귀계수 가 0인 경우의 해석과 동일하다. 만일 가 양수이
면 이 되어 오즈가 증가하는 방향으로 영향을 주며, 가 음수이면 이 되어 오즈
가 감소하는 방향으로 영향을 준다고 해석한다.
설명변수가 범주형이면 exp 는 범주들 간의 오즈의 차이를 나타낸다. 예를 들어, 성별
의 경우 exp 는 성별 간의 오즈의 차이가 42배라는 것을 의미한다.
˙
∼
- 8 -
서와 동일하고, 반응변수의 경우는 자료가 비그룹화/그룹화인지에 따라 약간의 차이가 있다.
그리고 “family” 인자에는 자료가 가지는 분포와 사용하는 모형식의 종류를 설정하게 된다.
“data”에는 자료가 포함된 데이터프레임을 적으면 되고, “trace”는 반복추정과정에서의 단계별
계수값들을 보여주는 옵션이다. 그리고 “weights”는 각 자료에 대한 가중치 또는 분할표 형태
의 자료에서 각 칸의 도수를 입력하는데 사용된다. 각 인자들에 대한 자세한 사용법은 예제들
에서 설명된다.
Deviance Residuals:
Min 1Q Median 3Q Max
-2.4922 -0.5986 0.2058 0.4512 2.3820
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -60.717 5.181 -11.72 <2e-16 ***
conc 34.270 2.912 11.77 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
- 9 -
수로 anova, coef, deviance, plot 등이 있다.
lm()의 사용에 익숙한 독자는 summary() 함수 출력물이 lm의 경우와 매우 유사하다는 것을
알 수 있다. 먼저 사용자가 입력한 명령문을 보여주고, 잔차에 대한 기초 통계값들을 보여준
다. 그리고 회귀계수들에 대한 추정값, 표준오차, z값, p값을 보여준다. 따라서 추정된 모형식
은 다음과 같다.
log
선형회귀분석에서처럼 해석하면 conc가 1만큼 증가할 때 로그오즈(= log )가 평균적으로
34.270만큼 증가한다고 해석할 수 있으나, 로그오즈의 의미를 파악하는 것은 쉽지 않다. 따라
서 로지스틱 모형에서는 10.4절에서 설명된 것처럼 오즈비의 개념을 사용한다. 여기서는
exp(34.270)이 매우 큰 값이고, 실제로 살충제의 양은 매우 좁은 간격으로 설정되므로, 살충제
의 양이 0.01만큼 증가할 때로 해석하는 것이 편리하다. 이 경우 exp 이므로,
살충제 양이 0.01만큼 증가할 때 오즈비는 약 1.41이 된다. 또는 “성공” 대 “실패”의 오즈가
1.41배씩 증가한다고 해석한다. 더 쉽게 이해하기 위해서 conc=x일 때의 오즈를 ,
- 10 -
[그림 10.6]은 원 자료의 산점도 위에 추정된 모형식을 나타낸 것이다. 우리가 실제로 추정
한 것은 확률이므로 산점도의 수직축에는
[그림 10.6] killed와 conc의 산점도, lowess 곡선, 로지스틱 모형의 추정 곡선.
- 11 -
Null deviance: 57.901 on 50 degrees of freedom
Residual deviance: 50.319 on 49 degrees of freedom
AIC: 54.319
[그림 10.7] gender와 salary의 산점도, lowess 곡선, 로지스틱 모형의 추정 곡선.
- 12 -
[예제 10.1] 살충제 (3번째)
외부파일인 “beetle2.txt”에는 [표 10.1]의 자료가 저장되어 있다. 이 경우에는 설정되는 모형은
동일하지만 그룹화자료이므로 glm() 함수의 사용방법이 조금 달라지게 된다.
- 13 -
with(beetle2, lines(lowess(conc, rate), lty=2, col=2))
curve( exp(-60.717+34.270*x) / (1 + exp(-60.717+34.270*x)), add=TRUE, col=4)
지게 된다.
10.8 기타 예제
- 14 -
[예제 10.3] 혼전순결에 대한 찬반 여부
이 자료는 2014년 한국종합사회조사(kgss.skku.edu)에서 가져온 것으로 혼전순결과 관련된 변수
들을 추출하여 사용한 것이다. 변수들은 사전분석을 통하여 선택되었으며, 분석의 목적에 따라
몇 개의 연속형 변수는 범주형으로 변환하여 사용되었다. 그리고 기존의 범주형 변수들도 범
주들을 묶어 다시 설정하기도 하였다.
반응변수는 chastity(1=혼전순결 동의, 0=비동의)이며, 설명변수로는 gender(1=남성, 2=여성),
age(3=20~30대, 4=40대, 5=50대, 6=60세 이상), religion(1=기독교, 2=기타 종교, 3=무교),
marital(0=미혼, 1=기혼), educ(1=중졸, 2=고졸, 3=대졸, 4=대학원 이상), politic(=1,2,3, 정치적
성향), income(0=저소득, 1=고소득)이 사용되었다. 분석에서 educ는 연속형 변수로 사용되었고,
나머지 설명변수는 모두 범주형으로 간주되었다.
변수별로 예상되는 것은 남성보다는 여성이, 20~30대보다는 50대 이상의 연령대가 혼전순
결에 대한 동의 정도가 높을 것으로 생각되며, 그리고 종교가 기독교인 사람, 혼인상태가 기혼
자인 사람, 고학력자와 정치적 성향이 보수적인 사람, 월평균 가구소득이 높은 사람이 성에 관
해서도 보수적일 것이라는 것인데 이에 대한 검증을 하고자 한다.
- 15 -
Null deviance: 1717.6 on 1273 degrees of freedom
Residual deviance: 1501.2 on 1262 degrees of freedom
AIC: 1525.2
coeff = coef(fit.kgss)
( OR = exp(coeff) ) # 오즈비 계산
(Intercept) factor(gender)2 factor(politic)2 factor(politic)3 educ
0.6039337 1.3499303 0.9177706 1.0481582 0.8959342
factor(age)40 factor(age)50 factor(age)60 factor(marital)1 factor(income)1
2.1086035 3.3230230 4.6318655 1.1729382 0.5976520
factor(religion)2 factor(religion)3
0.6691075 0.4567585
[연습문제]
1. 확률변수 ⋯ 들이 서로 독립일 때 의
기댓값과 분산은 각각
와
로
주어진다. 이들을 식(10.5)
에 적용하
- 16 -
2. (1) 오즈 는 성공확률 가 증가하면 따라서 증가함을 보여라.
(2) 성공확률 와 오즈 는 성공확률이 매우 작은 경우에 비슷해짐을 설명하여라.
4. 본문에서 예제로 사용된 교원의 연봉 자료에는 현 직급에 근무한 연수를 나타내는 변수인
“year”가 있다. 이 변수도 설명변수에 포함하여 로지스틱 모형을 적합해보자. 즉,
fit2.sal <- glm( gender ~ salary + year, family=binomial(link="logit"), data=salary)
summary(fit2.sal)
를 실행하면 된다.
(1) 적합된 추정 모형식을 적고, deviance를 이용하여 모형의 적합도에 대해 설명하여라.
(2) 변수 “salary”와 “year”의 계수추정값의 의미를 설명하여라.
(3) 성별과 연봉 간에 관련성이 있다고 할 수 있는가?
(4) gender를 수직축, year를 수평축으로 하는 산점도를 작성하고 특징을 설명하여라.
그리고 이것을 이용하여 (3)의 결과와 [예제 10.2]의 결과가 다르게 나온 이유를
설명해보아라.
(5) 이 문제에서는 를 여성일 확률이라 정의하였다. 만약에 를 남성일 확률이라 정의하면
회귀계수 추정값들은 어떻게 변하는가?
여학생 남학생
찬성 192( ) 123( )
반대 128( ) 287( )
320 410
- 17 -