Download as pdf or txt
Download as pdf or txt
You are on page 1of 24

연속형 자료분석2

기초의학통계학
학습목표
• <3주차>
• 연속형 변수를 요약하는 통계량을 제시할 수 있다.
• 두 군에서 연속형 변수에 대해 t-검정으로 평균값의 비교를 수행할 수 있다.
• 짝지어진 자료에 대해 적절한 분석을 수행할 수 있다.
• 비모수적 방법을 사용하여 평균값의 비교를 수행할 수 있다.

• <4주차>
• 세 군 이상에서 분포를 분산분석으로 비교할 수 있다.
• 세 군 이상의 평균값 비교에서 사후검정을 수행할 수 있다.
• 비모수적 방법을 사용하여 세 군 이상의 평균값의 비교를 수행할 수 있다.
두 군에서 연속형 자료의 분포 비교
두 군에서 변수가 정
규분포를 하는가?

(정규성 검정)
Yes No

두 군의 분산이 동일 자료의 요약:


비모수적 방법 사용
한가? (Levene’s test) 중앙값(범위)

Yes No

독립 t 검정 수정된 독립 t 검정

자료의 요약:
평균(표준편차)
연속형 변수에 대한 통계 검정
결과변수 설명변수 기타 조건 모수적 방법 비모수적 방법
(Y) (X)
연속 비연속 독립적 자료 Student's t-test Wilcoxon rank sum
(2개 범주) test
Mann-Whitney test
Median test
짝지은 자료 paired t-test Wilcoxon signed
rank test
Sign test
짝지은 자료 & Mixed model
교란요인보정
연속 비연속 독립적 자료 ANOVA Kruskal-Wallis test
(3개 이상
의 범주) 독립적 자료 & GLM
교란요인 보정 Regression with
dummy variable
of groups
짝지은 자료 Repeated Mixed model
(반복측정자료) measures ANOVA
Mixed model
짝지은 자료 & Mixed model
교란요인보정
ANOVA
표본 1 : n1 , x1 , s1
표본 2 : n2 , x2 , s2
표본 3 : n3 , x3 , s3
표본 4 : n4 , x4 , s4

2개 평균 비교 t  test로 하면 모두 6번의 t - test 필요

개개의 t-test가 가지는 α-error (=5%):


그러나 6개 t가 동시에 가지는 α-error= 1-(0.95)6 =26.5%

 다중비교(multiple comparison)의 문제 발생
ANOVA
• 귀무가설
• H0: 1 = 2 = … = k
• H1:k개의 집단의 평균값( )은 모두 같지는 않다.
(적어도 두 군의 평균은 다르다)

• 가정
1. 정규분포 가정: 각 모집단의 종속변수는 정규분포를 따름
2. 등분산 가정: 각 모집단의 종속변수는 공통의 분산을 가짐
3. 독립된 관찰값의 가정: 각 관찰값은 독립
• 예제> 2012, 2013, 2014 학년도의 의학통계론 기말고사 점수를 비교하여 3개 년도간
점수가 차이가 있는지 검정하고자 한다.

학생수 평균점수 (표준편차)


2012년 102 67.7 (19.6)
2013년 110 75.2 (20.4)
2014년 104 70.2 (20.3)
전체 316 71.2 (20.1)

• 귀무가설: 학년도 간의 기초의학통계학 기말고사 점수의 평균은 차이가 없다.


• 귀무가설이 맞다면? 년도 간 평균점수는 전체의 평균인 71.2와 비슷할 것이다. 즉, 년도
간의 차이의 정도 (Mean Square error (variance) of Between groups: MSB)는 같은 년도
내에서의 차이의 정도 (Mean Square error (variance) of Within group: MSW)와 같을
것이다.

• 귀무가설을 기각하려면?  각 년도의 평균은 71.2와 다를 것이다. 즉, 같은 년도


내에서의 차이에 비해 년도 간의 차이가 더 클 것이다. (Mean Square error (variance) of
Between groups: MSB)
y1j
y1

y2

y3

y
분산분석표

Source SS df MS F(검정통계량)
Between SSB k-1 MSB=SSB/(k-1) F=MSB/MSW
Within SSW N-k MSW=SSW/(N-k)
Totals TSS N-1

- MSB(mean square between): 각 군간 평균들의 차이 정도 측정


- MSW(mean square within): 각 군 내의 측정치들의 분산의 평균

 (y tj  y )
2
- Total Sum of Square (TSS): 각 관찰치와 전체평균의 차이 TSS 
t ,j
- Sum of Square Between (SSB): 각 집단 평균과 전체 평균의 차이 SSB   nt ( yt  y )
2

t
- Sum of Square Within (SSW): 각 집단 내에서 관찰치와 집단평균의 차이
SSW   ( y tj  y t )
2

t, j
ANOVA(분산분석) 단계

1. F-test 수행

x1  x 2  x 3  x 4
2. F-test에서 통계적 유의성이 관찰되면 어느 그룹간에 차이가 있는지를 확인
사후검정으로 두 군씩 짝지어 평균 비교

• 사후검정방법
• Bonferroni : α’ = α / (# of comparisons), 보수적
• Scheffe: 집단의 n이 동수가 아닌 경우, 보수적
• Turkey: 모든 집단 n이 같을 때에 Scheffe 방법보다 검정력이 좋음
평균치를 큰 순서로 정렬한 뒤 가장 큰 평균과 가장 작은 평균을 먼저 비교 -> 이 차이가 유
의하면 그 다음으로 큰 평균과 가장 작은 평균을 비교
- Dunnett: 여러 집단을 하나의 대조군과 비교할 때 사용
Q. 고혈압 과거력에 따라 수축기 혈압이 차이가 있는가?

• 고혈압 현재 유병여부 (0: 현재 고혈압 있음, 1: 진단받은 적 있으나 지금은


괜찮음, 8: 고혈압 환자 아님)
ANOVA
• 귀무가설
• H0: 1 = 2 = … = k
• H1:k개의 집단의 평균값( )은 모두 같지는 않다.
(적어도 두 군의 평균은 다르다)

• 가정
1. 정규분포 가정: 각 모집단의 종속변수는 정규분포를 따름
2. 등분산 가정: 각 모집단의 종속변수는 공통의 분산을 가짐
3. 독립된 관찰값의 가정: 각 관찰값은 독립
ANOVA의 가정에 위배될 때
1. 정규분포 가정: 각 모집단의 종속변수는 정규분포를 따름
• 정규분포를 정확히 따르지 않더라도 충분한 sample size (각 집단에 30 이상)를 가지는 경우
크게 문제되지 않음
• 종속변수를 transformation 을 취해 정규분포에 가깝게 만들 수 있음 (natural log, 제곱 등)
• Transformation 해도 정규분포를 따르지 않으면 비모수적 통계기법 사용

2. 등분산 가정: 각 모집단의 종속변수는 공통의 분산을 가짐


• 각 집단의 sample size가 같은 경우에는 등분산 가정에 약간 어긋나더라도 크게 문제되지 않음
• 종속변수를 transformation 을 취해 정규분포에 가깝게 만들 수 있음 (natural log, 제곱 등)

3. 독립된 관찰값의 가정: 각 관찰값은 독립


• 이 가정이 위배된다면 반복측정/짝지은 자료에 적절한 통계방법 사용
연속형 변수에 대한 비모수검정
결과변수 설명변수 기타 조건 모수적 방법 비모수적 방법
(Y) (X)
연속 비연속 독립적 자료 Student's t-test Wilcoxon rank sum
(2개 범주) test
Mann-Whitney test
Median test
짝지은 자료 paired t-test Wilcoxon signed
rank test
Sign test
짝지은 자료 & Mixed model
교란요인보정
연속 비연속 독립적 자료 ANOVA Kruskal-Wallis test
(3개 이상
의 범주) 독립적 자료 & GLM
교란요인 보정 Regression with
dummy variable
of groups
짝지은 자료 Repeated Mixed model
(반복측정자료) measures ANOVA
Mixed model
짝지은 자료 & Mixed model
교란요인보정
Mann-Whitney U test (Wilcoxon rank sum test)

 두 군의 GPT 측정값들에 대해 순위

 각 군의 순위의 합을 계산
- 투여집단(group=1) 순위 합: 15
- 비투여집단(group=2) 순위 합: 40

 두 군의 GPT의 분포가 동일하다면,


두 군의 순위 합 차이는 없음.
즉, 두 군의 GPT의 분포가 동일하다고
가정할 때 기대될 수 있는 순위합과
실제 자료에서 계산된 순위합을 비교
비모수 검정 Kruskal-Wallis test
일종의 순위합 검정법.

순위합이 비슷한 경우 – 집단 간 차이가 없다고 평가


집단간 차이가 많은 경우 – 집단 간 차이를 인정
Kruskal-Wallis test 의 사후검정
통계패키지에서 비모수검정은 따로 사후검정을 제공해 주지 않음
 1) 두 군에 대한 여러 번의 Mann-Whitney U test 를 시행
 2) Bonferroni’s multiple comparison 에 의해 1종 오류를 보정하여 p 값을
계산함 (p=0.05/검정의 횟수)

You might also like