3 - 1 - 2023.03.17

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 39

연속형 자료분석

기초의학통계학
학습목표
• <3주차>
• 연속형 변수를 요약하는 통계량을 제시할 수 있다.
• 두 군에서 연속형 변수에 대해 t-검정으로 평균값의 비교를
수행할 수 있다.
• 짝지어진 자료에 대해 적절한 분석을 수행할 수 있다.
• 비모수적 방법을 사용하여 평균값의 비교를 수행할 수 있다.

• <4주차>
• 세 군 이상에서 분포를 분산분석으로 비교할 수 있다.
• 세 군 이상의 평균값 비교에서 사후검정을 수행할 수 있다.
• 비모수적 방법을 사용하여 세 군 이상의 평균값의 비교를
수행할 수 있다.
통계 분석의 단계
• 자료 수집 입력  정제  통계분석

• 자료 요약
– 자료가 어떤 값들을 가지는지 확인
– 자료에 포함된 정보로부터 가설 생성 및 가설 확인
– 반드시 추론 전에 수행

• 통계 추론
– 자료 요약에서 확인된 가설을 검증 혹은 정보 추정
– 각 통계 기법에서 요구되는 가정 확인
– 적절한 분석법에 따른 결과 제시
T-test
• 집단 간 평균을 비교하는 모수적 검정법(parametric test)

• 평균을 비교 : 측정값들이 정규분포를 하여, 평균이 그 집단의 대표


값으로서의 역할을 하고 있다는 것을 의미
T-test의 모집단과 표본

1 X1
n1
2 X2
n2

1 S1 2 S2

population1 sample1 population2 sample2


1 , 2 에 대한 통계적 가설 검정

• H0: 1=2
양측검정
H1: 1=2 or 1-2 = 0 p < 0.05

• H0: 1=2
H1: 1>2 or 1-2 > 0
단측검정
p/2 < 0.05
• H0: 1=2
H1: 1<2 or 1-2 < 0
T-test의 요건

• 두 집단의 평균값 비교: 결과 변수가 연속변수 / 설명 변수는 두 개의


집단이어야 한다.
• 한 집단의 평균값 비교: 결과 변수가 연속변수 / 설명 변수는 한 개의
집단이어야 한다.
비교 대상: 기존의 모수의(혹은 어떤 집단의) 평균값

• 유의할 점:
1. 이상점(outlier)를 가진 자료  t 검정의 대상이 아니다.
(정규분포성 검정, log transformation, 비모수적 방법으로의 검정)
2. 결과변수가 연속변수가 아닌 ordinal data인 경우  비모수적 검정
T-distribution
표준정규분포, N(0,1)
• William Gosset(1876-1937),
자유도 5인 t 분포 t(5)
• Student라는 필명(익명)으로 논문
을 발표 (Student t 분포)
• 0을 중심으로 좌우대칭
• 대부분은 양쪽 끝으로 갈수록 정규
분포보다 올라감
• 분포의 모양은 자유도(degree of
freedom)에 따라 달라짐
자유도가 커질수록 표준정규분포에
점점 근사--자유도가 무한대(∞)가
되면, 표준정규분포와 동일한 모양
X   의 분포

2.5% 2.5%

-60.93 -63.92 -57.94


Two-sample Independent t-test

독립인 두 집단의 평균 비교
가정 : 정규분포, 두 집단의 분산 동일

10
두 집단의 평균비교
예) 남성과 여성의 폐기능 수치가 차이가 있는가?

 정규성 가정
- 각 군의 측정값이 정규분포를 따르는지를 검정
-> 적은 표본수에서 정규성을 가정할 수 없을 때 비모수검정 방법 이용

 등분산 가정: Levene’s test


- 귀무가설: 두 집단의 분산은 같다.
- 대립가설: 두 집단의 분산은 다르다.
Levene’s test의 p>0.05, 귀무가설 기각할 수 없으면 등분산 가정 만족
등분산 가정을 할 수 없을 때는 자유도를 수정한 t-검정 사용
Q: 남성과 여성의 폐기능 수치가 차이가 있는가?
• 정

정규성 검정의 귀무가설: 변수의 분포


는 정규분포를 한다.
먼저 등분산 검정 확인(Levene’s test) (귀무가설: 두 군의 분산이 같다 =
등분산이다. )
등분산 검정 결과 유의확률 <0.001로 등분산 가정을 기각
“등분산을 가정하지 않음”의 p값(유의확률) 을 제시: p=0.126
 결론: 남녀 성별에 따른 폐기능검사 수치의 차이는 없다.
두 군에서 연속형 자료의 분포 비교
두 군에서 변수가 정
규분포를 하는가?

(정규성 검정)
Yes No

두 군의 분산이 동일 자료의 요약:


비모수적 방법 사용
한가? (Levene’s test) 중앙값(범위)

Yes No

독립 t 검정 수정된 독립 t 검정

자료의 요약:
평균(표준편차)
한 집단의 평균비교

• 한 집단의 평균과 다른 기준값을 비교

• 기준값 - 기존의 모수의(혹은 어떤 집단의) 평균값

• 귀무가설: 자유도 n-1인 t 분포에서 모집단의 평균이 μ0이다

X  0
T
SD / n

20
예) 간염 환자 30명에 대해 신약 처치 후 혈중 GPT를 측정하였다.
신약에 대한 효과가 없는 경우 약을 처치 받지 않은 간염 환자의 혈중
GPT와 동일하다고 가정한다. 간염 환자의 평균 GPT는 180이다.
(이 때 혈중 GPT량은 정규분포를 따른다고 가정한다.)

 귀무가설: 혈중 GPT는 치료 전의 환자의 GPT와 같다 (평균=180)


 검정통계량
표본평균 - 귀무가설하에서의 값(=180)
검정통계량= ~t
표준오차
반복측정/짝지은 자료란?
• 반복측정자료 (repeated measured data) / 집락자료
(clustered data)
– 계층적 자료 (hierarchical data)
– 관측치가 집락/개체 내에서 반복측정 (Non-independence or
autocorrelation)

• 경시적자료 (longitudinal data)


– 같은 개체(subject)에서 시간에 따라 2번 이상 반복 측정한 자료

• 반복측정자료의 예
– 오른쪽 시력과 왼쪽 시력의 차이 비교
– 실험동물에서 약물 주입 후 약물 농도의 변화를 시간에 따라 측

– 동일한 대상자에 대하여 두 진단법 간의 진단 일치도 비교
반복측정 자료의 특징
• 개체 내 자료들은 서로 상관(correlated)
• 개체들 간(between subjects)에는 서로 독립적
(independent)
• 독립적이란?: 한 개체의 반복측정치들이 다른 개체의 측
정치에 관한 정보를 담고 있지 않다는 의미
반복측정자료의 장점
• 개체 자신이 대조값이 됨  개체간 변이 (inter
individual) 최소화 통계량의 정밀도가 높아짐
• 유효표본수를 줄일 수 있음
• 개체 간 변동이 크고 개체 내 변동이 작은 경우라도 개체
내 변동 측정 가능
반복측정자료 분석 시 유의점
• 통계분석에서 개체 내 상관을 고려해 주어야 함.
• 개체 내 상관을 고려하지 않게 되면?
– 관심추정치에 대한 표준오차(standard error)가 일반적으로 과소
추정 (underestimation)
– 제1종 오류 증가
– P-value는 작아지고 신뢰구간이 지나치게 좁아짐
– 따라서 부적절한 결과를 바탕으로 잘못된 해석을 내릴 수 있음
• 결측치가 하나라도 있는 개체는 통계분석에 사용 안됨.
• Time-dependent 변수의 통계적 고려가 복잡
예제
• 연구대상자 20명을 두 약물 1과 2에 각각 10명씩
배정하여 약물 투여 전과 후의 혈당을 측정하였다.

– 연구주제 1: 약물 투여 전, 후의 혈당 변화 유무

• T-test를 사용하여 약물투여 전의 20명의 평균과 약물투여 후


20명의 평균값을 비교한다면
• 투여 전 20개의 값과 투여 후 20개의 값은 서로 독립적이라
는 가정을 하는 것임.
• 따라서 동일한 개체로부터 반복적인 측정값을 얻었다는 점
(개체 내 상관)이 고려되지 않고
• 개체 내 변화에 대한 정보를 고려할 수 없음.
Paired t-test
• 짝지어진 값들의 차이를 검정
– 귀무가설: 짝지은 값들의 차이의 평균은 0이다.

xd  0 xb  xa
t 
sd n sd n

– 자유도가 n-1인 t 분포를 따름


• 분석을 위한 자료의 구성
– Subject별로 하나의
observation을 구성하도록
• 분석  평균비교  대응표본 T검정
연속형 변수에 대한 통계 검정
결과변수 설명변수 기타 조건 모수적 방법 비모수적 방법
(Y) (X)
연속 비연속 독립적 자료 Student's t-test Wilcoxon rank sum
(2개 범주) test
Mann-Whitney test
Median test
짝지은 자료 paired t-test Wilcoxon signed
rank test
Sign test
짝지은 자료 & Mixed model
교란요인보정
연속 비연속 독립적 자료 ANOVA Kruskal-Wallis test
(3개 이상
의 범주) 독립적 자료 & GLM
교란요인 보정 Regression with
dummy variable
of groups
짝지은 자료 Repeated Mixed model
(반복측정자료) measures ANOVA
Mixed model
짝지은 자료 & Mixed model
교란요인보정
비모수적 방법이란?
• 모수적 통계방법(T-test, ANOVA, Pearson
correlation coefficients 등)을 사용할 수
없는 상황
– 자료의 성격이 연속형 변수가 아니라 순위형
변수일 경우:
• 예> 환자의 만족도:만족(3) 보통(2) 불만(1)
– 자료가 연속형 변수이기는 하나 모수적 통계
방법을 사용하는 가정에 위반될 때: 자료의 정
규성
Mann-Whitney U test (Wilcoxon rank sum test)

 두 군의 GPT 측정값들에 대해 순위

 각 군의 순위의 합을 계산
- 투여집단(group=1) 순위 합: 15
- 비투여집단(group=2) 순위 합: 40

 두 군의 GPT의 분포가 동일하다면,


두 군의 순위 합 차이는 없음.
즉, 두 군의 GPT의 분포가 동일하다고
가정할 때 기대될 수 있는 순위합과
실제 자료에서 계산된 순위합을 비교
Wilcoxon singed rank test
• 짝지어진 연속변수자료에 대한 비모수 검정
• 연속변수의 분포가 정규분포를 따르지 않을 때
• 변수가 순위척도일 때
• 비모수검정은 정규분포를 가정하지 않고 순위를 매겨 순
위의 합으로 차이를 검정함
• 귀무가설: 짝지은 값들의 양의 순위와 음의 순위의 합은
차이가 없다.
(Post_glu) 방향에 따라 부호 절대값과 상관없이
ID Pre_glu Post_glu 절대값의 순위
– (Pre_glu) 부여 부호 부여

D001 150 120 -30 9 -9 -1

D002 145 129 -16 5 -5 -1

D003 143 130 -13 3 -3 -1

D004 165 150 -15 4 -4 -1

D005 166 142 -24 7 -7 -1

D006 135 140 5 2 +2 +1

D007 140 142 2 1 +1 +1

D008 140 120 -20 6 -6 -1

D009 143 118 -25 8 -8 -1

D010 145 120 -25 8 -8 -1


학습목표
• <3주차>
• 연속형 변수를 요약하는 통계량을 제시할 수 있다.
• 두 군에서 연속형 변수에 대해 t-검정으로 평균값의 비교를
수행할 수 있다.
• 짝지어진 자료에 대해 적절한 분석을 수행할 수 있다.
• 비모수적 방법을 사용하여 평균값의 비교를 수행할 수 있다.

• <4주차>
• 세 군 이상에서 분포를 분산분석으로 비교할 수 있다.
• 세 군 이상의 평균값 비교에서 사후검정을 수행할 수 있다.
• 비모수적 방법을 사용하여 세 군 이상의 평균값의 비교를
수행할 수 있다.

You might also like