Professional Documents
Culture Documents
3 - 1 - 2023.03.17
3 - 1 - 2023.03.17
3 - 1 - 2023.03.17
기초의학통계학
학습목표
• <3주차>
• 연속형 변수를 요약하는 통계량을 제시할 수 있다.
• 두 군에서 연속형 변수에 대해 t-검정으로 평균값의 비교를
수행할 수 있다.
• 짝지어진 자료에 대해 적절한 분석을 수행할 수 있다.
• 비모수적 방법을 사용하여 평균값의 비교를 수행할 수 있다.
• <4주차>
• 세 군 이상에서 분포를 분산분석으로 비교할 수 있다.
• 세 군 이상의 평균값 비교에서 사후검정을 수행할 수 있다.
• 비모수적 방법을 사용하여 세 군 이상의 평균값의 비교를
수행할 수 있다.
통계 분석의 단계
• 자료 수집 입력 정제 통계분석
• 자료 요약
– 자료가 어떤 값들을 가지는지 확인
– 자료에 포함된 정보로부터 가설 생성 및 가설 확인
– 반드시 추론 전에 수행
• 통계 추론
– 자료 요약에서 확인된 가설을 검증 혹은 정보 추정
– 각 통계 기법에서 요구되는 가정 확인
– 적절한 분석법에 따른 결과 제시
T-test
• 집단 간 평균을 비교하는 모수적 검정법(parametric test)
1 X1
n1
2 X2
n2
1 S1 2 S2
• H0: 1=2
양측검정
H1: 1=2 or 1-2 = 0 p < 0.05
• H0: 1=2
H1: 1>2 or 1-2 > 0
단측검정
p/2 < 0.05
• H0: 1=2
H1: 1<2 or 1-2 < 0
T-test의 요건
• 유의할 점:
1. 이상점(outlier)를 가진 자료 t 검정의 대상이 아니다.
(정규분포성 검정, log transformation, 비모수적 방법으로의 검정)
2. 결과변수가 연속변수가 아닌 ordinal data인 경우 비모수적 검정
T-distribution
표준정규분포, N(0,1)
• William Gosset(1876-1937),
자유도 5인 t 분포 t(5)
• Student라는 필명(익명)으로 논문
을 발표 (Student t 분포)
• 0을 중심으로 좌우대칭
• 대부분은 양쪽 끝으로 갈수록 정규
분포보다 올라감
• 분포의 모양은 자유도(degree of
freedom)에 따라 달라짐
자유도가 커질수록 표준정규분포에
점점 근사--자유도가 무한대(∞)가
되면, 표준정규분포와 동일한 모양
X 의 분포
2.5% 2.5%
독립인 두 집단의 평균 비교
가정 : 정규분포, 두 집단의 분산 동일
10
두 집단의 평균비교
예) 남성과 여성의 폐기능 수치가 차이가 있는가?
정규성 가정
- 각 군의 측정값이 정규분포를 따르는지를 검정
-> 적은 표본수에서 정규성을 가정할 수 없을 때 비모수검정 방법 이용
(정규성 검정)
Yes No
Yes No
독립 t 검정 수정된 독립 t 검정
자료의 요약:
평균(표준편차)
한 집단의 평균비교
X 0
T
SD / n
20
예) 간염 환자 30명에 대해 신약 처치 후 혈중 GPT를 측정하였다.
신약에 대한 효과가 없는 경우 약을 처치 받지 않은 간염 환자의 혈중
GPT와 동일하다고 가정한다. 간염 환자의 평균 GPT는 180이다.
(이 때 혈중 GPT량은 정규분포를 따른다고 가정한다.)
• 반복측정자료의 예
– 오른쪽 시력과 왼쪽 시력의 차이 비교
– 실험동물에서 약물 주입 후 약물 농도의 변화를 시간에 따라 측
정
– 동일한 대상자에 대하여 두 진단법 간의 진단 일치도 비교
반복측정 자료의 특징
• 개체 내 자료들은 서로 상관(correlated)
• 개체들 간(between subjects)에는 서로 독립적
(independent)
• 독립적이란?: 한 개체의 반복측정치들이 다른 개체의 측
정치에 관한 정보를 담고 있지 않다는 의미
반복측정자료의 장점
• 개체 자신이 대조값이 됨 개체간 변이 (inter
individual) 최소화 통계량의 정밀도가 높아짐
• 유효표본수를 줄일 수 있음
• 개체 간 변동이 크고 개체 내 변동이 작은 경우라도 개체
내 변동 측정 가능
반복측정자료 분석 시 유의점
• 통계분석에서 개체 내 상관을 고려해 주어야 함.
• 개체 내 상관을 고려하지 않게 되면?
– 관심추정치에 대한 표준오차(standard error)가 일반적으로 과소
추정 (underestimation)
– 제1종 오류 증가
– P-value는 작아지고 신뢰구간이 지나치게 좁아짐
– 따라서 부적절한 결과를 바탕으로 잘못된 해석을 내릴 수 있음
• 결측치가 하나라도 있는 개체는 통계분석에 사용 안됨.
• Time-dependent 변수의 통계적 고려가 복잡
예제
• 연구대상자 20명을 두 약물 1과 2에 각각 10명씩
배정하여 약물 투여 전과 후의 혈당을 측정하였다.
– 연구주제 1: 약물 투여 전, 후의 혈당 변화 유무
xd 0 xb xa
t
sd n sd n
두 군의 GPT 측정값들에 대해 순위
각 군의 순위의 합을 계산
- 투여집단(group=1) 순위 합: 15
- 비투여집단(group=2) 순위 합: 40
• <4주차>
• 세 군 이상에서 분포를 분산분석으로 비교할 수 있다.
• 세 군 이상의 평균값 비교에서 사후검정을 수행할 수 있다.
• 비모수적 방법을 사용하여 세 군 이상의 평균값의 비교를
수행할 수 있다.