Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 26

Chapter 4.

수치요약과
상자그림 , 여러 그룹의 비교

김남형 응용통계학과
가천대학교
nhkim@gachon.ac.kr

1
다섯수치요약
 평균 (Mean) – 어떤 경우에는 상당히 불확실 하다
◦ 예)
점수 분포가 작은 값에 편중되고 큰 값 쪽으로 길게 꼬리를 뻗고 있는
경우
점수분포가 큰 값 쪽에 편중되고 작은 값 쪽으로 길게 꼬리를 뻗고 있는
경우
분포의 대칭성 여부를 알지 못하는 경우 평균은 대표값의
역할을 할 수 없다 .

중위수
평균

작은 값에 편중 , 큰 값에 편중 ,
큰 값 쪽으로 꼬리가 긴 모형 작은 값 쪽으로 꼬리가 긴 모형
2
 주요 R 함수 : summary(), quantile(), boxplot()

 중위수 (Median)
◦ 자료의 크기를 ( 자료의 수 ) N 이라고 할 때
◦ (1) N 이 홀수 중위수 = (N+1)/2 번째 자료점
◦ (2) N 이 짝수 중위수 = N/2 번째와 (N/2+1) 번째 자료
값의 평균
 중위수의 깊이 (depth)
d(M) = (N+1)/2 짝수 , 홀수에 관계없음

 산포 (spreadness) 의 측도
◦ 표준편차 전통적인 통계방법론
◦ 두 사분위수의 차이 탐색적 자료분석에서의 산포의 측도로
사용 ( 강한 저항성 )
 두 사분위수 (H) 의 깊이 정의
d(H) = ([d(M)]+1)/2 , [x] 는 가우스 수

3
 사분위수
◦ Q1( 제 1 사분위수 , 아래 4 분위수 ) HL
◦ Q2( 중위수 , 중간값 , 중앙값 ) M
◦ Q3( 제 3 사분위수 , 위 4 분위수 ) HU

 왜도 (Skewness) – 분포의 기울어진 정도


-1< SKEW <1
+1 에 가까울수록 오른쪽으로 꼬리가 긴 모형
SKEW =
-1 에 가까울수록 왼쪽으로 꼬리가 긴 모형

 EDA 에서의 다섯 수치 요약
◦ ( 최소값 , 제 1 사분위수 , 중위수 , 제 3 사분위수 , 최대값 )
(min, HL, M, HU, max)

4
 수리통계학 점수 자료의 다섯 수치 요약

2 2 0 00 N=65
5 3 1 058
15 10 2 1333458889 d(M)=(65+1)/2=33
22 7 3 0355789
(11) 11 4 11133456678 d(H)=(33+1)/2=17
32 17 5 11122233344456688
15 6 6 147779 M=48, HL=33, HU=58
9 5 7 33478
4 2 8 29 min=0, max=99
2 2 9 09
65∨ (0, 33, 48, 58, 99)

SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)]
= (10-15)/(10+15)=-5/25=-0.2

부호가 음수이므로 이 분포는 왼쪽으로 약간 긴 꼬리를 뻗은 분포

5
 R 실습

6
분위수
 자료의 p 분위수 (0< p < 1)
◦ 중간값 : 표본자료에서 상대적 누적비율이 0.5 에 해당하는 자료값
◦ 4 분위수 : 누적비율이 0.25 와 0.75 에 해당하는 자료값
◦ N 개 자료값 을 크기순으로 정렬
◦ k 번째 자료점에 대한 누적 비율

◦ 이 경우 일 때
◦ , 만약 가 정수가 아닐 경우 보간점 이용
◦ p 분위수 () 는 다음과 같이 정의됨
, 여기서
는 보다 작지만 가장 가까운 정수

7
 문자 값 (letter values)
◦ 수치요약들을 일정형식으로 전시한 것

< 수리통계학 시험점수 자료의 문자 값 전시 >


문자값 중앙 mid 산포 spr
중위수 M 48 48 *
4 분위수 H 32 58 45 25
8 분위수 E 23 73 48 50
16 분위수 D 16.25 80.33 48.29 64.08
끝값 1 0 99 49.5 99

◦ 중앙값 (mid value)


 위 아래의 분위수들의 평균
 중앙값의 추이로부터 분포가 기울어진 방향과 정도 , 즉 왜도 (skewness) 를
알 수 있음
◦ 산포 (spr)
 위 아래 분위수간 차이
 산포의 추이로부터 분포의 첨도 (kurtosis) 를 알 수 있음 8
 R 실습

9
 중앙값의 추이
◦ 분포의 대칭 여부 ( 왜도 , skewness) 를 판단할 수 있음

(1) 분포가 대칭인 경우


M = mid H = mid E = mid D = mid C = mid B = mid A

D E H M H E D

10
(2) 분포가 왼쪽으로 긴 꼬리를 뻗은 경우
M > mid H > mid E > mid D > mid C > mid B > mid A

D E H M H E D
(3) 분포가 오른쪽으로 긴 꼬리를 뻗은 경우
M < mid H <mid E < mid D < mid C < mid B <mid A

D E H M H E D

11
 산포값의 추이
◦ 분포가 대략 대칭인 경우 spr 의 추이는 첨도 (kurtosis) 를 알려 준다 .
 분포가 정규분포인 경우 ∼

문자값 mid spr


M *
H
E
D

모 표준편차 의 1.35 배가 spr(H) 와 같으므로 의 추정치로


= spr(H)/1.35 pseudo-sigma
pseudo-sigma 는 표본 표준편차 에 비하여 저항력이 강하기 때문에 EDA 에 사용

◦ EDA 의 첨도의 정의 12
 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려
문자값 mid spr
M *
H
E
D

KURTOE/H = 1.5 / -1.704 = -0.204,


KURTOD/H = 1.75 / -2.274 = -0.524

KURTO 의 값이 음수 정규분포에 비하여 중앙에 상대적으로 많은 자료점이


집중되고 꼬리 부분에서는 상대적으로 자료점이 희박
KURTO 의 값이 양수 정규분포에 비하여 중앙에 상대적으로 자료점이 희박
꼬리부분에서는 상대적으로 자료가 많음

13
 중심 , 감소율 를 갖는 이중 지수분포 (double exponential distribu-
tion) 고려

문자값을 구해보자 .( 위 꼬리 확률 )

이므로 중위수 M 은 이고 위 사분위 HU 는


HU =
문자값 mid spr
M *
H
E
D

KURTOE/H = loge(4) / loge(2) – 1.704 = 0.296


KURTOD/H = loge(8) / loge(2) – 2.274 = 0.726
KURTO 의 값이 양수는 정규분포에 비하여 꼬리가 두껍다 (thick(fat)-tailed
dist.)

14
전통적인 수치요약과의 비교
1) 평균의 특성 - 편차 제곱합을 최소화 ( )

증명 )

2) 중위수 (M) 의 특성 – 편차 절대값을 최소화


◦ 자료값이 으로 표현하면
이 짝수

이 홀수
증명 ) 교재 참고
증가함수와 감소함수를 구분 짓는 위치를 선택
15
 전통적인 왜도 (skewness) 와 첨도 (kurtosis) 의 정의
◦ 왜도 = 첨도 =

◦ 평균이 인 확률변수 의 중심 차 적률 의 정의는

중심 차 적률 왜도 첨도

정규분포 , 가 짝수 0 0
0, 가 홀수
균일분포 , 가 짝수 0 -1.2
0, 가 홀수
이중지수분포 , 가 짝수 0 3
0, 가 홀수

16
 여러가지 분포
정규분포 균일분포

이중지수분포

17
 R 실습

18
상자그림
 상자 그림 (BOX PLOT)
◦ 다섯 수치 요약을 이용하여 시각화하는 방법 상자 그림 (
상자 - 수염 그림 )

< 단순한 상자 그림의 작성 방법 >


1) 다섯 수치 요약 (min, HL, M, HU, max) 를 구한다 .
2) 위•아래 사분위수 (H) 위치에 네모형 상자를 그린다 . 상자 내에
중위수 (M) 에 해당되는 위치에 ‘ +’ 표시 또는 칸막이 막대 표시를 한다 .
3) 최소값과 최대값의 위치에 점을 찍고 이 점을 상자의 양끝과 선분으로
연결

19
< 대표적인 상자 그림 작성방법 >
1) 다섯 수치 요약 (min, HL, M, HU, max) 를 구한다 .
2) 위•아래 사분위수 (H) 위치에 네모형 상자를 그린다 . 상자 내에 중위수 (M) 에
해당되는 위치에 ‘ +’ 표시 또는 칸막이 막대 표시를 한다 .
3) 다음과 같이 양쪽 안울타리 (inner fence) 값 IF 를 계산한다 .

4) 양쪽 안울타리의 안쪽에 있으면서 경계에 가장 가까운 값을 찾아낸다 . 이 자료점을


인접값 (adjacent value) AV 라고 한다 . 인접값과 상자의 양끝과 연결
AVL HL M HU AVU

+
5) 안울타리와 바깥울타리 사이에 있는 자료점을 특이점 (outlier) 으로 간주하고 그
위치에 ‘ o’ 표시 .
AVL HL M HU AVU
o o o
+

20
특이점
 정규분포
◦ 평균이 이고 분산이 인 정규분포의 경우
 사분위수 H H= 0.675 이므로 spr(H) = 1.35
 안울타리 (inner fence) 값 IF IF =
◦ 정규분포에서 바깥의 확률이 0.007, 즉 0.7% 임을 알수
있다 ( 즉 , N=100 인 경우 특이값으로 판정될 자료점의 수는 평균 1 개
미만 )

 균일분포
◦ 균일분포 에서 동일한 확률밀도
 사분위수 H H= 이므로 spr(H) =
 안울타리 (inner fence) 값 IF IF =
◦ 이들 값들은 양의 확률밀도 갖는 구간 를 벗어나므로 ,
균일분포에서는 특이점이 검출 되지 않는다 .

21
 이중 지수분포
◦ 중심 이고 감소율 의 이중 지수분포 고려
 사분위수 H H= 이므로 spr(H) =
 안울타리 (inner fence) 값 IF
IF =
◦ 이중 지수분포에서는

즉 , 6.25% 이다 . N=100 인 수치자료에서 특이값으로 간주되는 자료점의


수는 평균 6.25 개씩이나 된다 .

 종합 ( 결론 )
◦ 균일분포에서는 특이값이 절대로 검출될 수 없으며 ,
◦ 정규분포에서는 간혹 검출될 수 있으나 ,
◦ 이중지수분포에서는 꽤 빈번히 특이점 판정이 내려진다 .

22
여러 묶음 수치자료의 비교
 여러 묶음의 수치자료를 비교할 때 수치 요약만으로는 효율적인 분석을 할 수 없음
 다음은 7 개 광역시 구별 인구 자료임
지역코드 지역명 구 인구 지역코드 지역명 구 인구 지역코드 지역명 구 인구
1 서울 종로구 168879 2 부산 중구 57669 4 인천 동구 72792
1 서울 중구 130370 2 부산 서구 147647 4 인천 남구 408835
1 서울 용산구 226540 2 부산 동구 121398 4 인천 연수구 259790
1 서울 성동구 322990 2 부산 영도구 177636 4 인천 남동구 395289
1 서울 광진구 380164 2 부산 부산진구 415457 4 인천 부평구 528403
1 서울 동대문구 366282 2 부산 동래구 289183 4 인천 계양구 326522
1 서울 중랑구 440018 2 부산 남구 289452 4 인천 서구 335339
1 서울 성북구 459011 2 부산 북구 298539 4 인천 강화군 60289
1 서울 강북구 340327 2 부산 해운대구 395405 4 인천 옹진군 13304
1 서울 도봉구 352098 2 부산 사하구 374476 5 광주 동구 116332
1 서울 노원구 605825 2 부산 금정구 284065 5 광주 서구 280676
1 서울 은평구 442089 2 부산 강서구 53590 5 광주 남구 229318
1 서울 서대문구 348769 2 부산 연제구 215206 5 광주 북구 477591
1 서울 마포구 365398 2 부산 수영구 175154 5 광주 광산구 247031
1 서울 양천구 458998 2 부산 사상구 292685 6 대전 동구 247143
1 서울 강서구 503775 2 부산 기장군 67875 6 대전 중구 253673
1 서울 구로구 390275 3 대구 중구 86014 6 대전 서구 470327
1 서울 금천구 265365 3 대구 동구 334487 6 대전 유성구 161591
1 서울 영등포구 387404 3 대구 서구 281638 6 대전 대덕구 233227
1 서울 동작구 400351 3 대구 남구 191775 7 울산 중구 227244
1 서울 관악구 503957 3 대구 북구 399519 7 울산 남구 323761
1 서울 서초구 367096 3 대구 수성구 448493 7 울산 동구 182658
1 서울 강남구 521436 3 대구 달서구 584392 7 울산 북구 118088
1 서울 송파구 632983 3 대구 달성군 147672 7 울산 울주군 160359
1 서울 강동구 473572 4 인천 중구 65775
23
 R 활용

24
요약
 EDA 의 다섯 수치요약 최소값 , 제 1 사분위수 , 중위수 , 제 3 사분위수 ,
최대값
 문자값 중위수 M, 사분위수 H, 8 분위수 E, 16 분위수 D, 32 분위수 C
등등
 문자값에서의 mid(= 두 분위수의 중앙값 ) - 왜도 (skewness)
증가하는지 , 감소하는지에 따라 분포의 기울기 정도 , 방향을 알 수 있음
 문자값에서 spr( 두 분위수의 차이 ) - 첨도 (kurtosis)
증가하는 속도에 따라 꼬리가 얇은 분포인지 , 두터운 분포인지 알 수 있음
 상자 그림은 기본적인 다섯 수치요약을 그래프화 한 것
 상자 그림에서 특이점으로 판정하는 경계선은 HL-1.5Ⅹspr(H), HU+1.5Ⅹspr(H)
 자료가 정규분포이면 특이점으로 판정되는 자료점의 수는 0.7% 에 불과
 상자 그림은 여러 묶음의 수치 자료를 비교하기에 효율적인 그래프적 수단
동일한 척도의 수직선에 상자 그림을 그리는 것이 바람직

25
과제
 4 장 폴더의 Fastfood.xls 는 미국 fast-food 레스토랑 5
개의 Drive-through 서비스 소요시간을 측정한 것이다 .
레스토랑 상자 - 수염 그림을 한 화면에 그리고 결과를
해석하자 .
◦ 코드 파일 ( 본인이름 _4 장 .R) 과 분석 보고서 ( 본인이름 _4 장 .doc
또는 hwp) 를 각각의 파일로 사이버캠퍼스에 제출

26

You might also like