EDA ch4

Chapter 4.
수치요약과
상자그림 , 여러 그룹의 비교
김남형 응용통계학과
가천대학교
nhkim@gachon.ac.kr
1
다섯수치요약
 평균 (Mean) – 어떤 경우에는 상당히 불확실 하다
◦ 예)
점수 분포가 작은 값에 편중되고 큰 값 쪽으로 길게 꼬리를 뻗고 있는
경우
점수분포가 큰 값 쪽에 편중되고 작은 값 쪽으로 길게 꼬리를 뻗고 있는
경우
분포의 대칭성 여부를 알지 못하는 경우 평균은 대표값의
역할을 할 수 없다 .
중위수
평균
작은 값에 편중 , 큰 값에 편중 ,
큰 값 쪽으로 꼬리가 긴 모형 작은 값 쪽으로 꼬리가 긴 모형
2
 주요 R 함수 : summary(), quantile(), boxplot()
 중위수 (Median)
◦ 자료의 크기를 ( 자료의 수 ) N 이라고 할 때
◦ (1) N 이 홀수 중위수 = (N+1)/2 번째 자료점
◦ (2) N 이 짝수 중위수 = N/2 번째와 (N/2+1) 번째 자료
값의 평균
 중위수의 깊이 (depth)
d(M) = (N+1)/2 짝수 , 홀수에 관계없음
 산포 (spreadness) 의 측도
◦ 표준편차 전통적인 통계방법론
◦ 두 사분위수의 차이 탐색적 자료분석에서의 산포의 측도로
사용 ( 강한 저항성 )
 두 사분위수 (H) 의 깊이 정의
d(H) = ([d(M)]+1)/2 , [x] 는 가우스 수
3
 사분위수
◦ Q1( 제 1 사분위수 , 아래 4 분위수 ) HL
◦ Q2( 중위수 , 중간값 , 중앙값 ) M
◦ Q3( 제 3 사분위수 , 위 4 분위수 ) HU
 왜도 (Skewness) – 분포의 기울어진 정도

-1< SKEW <1
+1 에 가까울수록 오른쪽으로 꼬리가 긴 모형
SKEW =
-1 에 가까울수록 왼쪽으로 꼬리가 긴 모형
 EDA 에서의 다섯 수치 요약
◦ ( 최소값 , 제 1 사분위수 , 중위수 , 제 3 사분위수 , 최대값 )
(min, HL, M, HU, max)
4
 수리통계학 점수 자료의 다섯 수치 요약
2 2 0 00 N=65
5 3 1 058
15 10 2 1333458889 d(M)=(65+1)/2=33
22 7 3 0355789
(11) 11 4 11133456678 d(H)=(33+1)/2=17
32 17 5 11122233344456688
15 6 6 147779 M=48, HL=33, HU=58
9 5 7 33478
4 2 8 29 min=0, max=99
2 2 9 09
65∨ (0, 33, 48, 58, 99)
SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)]
= (10-15)/(10+15)=-5/25=-0.2
부호가 음수이므로 이 분포는 왼쪽으로 약간 긴 꼬리를 뻗은 분포
5
 R 실습
6
분위수
 자료의 p 분위수 (0< p < 1)
◦ 중간값 : 표본자료에서 상대적 누적비율이 0.5 에 해당하는 자료값
◦ 4 분위수 : 누적비율이 0.25 와 0.75 에 해당하는 자료값
◦ N 개 자료값 을 크기순으로 정렬
◦ k 번째 자료점에 대한 누적 비율
◦ 이 경우 일 때
◦ , 만약 가 정수가 아닐 경우 보간점 이용
◦ p 분위수 () 는 다음과 같이 정의됨
, 여기서
는 보다 작지만 가장 가까운 정수
7
 문자 값 (letter values)
◦ 수치요약들을 일정형식으로 전시한 것
< 수리통계학 시험점수 자료의 문자 값 전시 >

문자값 중앙 mid 산포 spr
중위수 M 48 48 *
4 분위수 H 32 58 45 25
8 분위수 E 23 73 48 50
16 분위수 D 16.25 80.33 48.29 64.08
끝값 1 0 99 49.5 99
◦ 중앙값 (mid value)

 위 아래의 분위수들의 평균
 중앙값의 추이로부터 분포가 기울어진 방향과 정도 , 즉 왜도 (skewness) 를
알 수 있음
◦ 산포 (spr)
 위 아래 분위수간 차이
 산포의 추이로부터 분포의 첨도 (kurtosis) 를 알 수 있음 8
 R 실습
9
 중앙값의 추이
◦ 분포의 대칭 여부 ( 왜도 , skewness) 를 판단할 수 있음
(1) 분포가 대칭인 경우

M = mid H = mid E = mid D = mid C = mid B = mid A
D E H M H E D
10
(2) 분포가 왼쪽으로 긴 꼬리를 뻗은 경우
M > mid H > mid E > mid D > mid C > mid B > mid A
D E H M H E D
(3) 분포가 오른쪽으로 긴 꼬리를 뻗은 경우
M < mid H <mid E < mid D < mid C < mid B <mid A
D E H M H E D
11
 산포값의 추이
◦ 분포가 대략 대칭인 경우 spr 의 추이는 첨도 (kurtosis) 를 알려 준다 .
 분포가 정규분포인 경우 ∼
문자값 mid spr

M *
H
E
D
모 표준편차 의 1.35 배가 spr(H) 와 같으므로 의 추정치로

= spr(H)/1.35 pseudo-sigma
pseudo-sigma 는 표본 표준편차 에 비하여 저항력이 강하기 때문에 EDA 에 사용
◦ EDA 의 첨도의 정의 12
 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려
문자값 mid spr
M *
H
E
D
KURTOE/H = 1.5 / -1.704 = -0.204,

KURTOD/H = 1.75 / -2.274 = -0.524
KURTO 의 값이 음수 정규분포에 비하여 중앙에 상대적으로 많은 자료점이

집중되고 꼬리 부분에서는 상대적으로 자료점이 희박
KURTO 의 값이 양수 정규분포에 비하여 중앙에 상대적으로 자료점이 희박
꼬리부분에서는 상대적으로 자료가 많음
13
 중심 , 감소율 를 갖는 이중 지수분포 (double exponential distribu-
tion) 고려
문자값을 구해보자 .( 위 꼬리 확률 )
이므로 중위수 M 은 이고 위 사분위 HU 는

HU =
문자값 mid spr
M *
H
E
D
KURTOE/H = loge(4) / loge(2) – 1.704 = 0.296

KURTOD/H = loge(8) / loge(2) – 2.274 = 0.726
KURTO 의 값이 양수는 정규분포에 비하여 꼬리가 두껍다 (thick(fat)-tailed
dist.)
14
전통적인 수치요약과의 비교
1) 평균의 특성 - 편차 제곱합을 최소화 ( )
증명 )
2) 중위수 (M) 의 특성 – 편차 절대값을 최소화

◦ 자료값이 으로 표현하면
이 짝수
이 홀수
증명 ) 교재 참고
증가함수와 감소함수를 구분 짓는 위치를 선택
15
 전통적인 왜도 (skewness) 와 첨도 (kurtosis) 의 정의
◦ 왜도 = 첨도 =
◦ 평균이 인 확률변수 의 중심 차 적률 의 정의는
중심 차 적률 왜도 첨도
정규분포 , 가 짝수 0 0
0, 가 홀수
균일분포 , 가 짝수 0 -1.2
0, 가 홀수
이중지수분포 , 가 짝수 0 3
0, 가 홀수
16
 여러가지 분포
정규분포 균일분포
이중지수분포
17
 R 실습
18
상자그림
 상자 그림 (BOX PLOT)
◦ 다섯 수치 요약을 이용하여 시각화하는 방법 상자 그림 (
상자 - 수염 그림 )
< 단순한 상자 그림의 작성 방법 >

1) 다섯 수치 요약 (min, HL, M, HU, max) 를 구한다 .
2) 위•아래 사분위수 (H) 위치에 네모형 상자를 그린다 . 상자 내에
중위수 (M) 에 해당되는 위치에 ‘ +’ 표시 또는 칸막이 막대 표시를 한다 .
3) 최소값과 최대값의 위치에 점을 찍고 이 점을 상자의 양끝과 선분으로
연결
19
< 대표적인 상자 그림 작성방법 >
1) 다섯 수치 요약 (min, HL, M, HU, max) 를 구한다 .
2) 위•아래 사분위수 (H) 위치에 네모형 상자를 그린다 . 상자 내에 중위수 (M) 에
해당되는 위치에 ‘ +’ 표시 또는 칸막이 막대 표시를 한다 .
3) 다음과 같이 양쪽 안울타리 (inner fence) 값 IF 를 계산한다 .
4) 양쪽 안울타리의 안쪽에 있으면서 경계에 가장 가까운 값을 찾아낸다 . 이 자료점을

인접값 (adjacent value) AV 라고 한다 . 인접값과 상자의 양끝과 연결
AVL HL M HU AVU
+
5) 안울타리와 바깥울타리 사이에 있는 자료점을 특이점 (outlier) 으로 간주하고 그
위치에 ‘ o’ 표시 .
AVL HL M HU AVU
o o o
+
20
특이점
 정규분포
◦ 평균이 이고 분산이 인 정규분포의 경우
 사분위수 H H= 0.675 이므로 spr(H) = 1.35
 안울타리 (inner fence) 값 IF IF =
◦ 정규분포에서 바깥의 확률이 0.007, 즉 0.7% 임을 알수
있다 ( 즉 , N=100 인 경우 특이값으로 판정될 자료점의 수는 평균 1 개
미만 )
 균일분포
◦ 균일분포 에서 동일한 확률밀도
 사분위수 H H= 이므로 spr(H) =
 안울타리 (inner fence) 값 IF IF =
◦ 이들 값들은 양의 확률밀도 갖는 구간 를 벗어나므로 ,
균일분포에서는 특이점이 검출 되지 않는다 .
21
 이중 지수분포
◦ 중심 이고 감소율 의 이중 지수분포 고려
 사분위수 H H= 이므로 spr(H) =
 안울타리 (inner fence) 값 IF
IF =
◦ 이중 지수분포에서는
즉 , 6.25% 이다 . N=100 인 수치자료에서 특이값으로 간주되는 자료점의

수는 평균 6.25 개씩이나 된다 .
 종합 ( 결론 )
◦ 균일분포에서는 특이값이 절대로 검출될 수 없으며 ,
◦ 정규분포에서는 간혹 검출될 수 있으나 ,
◦ 이중지수분포에서는 꽤 빈번히 특이점 판정이 내려진다 .
22
여러 묶음 수치자료의 비교
 여러 묶음의 수치자료를 비교할 때 수치 요약만으로는 효율적인 분석을 할 수 없음
 다음은 7 개 광역시 구별 인구 자료임
지역코드 지역명 구 인구 지역코드 지역명 구 인구 지역코드 지역명 구 인구
1 서울 종로구 168879 2 부산 중구 57669 4 인천 동구 72792
1 서울 중구 130370 2 부산 서구 147647 4 인천 남구 408835
1 서울 용산구 226540 2 부산 동구 121398 4 인천 연수구 259790
1 서울 성동구 322990 2 부산 영도구 177636 4 인천 남동구 395289
1 서울 광진구 380164 2 부산 부산진구 415457 4 인천 부평구 528403
1 서울 동대문구 366282 2 부산 동래구 289183 4 인천 계양구 326522
1 서울 중랑구 440018 2 부산 남구 289452 4 인천 서구 335339
1 서울 성북구 459011 2 부산 북구 298539 4 인천 강화군 60289
1 서울 강북구 340327 2 부산 해운대구 395405 4 인천 옹진군 13304
1 서울 도봉구 352098 2 부산 사하구 374476 5 광주 동구 116332
1 서울 노원구 605825 2 부산 금정구 284065 5 광주 서구 280676
1 서울 은평구 442089 2 부산 강서구 53590 5 광주 남구 229318
1 서울 서대문구 348769 2 부산 연제구 215206 5 광주 북구 477591
1 서울 마포구 365398 2 부산 수영구 175154 5 광주 광산구 247031
1 서울 양천구 458998 2 부산 사상구 292685 6 대전 동구 247143
1 서울 강서구 503775 2 부산 기장군 67875 6 대전 중구 253673
1 서울 구로구 390275 3 대구 중구 86014 6 대전 서구 470327
1 서울 금천구 265365 3 대구 동구 334487 6 대전 유성구 161591
1 서울 영등포구 387404 3 대구 서구 281638 6 대전 대덕구 233227
1 서울 동작구 400351 3 대구 남구 191775 7 울산 중구 227244
1 서울 관악구 503957 3 대구 북구 399519 7 울산 남구 323761
1 서울 서초구 367096 3 대구 수성구 448493 7 울산 동구 182658
1 서울 강남구 521436 3 대구 달서구 584392 7 울산 북구 118088
1 서울 송파구 632983 3 대구 달성군 147672 7 울산 울주군 160359
1 서울 강동구 473572 4 인천 중구 65775
23
 R 활용
24
요약
 EDA 의 다섯 수치요약 최소값 , 제 1 사분위수 , 중위수 , 제 3 사분위수 ,
최대값
 문자값 중위수 M, 사분위수 H, 8 분위수 E, 16 분위수 D, 32 분위수 C
등등
 문자값에서의 mid(= 두 분위수의 중앙값 ) - 왜도 (skewness)
증가하는지 , 감소하는지에 따라 분포의 기울기 정도 , 방향을 알 수 있음
 문자값에서 spr( 두 분위수의 차이 ) - 첨도 (kurtosis)
증가하는 속도에 따라 꼬리가 얇은 분포인지 , 두터운 분포인지 알 수 있음
 상자 그림은 기본적인 다섯 수치요약을 그래프화 한 것
 상자 그림에서 특이점으로 판정하는 경계선은 HL-1.5Ⅹspr(H), HU+1.5Ⅹspr(H)
 자료가 정규분포이면 특이점으로 판정되는 자료점의 수는 0.7% 에 불과
 상자 그림은 여러 묶음의 수치 자료를 비교하기에 효율적인 그래프적 수단
동일한 척도의 수직선에 상자 그림을 그리는 것이 바람직
25
과제
 4 장 폴더의 Fastfood.xls 는 미국 fast-food 레스토랑 5
개의 Drive-through 서비스 소요시간을 측정한 것이다 .
레스토랑 상자 - 수염 그림을 한 화면에 그리고 결과를
해석하자 .
◦ 코드 파일 ( 본인이름 _4 장 .R) 과 분석 보고서 ( 본인이름 _4 장 .doc
또는 hwp) 를 각각의 파일로 사이버캠퍼스에 제출
26

EDA ch4

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

EDA ch4

Uploaded by

Copyright:

Available Formats

Chapter 4.

 왜도 (Skewness) – 분포의 기울어진 정도

부호가 음수이므로 이 분포는 왼쪽으로 약간 긴 꼬리를 뻗은 분포

< 수리통계학 시험점수 자료의 문자 값 전시 >

◦ 중앙값 (mid value)

(1) 분포가 대칭인 경우

문자값 mid spr

모 표준편차 의 1.35 배가 spr(H) 와 같으므로 의 추정치로

KURTOE/H = 1.5 / -1.704 = -0.204,

KURTO 의 값이 음수 정규분포에 비하여 중앙에 상대적으로 많은 자료점이

이므로 중위수 M 은 이고 위 사분위 HU 는

KURTOE/H = loge(4) / loge(2) – 1.704 = 0.296

2) 중위수 (M) 의 특성 – 편차 절대값을 최소화

◦ 평균이 인 확률변수 의 중심 차 적률 의 정의는

< 단순한 상자 그림의 작성 방법 >

4) 양쪽 안울타리의 안쪽에 있으면서 경계에 가장 가까운 값을 찾아낸다 . 이 자료점을

즉 , 6.25% 이다 . N=100 인 수치자료에서 특이값으로 간주되는 자료점의

You might also like