Professional Documents
Culture Documents
EDA ch4
EDA ch4
수치요약과
상자그림 , 여러 그룹의 비교
김남형 응용통계학과
가천대학교
nhkim@gachon.ac.kr
1
다섯수치요약
평균 (Mean) – 어떤 경우에는 상당히 불확실 하다
◦ 예)
점수 분포가 작은 값에 편중되고 큰 값 쪽으로 길게 꼬리를 뻗고 있는
경우
점수분포가 큰 값 쪽에 편중되고 작은 값 쪽으로 길게 꼬리를 뻗고 있는
경우
분포의 대칭성 여부를 알지 못하는 경우 평균은 대표값의
역할을 할 수 없다 .
중위수
평균
작은 값에 편중 , 큰 값에 편중 ,
큰 값 쪽으로 꼬리가 긴 모형 작은 값 쪽으로 꼬리가 긴 모형
2
주요 R 함수 : summary(), quantile(), boxplot()
중위수 (Median)
◦ 자료의 크기를 ( 자료의 수 ) N 이라고 할 때
◦ (1) N 이 홀수 중위수 = (N+1)/2 번째 자료점
◦ (2) N 이 짝수 중위수 = N/2 번째와 (N/2+1) 번째 자료
값의 평균
중위수의 깊이 (depth)
d(M) = (N+1)/2 짝수 , 홀수에 관계없음
산포 (spreadness) 의 측도
◦ 표준편차 전통적인 통계방법론
◦ 두 사분위수의 차이 탐색적 자료분석에서의 산포의 측도로
사용 ( 강한 저항성 )
두 사분위수 (H) 의 깊이 정의
d(H) = ([d(M)]+1)/2 , [x] 는 가우스 수
3
사분위수
◦ Q1( 제 1 사분위수 , 아래 4 분위수 ) HL
◦ Q2( 중위수 , 중간값 , 중앙값 ) M
◦ Q3( 제 3 사분위수 , 위 4 분위수 ) HU
EDA 에서의 다섯 수치 요약
◦ ( 최소값 , 제 1 사분위수 , 중위수 , 제 3 사분위수 , 최대값 )
(min, HL, M, HU, max)
4
수리통계학 점수 자료의 다섯 수치 요약
2 2 0 00 N=65
5 3 1 058
15 10 2 1333458889 d(M)=(65+1)/2=33
22 7 3 0355789
(11) 11 4 11133456678 d(H)=(33+1)/2=17
32 17 5 11122233344456688
15 6 6 147779 M=48, HL=33, HU=58
9 5 7 33478
4 2 8 29 min=0, max=99
2 2 9 09
65∨ (0, 33, 48, 58, 99)
SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)]
= (10-15)/(10+15)=-5/25=-0.2
5
R 실습
6
분위수
자료의 p 분위수 (0< p < 1)
◦ 중간값 : 표본자료에서 상대적 누적비율이 0.5 에 해당하는 자료값
◦ 4 분위수 : 누적비율이 0.25 와 0.75 에 해당하는 자료값
◦ N 개 자료값 을 크기순으로 정렬
◦ k 번째 자료점에 대한 누적 비율
◦ 이 경우 일 때
◦ , 만약 가 정수가 아닐 경우 보간점 이용
◦ p 분위수 () 는 다음과 같이 정의됨
, 여기서
는 보다 작지만 가장 가까운 정수
7
문자 값 (letter values)
◦ 수치요약들을 일정형식으로 전시한 것
9
중앙값의 추이
◦ 분포의 대칭 여부 ( 왜도 , skewness) 를 판단할 수 있음
D E H M H E D
10
(2) 분포가 왼쪽으로 긴 꼬리를 뻗은 경우
M > mid H > mid E > mid D > mid C > mid B > mid A
D E H M H E D
(3) 분포가 오른쪽으로 긴 꼬리를 뻗은 경우
M < mid H <mid E < mid D < mid C < mid B <mid A
D E H M H E D
11
산포값의 추이
◦ 분포가 대략 대칭인 경우 spr 의 추이는 첨도 (kurtosis) 를 알려 준다 .
분포가 정규분포인 경우 ∼
◦ EDA 의 첨도의 정의 12
구간 에서 동일한 확률밀도를 갖는 균등분포를 고려
문자값 mid spr
M *
H
E
D
13
중심 , 감소율 를 갖는 이중 지수분포 (double exponential distribu-
tion) 고려
문자값을 구해보자 .( 위 꼬리 확률 )
14
전통적인 수치요약과의 비교
1) 평균의 특성 - 편차 제곱합을 최소화 ( )
증명 )
이 홀수
증명 ) 교재 참고
증가함수와 감소함수를 구분 짓는 위치를 선택
15
전통적인 왜도 (skewness) 와 첨도 (kurtosis) 의 정의
◦ 왜도 = 첨도 =
중심 차 적률 왜도 첨도
정규분포 , 가 짝수 0 0
0, 가 홀수
균일분포 , 가 짝수 0 -1.2
0, 가 홀수
이중지수분포 , 가 짝수 0 3
0, 가 홀수
16
여러가지 분포
정규분포 균일분포
이중지수분포
17
R 실습
18
상자그림
상자 그림 (BOX PLOT)
◦ 다섯 수치 요약을 이용하여 시각화하는 방법 상자 그림 (
상자 - 수염 그림 )
19
< 대표적인 상자 그림 작성방법 >
1) 다섯 수치 요약 (min, HL, M, HU, max) 를 구한다 .
2) 위•아래 사분위수 (H) 위치에 네모형 상자를 그린다 . 상자 내에 중위수 (M) 에
해당되는 위치에 ‘ +’ 표시 또는 칸막이 막대 표시를 한다 .
3) 다음과 같이 양쪽 안울타리 (inner fence) 값 IF 를 계산한다 .
+
5) 안울타리와 바깥울타리 사이에 있는 자료점을 특이점 (outlier) 으로 간주하고 그
위치에 ‘ o’ 표시 .
AVL HL M HU AVU
o o o
+
20
특이점
정규분포
◦ 평균이 이고 분산이 인 정규분포의 경우
사분위수 H H= 0.675 이므로 spr(H) = 1.35
안울타리 (inner fence) 값 IF IF =
◦ 정규분포에서 바깥의 확률이 0.007, 즉 0.7% 임을 알수
있다 ( 즉 , N=100 인 경우 특이값으로 판정될 자료점의 수는 평균 1 개
미만 )
균일분포
◦ 균일분포 에서 동일한 확률밀도
사분위수 H H= 이므로 spr(H) =
안울타리 (inner fence) 값 IF IF =
◦ 이들 값들은 양의 확률밀도 갖는 구간 를 벗어나므로 ,
균일분포에서는 특이점이 검출 되지 않는다 .
21
이중 지수분포
◦ 중심 이고 감소율 의 이중 지수분포 고려
사분위수 H H= 이므로 spr(H) =
안울타리 (inner fence) 값 IF
IF =
◦ 이중 지수분포에서는
종합 ( 결론 )
◦ 균일분포에서는 특이값이 절대로 검출될 수 없으며 ,
◦ 정규분포에서는 간혹 검출될 수 있으나 ,
◦ 이중지수분포에서는 꽤 빈번히 특이점 판정이 내려진다 .
22
여러 묶음 수치자료의 비교
여러 묶음의 수치자료를 비교할 때 수치 요약만으로는 효율적인 분석을 할 수 없음
다음은 7 개 광역시 구별 인구 자료임
지역코드 지역명 구 인구 지역코드 지역명 구 인구 지역코드 지역명 구 인구
1 서울 종로구 168879 2 부산 중구 57669 4 인천 동구 72792
1 서울 중구 130370 2 부산 서구 147647 4 인천 남구 408835
1 서울 용산구 226540 2 부산 동구 121398 4 인천 연수구 259790
1 서울 성동구 322990 2 부산 영도구 177636 4 인천 남동구 395289
1 서울 광진구 380164 2 부산 부산진구 415457 4 인천 부평구 528403
1 서울 동대문구 366282 2 부산 동래구 289183 4 인천 계양구 326522
1 서울 중랑구 440018 2 부산 남구 289452 4 인천 서구 335339
1 서울 성북구 459011 2 부산 북구 298539 4 인천 강화군 60289
1 서울 강북구 340327 2 부산 해운대구 395405 4 인천 옹진군 13304
1 서울 도봉구 352098 2 부산 사하구 374476 5 광주 동구 116332
1 서울 노원구 605825 2 부산 금정구 284065 5 광주 서구 280676
1 서울 은평구 442089 2 부산 강서구 53590 5 광주 남구 229318
1 서울 서대문구 348769 2 부산 연제구 215206 5 광주 북구 477591
1 서울 마포구 365398 2 부산 수영구 175154 5 광주 광산구 247031
1 서울 양천구 458998 2 부산 사상구 292685 6 대전 동구 247143
1 서울 강서구 503775 2 부산 기장군 67875 6 대전 중구 253673
1 서울 구로구 390275 3 대구 중구 86014 6 대전 서구 470327
1 서울 금천구 265365 3 대구 동구 334487 6 대전 유성구 161591
1 서울 영등포구 387404 3 대구 서구 281638 6 대전 대덕구 233227
1 서울 동작구 400351 3 대구 남구 191775 7 울산 중구 227244
1 서울 관악구 503957 3 대구 북구 399519 7 울산 남구 323761
1 서울 서초구 367096 3 대구 수성구 448493 7 울산 동구 182658
1 서울 강남구 521436 3 대구 달서구 584392 7 울산 북구 118088
1 서울 송파구 632983 3 대구 달성군 147672 7 울산 울주군 160359
1 서울 강동구 473572 4 인천 중구 65775
23
R 활용
24
요약
EDA 의 다섯 수치요약 최소값 , 제 1 사분위수 , 중위수 , 제 3 사분위수 ,
최대값
문자값 중위수 M, 사분위수 H, 8 분위수 E, 16 분위수 D, 32 분위수 C
등등
문자값에서의 mid(= 두 분위수의 중앙값 ) - 왜도 (skewness)
증가하는지 , 감소하는지에 따라 분포의 기울기 정도 , 방향을 알 수 있음
문자값에서 spr( 두 분위수의 차이 ) - 첨도 (kurtosis)
증가하는 속도에 따라 꼬리가 얇은 분포인지 , 두터운 분포인지 알 수 있음
상자 그림은 기본적인 다섯 수치요약을 그래프화 한 것
상자 그림에서 특이점으로 판정하는 경계선은 HL-1.5Ⅹspr(H), HU+1.5Ⅹspr(H)
자료가 정규분포이면 특이점으로 판정되는 자료점의 수는 0.7% 에 불과
상자 그림은 여러 묶음의 수치 자료를 비교하기에 효율적인 그래프적 수단
동일한 척도의 수직선에 상자 그림을 그리는 것이 바람직
25
과제
4 장 폴더의 Fastfood.xls 는 미국 fast-food 레스토랑 5
개의 Drive-through 서비스 소요시간을 측정한 것이다 .
레스토랑 상자 - 수염 그림을 한 화면에 그리고 결과를
해석하자 .
◦ 코드 파일 ( 본인이름 _4 장 .R) 과 분석 보고서 ( 본인이름 _4 장 .doc
또는 hwp) 를 각각의 파일로 사이버캠퍼스에 제출
26