Download as pdf or txt
Download as pdf or txt
You are on page 1of 13

12차시 통계적 추정

통계적 추정

1. 모비율은 얼마인가?
2. 나는 소심한가 긍정적인가? (신뢰수준)
3. 95%, 100명, 3.1%포인트
4. 전체 모집단의 크기는 고려 안하는가?

학습개요

전체 모집단 또는 어떤 현상의 특정 관심사를 추정하려고 하는 상황에서 표본추출분포(표


본분포라고도 합니다)가 필요할 수밖에 없음을 알게 되었습니다. 또한 표본에서 산출되는 값
(표본평균, 표본비율)의 표준오차가 중요한 개념으로 대두되었습니다. 이 단원에서는 이 개념
을 활용하여 통계적 추정이론의 기본을 토의해 보려고 합니다. 이 단원을 잘 이해할 수 있다면
신문, 방송에 나오는 여론조사 결과 발표를 더 많이 이해하며, 받아들일 수 있게 될 것입니다.
세 사람의 대화를 주의 깊게 들어보세요.

1
12차시 통계적 추정

학습목표

1. 신뢰수준의 개념을 이해한다.


2. ± 3.1퍼센트 포인트를 이해한다.

학습내용

1. 모비율은 얼마인가?

김통계선생님 : 이 단원을 통하여 다음과 같은 보도 내용을 이해해보려고 합니다.

예) 정책 A에 대하여 150만 명이 거주하는 특정 지역의 여론조사를 실시한


결과, 80%가 지지하는 것으로 나타났다. 이 조사는 단순임의추출법으로
표본 1,000명을 추출하여 면접조사를 실시하였고, 신뢰수준 95%에서 표
본오차는 ±3.1% 포인트이다.

전 단원에서 표본추출분포의 필요성을 알기 위해서 어떤 추정치가 더 좋은가 하는 질문과


얼마나 좋은가에 대한 질문을 개략적으로 다루었는데, 이 단원에서는 이를 본격적으로 토의해
보려고 합니다.

전 단원의 내용을 복습하는 것으로 토의를 시작해 봅시다.

조사결과 나타난 지지율 80%를 이 지역 주민의 지지율로 추정하는 것에 대해서 어떻게


생각하십니까?

박현식 : 불안하지요. 150만 명의 의견을 1,000명의 의견으로 말하는 것이니까요.


이정란 : 1,000명은 너무 적은 것 아닌가요? 전체가 150만 명이나 되는데요.
박현식 : 하긴, 지난번 신문에서 보니까. 국민여론조사를 하는데도 1,000명밖에 안하더라구
요.
김통계선생님 : 전 단원에서 “표본의 크기가 크면 클수록 표본비율의 분포는 정규분포에
가까워진다.” 이런 이야기를 했는데 기억나시죠? 일단 1,000명이 정해졌다
고 생각하고, 얘기를 해 봅시다.
박현식 : 저번 시간에 배운 표본비율의 표준오차를 구해 볼게요. 그때 공식이

2
12차시 통계적 추정

전주민 지지율  전주민 지지율



표본의 크기

이라고 했는데, 전주민의 지지율을 모르니까. 표본에서 얻은 표본비율 0.8을



    
사용해서   
 
이 됩니다.
이정란 : 선생님, 죄송하지만 표본비율의 표준오차를 한번만 더 설명해 주시겠습니까?
김통계선생님 : 창피함을 무릅쓰고 질문하는 이정란씨의 적극성은 멋있습니다.

표본비율의 표준오차는 지금 표본으로 뽑힌 1,000명이 아닌 다른 1,000명이


뽑혔을 때, 얻을 수 있었던 표본비율 값들을 고민하다가 그 값들이 얼마나
다양한가, 즉 표본비율의 표준편차를 의미한다고 했지요.

이정란 : 아~ 이제 기억이 나네요. 계속 설명해 주세요.


김통계선생님 : 박현식씨가 계속해 보세요. 표본비율의 표준오차가 0.0126이 나왔는데,
이 값이 박현식씨가 갖고 있는 불안감하고 어떤 관계가 있나요?
박현식 : 지난 시간 토의내용 중 중심극한정리에 의해서 얻은 결과까지만 얘기할 수 있겠어
요. 1,000명으로 얻은 표본비율은 우리가 알고 싶어 하는 전주민의 지지율인 모비
율  를 평균으로 하고, 표준오차 0.0126을 표준편차로 하는 정규분포와 비슷한
분포를 따른다고 했지요. 그러니까...
김통계선생님 : 잠깐만, 이정란씨는 복습이 잘 안된 것 같은데, 박현식씨의 얘기를 따라가고
있습니까?
이정란 : 많이 이해하고 있는 것 같은데요. 그러니까 머리로 하는 것 아닙니까? 이론이요.
실제로 표본은 1,000명을 한번만 추출했고, 그 결과 표본비율이 0.8(80%)이 나왔
는데, 이 1,000명이 아니고 다른 주민 1,000명이 뽑혔다고 머리로 생각해 보
는 거지요. 그때의 표본비율은 여기서 얻은 0.8(80%)과 다른 여러 가지 값이
나올 수 있을 것이고, 그 값들의 다름의 모습이

이런 것이다 이거지요.

3
12차시 통계적 추정

김통계선생님 : 많이 이해한 것이 아니라 완전히 이해했는데 계속하겠습니까?


이정란 : 조금만 더 해볼까요. 그러니까 지금 실제로 얻은 표본비율 0.8(80%)은 우리가
알고 싶어하는 모비율  로부터 0.0126 이내에 있는 값일 수도 있고,  와 굉장
히 멀리 떨어져 있는 값일 수도 있다 이런 얘기죠? 그렇지만  로부터 0.0126
이내에 있다고 할 수 있는 가능성이 약 68%정도 된다고 볼 수 있으니까... 점점
말이 꼬이네요.
김통계선생님 : 훌륭합니다. 상당히 어려운 부분인데 인내가 대단하네요. 계속해서 따라와
보십시오. 우리가 얻은 실제 값인 0.8(80%)로부터 얘기가 진행하면 말이
꼬입니다. 1,000명을 표본으로 추출하여 얻게 될 수 있는 표본비율 중 약
68%는  와 0.0126 이내에 있고, 약 2.28%는    보다 더 클 수
도 있고...등등 이렇게는 말할 수 있지요.
박현식,이정란 : 예. 정규분포의 성질이니까요.
김통계선생님 : 우리가 정규분포에서 평균으로부터 한 배, 두 배, 세 배의 표준편차 이내
에 포함된 비율만 언급했는데 하나만 더 합시다.

평균으로부터 두 배의 표준편차가 아니고, 1.96배의 표준편차 이내에는


전체의 95 %가 포함된다.

그러니까 “평균으로부터 1.96배의 표준편차보다 더 큰 개체들이 2.5% 있고, 더 작은 개


체들이 2.5% 있다” 이렇게 말해도 되지요.

2. 나는 소심한가 긍정적인가? (신뢰수준)

김통계선생님 : 자, 이제 정신을 잘 가다듬고 들어봐요. 그러면 우리가 얻은 실제 표본비


율 0.8(80%)은 수많은 가능한 것들 중 어디쯤에 속한다고 봐야 할까요?
박현식 : 모르지요.
이정란 :  근처라고 볼 수 있지 않을까요.  근처의 값을 갖는 경우가 많으니까요
김통계선생님 : 두 사람의 성격이 드러나는군요. 박현식씨는 소심하고, 이정란씨는 좀 낙천
적이군요. 나는 두 사람 중간쯤 되어 보겠어요. 두 가지로 생각해 보겠어요

1) 우리가 표본을 추출할 때는 어떻게 하든 전체 주민을 잘 대표하는 표본이 되도록 하려고


했습니다.
2) 그러나 혹시 우리가 얻은 표본에 우연히도 반대하는 사람들이 많이 포함되어
있었다면, 우리가 구하려고 하는 전체 집단의 비율은 0.8(80%)보다 크겠죠(0.8(80%)은

4
12차시 통계적 추정

모비율  보다 작음). 그렇다고 해서 우리가 실제 얻은 표본비율 0.8(80%)이 가능한 표


본비율 값들 중에서 거의 제일 작은 값이다 라고 생각할 필요는 없지 않겠습니까? 벼락
이 친다고 해서 벼락을 내가 맞을 것이라고 생각하지 않는 것처럼 말입니다.
박현식, 이정란 : 예.
김통계선생님 : 반대를 생각해봅시다.

3) 혹시 우리가 얻은 표본에 우연히도 지지하는 사람들이 많이 포함되어 있었다면, 우리가


얻은 0.8(80%)은 모비율  보다 큰 값이겠지요. 그렇다고 해서 0.8(80%)이 가능한 표본
비율 값들 중에서 거의 제일 큰 값이라고까지 생각하는 것은 너무 극단적이지 않습니까?

박현식 : 그렇네요. 성격적으로 극단적인 사람들은 자기에게 극단적이 일어난다고 생각하는


성향이 있지요. 시험점수를 받으면 왕자병에 걸린 사람은 자기가 1등 아닌가 라
고 생각하고, 소심병에 걸린 사람은 자기가 꼴찌가 아닌가 라고 생각하는 것 과
같지요. 말이 되나요?
이정란 : 감이 잡히네요. 그러니까 우리가 얻은 0.8(80%)이  에서 떨어져 있을 수 있다
는 것을 인정하되, 극단적으로 생각하지는 말자는 얘기군요.
김통계선생님 : 좋아요! 좋아. 오늘 손발이 잘 맞아 떨어지는군요.
박현식 : 그럼 우리가 얻은 값이 극단적이라고 말할만한 기준을 어떻게 정하지요.
김통계선생님 : 양끝 2.5%, 즉 상위 2.5%, 하위 2.5%로 하면 어떨까요. 그러니까

① 혹시 우리 표본에 반대자들이 많이 포함되어서 0.8(80%)이  보다 작긴 작


다고 해도 하위1.96배의 표준오차( ×   )이상 작지는 않을
것이라고 믿자는 것이지요.

② 반대로 생각할 때는 0.8(80%)이  보다 크긴 크다고 해도 상위 2.5%를 나


타내는 1.96배의 표준오차인 0.0247 이상 크지는 않을 것이라고 믿자는 것
이지요.

5
12차시 통계적 추정

박현식 : 그러니까  는      보다는 크고,      보다는 작
다고 믿겠다 이거군요. 너무 극단적으로 생각하지 말자는 의미이군요.
김통계선생님 : 그렇다고 말할 수 있지요. 이때 이 믿음의 정도를 신뢰수준 95%라고 부르
는 것입니다. 다시 말하면 모비율  는 우리가 표본으로부터 얻은 0.8(80%)
과 차이가 나긴 날 것인데, 최대 2.47% 포인트 이내일 것이라고 믿는다는
것입니다.

이때 2.47% =±
(표준정규분포의 상, 하위 2.5%점인 1.96) × (표본비율의
표준오차 0.0126) = 신뢰수준 95%에서의 표본오차

박현식 : 감이 좀 오네요. 전체 집단을 잘 대표하도록 표본을 추출했지만, 우연히도 한쪽으


로 치우칠 수도 있다는 것이군요. 따라서 모비율이 표본에서 계산된 표본비율과
차이가 많이 날 수도 있고요. 그러나 너무 극단적으로 생각하지는 말고, 차이가
나도 어느 정도까지라고 생각한다는 뜻에서 신뢰수준이 나온다 이거군요.

김통계선생님 : 필(Feel)이 통하는 것 같습니다. 수고하셨습니다.

6
12차시 통계적 추정

3. 95%, 100명, 3.1%포인트

다음은 인터넷에서 발견한 발표내용입니다.

예) 모 언론기관과 리서치회사가 공동으로 조사한 여론조사에서 이공


계 위기라고 생각하는 사람들의 비율이 65%로 조사되었다. 이 조사
는 표본 1000명을 추출하여 전화조사를 실시하였고, 신뢰수준 95%
에서 표본오차는 ±3.1%포인트이다.

이정란 : 그런데 선생님 이상한데요. 우리가 이 단원 시작할 때 사용하신 예에서도 3.1%포


인트라고 하셨고, 또 언젠가 본 인터넷에서도 보시는 바와 같이 1,000명의 표본을
조사했을 때, 표본오차가 ±3.1%포인트라 되어있지 않습니까? 그런데 우리는 표보
오차가 ±2.47%가 나왔는데, 뭐 틀린 것 아닙니까?
김통계선생님 : 앗, 이럴수가!
그러나 놀라지는 마십시오. 틀린 것은 아닙니다. 전 단원에서도 표본비율의
표준오차 공식중 분자 부분에 있는 모비율을 모르기 때문에 논의가 조금 있
었지요. 그래서 우리는 모비율 대신에 표본비율을 대체한다고 했습니다. 그런
데 일반 여론조사기관이나 또는 좀 더 보수적으로 안전하게 발표하려는 사람
들은 표본에서 얻은 표본비율을 쓰기보다는 0.5로 대체합니다. 그러면 표준오
차가 최대값을 갖게 되거든요. 따라서 표본오차도 크게 되니까. 보다 현상을
조심스럽게 추정하게 되지요. 해봅시다.


     
표준오차      

표본의 크기 

 ×표준오차   ≒  

이정란 : 그렇군요.
김통계선생님 : 앞에서 우리는 약 2.5%가 나왔었지요. 통계학 이론에서는 우리가 얘기한
바와 같이 표준오차 공식에 표본비율을 쓰지만, 표본비율에 대한 표본오차
를 공표할 경우는 대부분 0.5를 사용하게 됩니다. 따라서 표본비율이 얼마
가 나왔느냐와 상관없이 표본의 크기가 얼마냐에 따라서 표본오차가 발표
됩니다. 다음의 표를 보세요.

7
12차시 통계적 추정

<표본비율로 모비율을 추정할 때 95%표본오차>

표본의 크기 () 표준오차 신뢰수준 95 %표본오차


400 0.025 0.049
1000 0.016 0.031
1600 0.013 0.025
2200 0.011 0.021
2800 0.009 0.019

계산을 반올림한 것이니까. 소수점 마지막 수는 알아서 보시요. 간단하게


되지요.

박현식 : 그런데 선생님! 표본의 크기가 커지는데 비해서 표본오차는 그렇게 많이 작아지
지 않는데요.

400에서 1,000으로 600이 늘었는데, 0.049-0.031=0.018 줄었고요.


1,000에서 1,600으로 600이 늘었는데, 0.031-0.025=0.006,
1,600에서 2,200으로 600이 늘었는데, 0.025-0.021=0.004,
2,200에서 2,800으로 600이 늘었는데, 0.021-0.019=0.002만큼 줄었어요.

그러니까 똑같이 표본의 크기는 600씩 늘어났지만, 표본오차가 줄어드는 정도


는 다르네요. 처음에는 약 2% 줄었지만, 그 다음부터는 0.6%, 0.4%, 0.2%정
도 줄어드는군요.
김통계선생님 : 아주 좋은 사실을 찾아냈습니다. 표본의 크기를 600명을 늘리게 되면 경비
가 상당량 증가하는데 반해서, 유익의 정도는 다르다는 것입니다. 400에서
600을 늘린 것에 비하면 1,000에서 600을 늘린 것은 별로 유익하다고 할
수가 없어요. 그래서 일반적인 여론조사가 1,000명, 또는 아주 중요한 조사
일 때는 2,000명 정도를 조사하게 되지요. 그 이상으로 늘려봐야 경비가
늘어나는데 비해서, 표본오차가 별로 줄어들지가 않거든요.

4. 전체 모집단의 크기는 고려 안하는가?

박현식 : 질문하나 더 하겠습니다. 그렇다면 전체 주민 150만명은 표본오차에 영향을 안


끼치는 것이네요. 다시 말하면 전체 주민, 즉 모집단의 크기는 표본오차와 관계가
없는 것인가요?
김통계선생님 : 이제 다시 처음 질문으로 돌아왔군요. 엄격하게 말하면 관계가 있습니다. 지

8
12차시 통계적 추정

금까지 제시된 표준오차의 공식은 이론적으로 모집단의 크기가 무한이라는


가정에서 산출된 것이지요. 그러나 대부분의 경우는 모집단의 크기가 크긴
크지만 유한이지요. 따라서 제가 써준 표준오차 공식에 어떤 값을 곱해주어
야 합니다. “그 값”을 알기 위해서 두 가지 개념이 필요합니다.

 : 전체 모집단의 크기,  : 표본의 크기, 추출율()=





유한 모집단 수정계수 ( : finite population connection) =      

수정계수 가 구해지면, 이 값의 제곱근 


 를 우리가 지금까지 사용한 표준오차에 곱
해주면 됩니다.

     
          
   

결국 
  
 ≒이 됩니다.

그런데 이 값은 거의 1에 가깝게 되어 우리가 사용했던 표준오차에 곱하여도 거의 영향을


주지 않게 됩니다. 따라서 모집단이 어느 정도 커서 
 가 1에 가까우면, 모집단의 크기는
무시해도 좋다는 말이 되지요. 물론 철저하게 고려해도 안 될 것은 없어요. 하지만 고려해도
표준오차나 표본오차에 영향을 거의 미치지 않는다는 말입니다.

김통계선생님 : 이제 다 된 것 같습니다. 또 질문할 것 있습니까? 내 생각에는 나중에 다시


한번 만나서 얘기합시다. 나도 머리가 멍해지네요. 여러분들 수고했습니다.

9
12차시 통계적 추정

학습정리

- 표본비율의 표본추출분포
- 추출된 표본을 어떻게 바라볼까?
- 신뢰수준 95%, 표본오차
- 표본을 크게 할수록 좋은가?
- 모집단의 크기를 신경써야 하나?
<퍼센트(percent)와 퍼센트 포인트(point)>

시간의 흐름에 따른 숫자의 변화가 관심의 대상이 되는 경우가 많다. 그런데 그 관심의 대상
이 되는 숫자가 퍼센트(%)로 표시된 것일 때에는 이 퍼센트의 변화를 퍼센트 포인트로 표현한
다.

실업률이나 시장점유율, 이자율 등의 변화가 여기에 해당된다. 퍼센트를 직접 비교할 때, 만


약 기준이 같다면 퍼센트를 보통의 숫자와 마찬가지로 서로 더하거나 뺄 수 있다. 이 때 두
퍼센트의 차이(혹은 변화)를 퍼센트 포인트라고 한다.

퍼센트 포인트는 방송이나 신문의 기사에서 각종 수치의 변화를 이야기할 때 자주 등장한다.


그러나 퍼센트와 퍼센트 포인트는 간단한 개념인데도 불구하고, 많은 사람들이 혼동하고 있으
며, 신문기사에서도 %포인트를 그냥 %로 잘못 사용하는 경우를 흔하게 볼 수 있다.

일본 중앙은행이 엔고의 행진을 막기 위해서 재할인율을 1.75%에서 1.0%로 인하한다는 발


표를 한 뒤에 우리나라의 한 일간지는 "재할인율 0.75% 인하 - 일, 엔고 긴급대책 발표"라는
제목으로 1면 머리기사를 실었다. 0.75%포인트를 그냥 0.75%라고 혼동하여 제목을 뽑은 것이
다.

실업률 계산의 기준이 되는 노동가능인구의 수는 단기적으로는 거의 비슷하므로 실업률의


변화는 그 차이를 직접 계산해서 퍼센트 포인트로 표현한다. 가상적으로 지난 5년 동안에 실
업률이 2.1%에서 3.2%로 증가했다고 하자. 이 퍼센트의 변화는 다음과 같이 두 가지 방법으
로 표시할 수 있다. "실업률이 지난 5년간 1.1%포인트 증가했다" 혹은 "실업률이 지난 5년간
52% 증가했다" 라는 두 가지 표현은 모두 정확한 표현이다.

그러나 우리에게 주는 인상은 물론 크게 다르다. 둘 중의 어느 표현을 선택하는가는 말하는


사람이 듣는 사람에게 어떤 인상을 심어주기를 원하느냐에 달려 있다.

10
12차시 통계적 추정

첫번째 방법은 실업률이 약간만 올랐다는 인상을 주는 반면에, 두번째 방법은 기준이 같을
경우 퍼센트의 퍼센트를 구할 수 있으므로, 실업률이 52% 증가했다고 표현한 것이다. 3.2%에
서 2.1%를 뺀 1.1%를 2.1%로 나누면 0.52, 즉 52%가 늘어났다는 계산이 나온다. 실업이 크
게 증가했다며 정부의 경제정책을 비판하고 싶은 사람은 아마 두 번째 표현을 선호할 것이 당
연하다. 이 표현은 5년 전에 비해 실업자가 될 확률이 52% 증가했다는 것을 의미한다.

11
12차시 통계적 추정

<칼 럼> 표본의 크기

조사목적을 달성하기 위하여 필요한 최소한의 표본규모는 어느 정도인가? 이를 결정하기 위


해서는 우선 연구자의 상식이 필요하다. 즉, 조사에서 구하려고 하는 추정량과 참값의 차이인
오차를 최대 얼마까지 허용해야 하는가를 미리 결정해야 하는데, 이를 최대허용오차 혹은 오차
의 한계라고 한다. 최대허용오차 e 를 정의하면 (식 1)과 같다.


   
관심비율  관심비율

----- (식 1)

여기에서, z α/2 는 신뢰수준에 의하여 결정되는 표준정규분포의 quantile이다. 표본의 크기 n


에 대하여 정리하면,

z α/2 관심비율 ( 1 - 관심비율 ) 2


n= ( )
e

이다. 지지율은 예비조사에 의한 값을 적용할 수 있으나, 지지율에 대한 어떠한 정보도 없다


면 지지율이 0.5일 때, 표본의 크기는 최대가 된다. 따라서 표본의 크기를 구하는 식은 (식 2)
와 같이 정의된다.

2
z α/2
n= ----- (식 2)
4e 2

예를 들어, A당 후보자의 지지율을 조사하려고 한다. 표본에서 구한 지지율과 진짜 지지율의


차이가 0.02보다 작게 되는 것을 95% 정도 신뢰할 수 있으려면 표본의 크기는

2
( 1.96) = 2,401명
n=
4(0.02) 2

가 된다. 즉, 표본조사에 의해서 조사된 지지율과 참값의 최대허용오차를 2%포인트 인정하


고, 95% 신뢰할 수 있으려면 최소한 2,401명은 표본으로 구성하여야 한다. 여기서 주의할 점
은 먼저 최대허용오차가 정해져야 표본의 크기를 구할 수 있다는 점이다. 보통은 최대허용오차
가 표본오차이다.

12
12차시 통계적 추정

학습문제

1. “정책 A에 대하여 150만 명이 거주하는 특정 지역의 여론조사를 실시한 결과, 80%가 지지


하는 것으로 나타났다. 이 조사는 단순임의추출법으로 표본 1,000명을 추출하여 면접조사
를 실시하였고, 신뢰수준 95%에서 표본오차는 ±3.1% 포인트이다.”여기서, 표본오차
±3.1%포인트의 의미는 무엇인가?

2. 표준편차와 표준오차를 비교하여 설명해 보라.

3. 신뢰수준 95%가 의미하는 바를 설명해보라.

4. 모표준편차  가 5라고 알려진 모집단으로부터 다음과 같은 크기의 표본을 추출할 때, 평균


이 80이 나왔다면, 모평균  에 대한 95% 신뢰구간을 구하여라(95%에 대한 Z값은 2로 반
올림하여 쓰자).
①   
②   
③   
④   

5. 어느 광역시 중학교의 교사들의 혼인율을 추정하기 위하여 100명의 교사를 임의추출하여


혼인여부를 조사한 결과, 25명이 미혼자였다. 모비율에 대한 95%의 신뢰구간을 추정하라.

13

You might also like