Download as pdf or txt
Download as pdf or txt
You are on page 1of 10

피어슨의 카이 제곱 검증법 유도하기

<기초 통계학의 숨은 원리 이해하기>, 수식이 지나치게 많은 이야기

피어슨의 카이 제곱 검정은 19__년 “ “란 제목의 논문으로 발표되었고,


Fisher는 그의 책 Statistical method에서 자세히 설명하였다. 원래 피어슨이 카이 제곱 검
정을 고안하게 된 이유는 실험 결과가 이론적 분포와 얼마나 일치하는지를 검정하기 위해서
였다고 한다.(Cox, 2000)

어쨌든 카이 제곱 검정은 질적 자료를 분석할 때 자주 쓰이고, 그 방법도 잘 알려져 있지


만, 그 방법이 어떻게 유도되었는지를 보여주는 통계학 개론서는 거의 없다. 여기서는 유도
방법을 설명해 보겠다.

우선 우리가 가장 생각할 수 있는 가장 간단한 상황은 두 개의 범주가 가능한 경우이다. 예


를 들어서 전체 인류에 있어, 혈액형 A는 30%이고, A형이 아닌 경우는 70%라고 알려져
있다고 치자. 이 때 한국인의 혈액형도 비슷한 분포를 하고 있는지 알아보고 싶을 때, 피어
슨의 카이 제곱 검증법을 사용할 수 있다.

이제 관찰 결과 가능한 결과가  또는  라고 하자. 표본을 통해 우리는 범주  의 모비율



을 
   (: 전체 표본의 크기,  : 범주  의 관찰 횟수)로 추정할수있고, 범주  의 모

   
비율을 
      
 로 추정할 수 있다. 과연 이것이 이론적 비율  ( 는
 

 , 와 같은 상수이다.)과 같은지 검증하고자 한다.(이 때, 표본 추출은 독립적으로 이루

어진다.)

일단      이므로, 만을 가지고 생각해보자. 이항 분포에서 다음을 알고 있다.

 
      
    

만약 이 무한히 커지면, 
 의 분포는 (중심극한정리에 의해) 정규분포가 된다. 따라서, 만
약 
 가 정규분포를 따른다고 생각하면, 다음과 같다.


 ∼     

그것을 표준정규분포로 다시 표현하면, 다음과 같다.


 
 ∼   

 

그리고, 카이제곱분포의 정의에 따르면, 다음과 같다.




  


   ∼    

 
  
  


 을 좀 더 자세히 살펴보자.   



=  
   
 
이고,     임을 이용하면,


     
   
 
   
=  라고 쓸 수 있다. 중학교 때 배운 공식 중에       가
          
  
있다.     를 대입하면,           가 된다. 이 식을
    

         
 
   
활용하면 다음의 식을 얻을 수 있다.


  
  



=
   
   
 
=     
  
    
이제 실제 관찰된 값  ,  를   ,   (Observed)라고 표시하고, 이론적인 확률에 의해
나타나길 기대되는    범주의 평균 관측 횟수를      (Expected)라고 표시하면, 다음과
같이 된다.

  
    
    
 
            

위의    
  

  
   를     
     로 표현하기 위해 분자와 분모에 을 곱한 후

위의 식을 이용하여            로 표현하자.

        =       
 
   =      
     
  
     
         
           






=          =   
    



따라서, 만약 이 충분히 크다고 하면,   


   ∼     이고,

 
                       
  


 =  
  
이므로,  
  
∼    임을 알

수 있다.

근데, 피어슨의 카이제곱 검정 때 사용하는 수식은 조금 달랐다. 실제로 그것은 다음과


같다.
        


 
 
∼       (단, 
 
   )
 

그것은  ,  , 두 개의 범주만이 가능한 경우에,              이기 때문이다.


따라서, 위에서 우리가 얻은 식은
                       
   
=   가 되고, 이것은 우리가 잘 알고

     

있는 피어슨의 카이제곱식과 일치한다.

이제 여러 범주의 결과가 가능한 경우를 생각해 보자.(Thornton, 1938)

 개 범주의 결과가 가능한 경우, 만약 각 시행이 독립이라며, 번의 시행에서 첫 번째 범주


가  , 두 번째 범주가  , ... 마지막 범주가  개 발생할 확률은
다항 분포로 다음과 같다.


 
 
  
 
   
 
                 =     

따라서 이론적 확률분포가 있고, 관측값(실제 관찰된 첫 번째, 두 번째, ..., s번째 범주의 개
수)이 있을 때,   값(관측값 또는 그것보다 더 드문 사건들의 확률)은 정확히 구할 수 있
다. 문제 계산이 굉장히 많다는 것이다.

예를 들어서 5개의 범주가 결과로 가능하고, 100개의 관측값을 얻었다고 해보자. 우리가 구
해야 할 확률은        에서       는 다음을 만족해야 한다.


 ≤  ≤   ≤  ≤    ≤  ≤  

  ,   

(각 범주에 속하는 관측값의 수는 최소 0에서, 최대 n(전체 시행 횟수)까지 가능하고, 각


범주의 관측값의 수를 모두 합하면 전체 시행의 수와 같아야 한다.)

위의 조건을 만족하는 (      )의 수는 다음과 같다!

      
                        

    




  

   
그리고 각각의 (      )에 따라      를 계산해야 하는데, 이것이 만만
   
치 않다. 계산기가 있어서 30초가 걸린다고 해보자.(계산기를 손을 쳐야 하고, 계산 결과를
모두 적어놓는 시간을 모두 합한다면 길지 않은 시간이다.) 계산해 보면 알겠지만, 가능한
모든 (      )의         를 구하려면 96560646분, 대략 14년이 걸린다! 손으로
계산하려면 얼마나 걸릴지 짐작이 안 간다!

물론 우리에겐 컴퓨터가 있다. 하지만 내 컴퓨터에서 계산을 시도한 결과에 따르면 20분 이
상이 걸렸다.

사실 는 이 커질 수록 계산하기 힘들어진다. 수학자들은 의 근사치를 좀 더 쉽게 구


할 수 있는 방법을 고안하였다. Sterling의 방법이라고 불리는 이 방법은 다음과 같이 표현
할 수 있다.


 ∼ 

 
  
여기서 ~는 근사값임을 나타낸다. 자세히 살펴보면, 왼쪽의 승수값이 오른쪽에서는 지수함
수로 표현되어 있음을 알 수 있다. 따라서 양변에 로그를 취하면, 다음과 같다.

log  ∼  log   

 
위의 식이  ∼   
  보다 나은 점은 log 값은 그리 크지 않은 에 대해 이미 계산

해 놓은 로그표를 사용하여 대입할 수 있다는 장점이 있다!

   
     를 좀 더 쉽게 구하기 위해(근사값을 이용하여), 다음과 같이 놓는다.
     

  

 ∼ 
 
 
  ,   ∼



 
      ∼ 
 
 

     ∼ 

 
  
위의 값을 넣으면 다음과 같이 쓸 수 있다.

   
    

 
   
   

          



  
  
 
  

   



 

    
   
    

          



 


 



  

     
   
    
     

     




 



 
 
   
  
    

    

   

 


 
 


    

여기서 우리가 구하고자 하는 것은      , 즉       의 함수임을 기억하자.

따라서       을 모아서 다시 쓰면 다음과 같이 쓸 수 있다.



  

  




             


   




 

 
 




        

    
  
 



      

        
            
(여기서        임을 이용하여)
   
   
    
 

 
     
         
 
(       임을 이용하면)
           

    
  
   



     
         
   

    
  
 



      

      
   

여기에서        는       의 함수이고, 나머지 과       는 모두 상수임


을 기억하자.       를 모아서 정리하기 위해서 분모에       가 두 번 나타나
있음을 확인하고, 정리한다.

     

        
  
  
  
   
         

         
      
 
    
    
   
  
     

          

      
      
   
        

     
  

  
   
      

   
      

여기서 를 정리해 보면,


   
          

     
  



   
      

   
      
   
        

     
  
 


   
      

   
      
   
        

     
  
 


   
     

            
    
        

     
  
 
  

 
   
       

          
   
        

     
  
  


   
        

   
      
    
   
        

     
  
 


   
     

         

  
        

결국       =  
      



 

 


꼴로 나타냈다.

(C는 상수,         는 기댓값     ,...)

이것은 원래 식보다 굉장히 단순해 졌음을 알 수 있다.(승수가 없어지고, 지수함수로 표현되


었다.) 문제는 지수함수이지만, 아래와 위에 모두 변수가 들어가는 식이라 계산하기도 힘들
고 다루기도 힘들다.(적분이 힘들다!)

여기서      


 로 치환하면 좀 더 식을 간단하게 만들 수 있음을 알 수 있다.

일단 해보자.

  
     
         
         


     
  
 


  
       

         
       
       
  


     
   
여기서
 

   
   
 
는 다음과 같이 쓸 수 있다.

 
     
          
   
    
 

   
  
 
   

 


      
   

 
 
  

 

여기서
→ ∞

lim   
 
  를 활용하자.


      
여기서는 lim
→ ∞
 
 
  
를 구하는 것인데,


이것을 구하기 위해서 →∞ 일 때 을 → 일때  로 쓸 수 있다는 것을 이용하자.

따라서, 다음과 같이 전개된다.


 
      
       

 
lim
→ ∞
 
 
  
 lim   
→

 lim exp log  


        

 

→


 lim exp  
→         log   

      
여기서 lim log    은 limlog   
→ → 


 
을 활용하여, 다음과 같이 쓸 수

있다.


       
lim log    = lim  

 →  →    

앞의 몇 항만 간추리면, 다음과 같다.


      
 
 
lim   
             
 
→  
 

(→이므로, n이 증가함에 따라,    →이 된다!)

따라서 원래 식은 다음과 같다.

 
lim exp  
→ 

   

     log   
 


 lim exp  
→                   
   

여기서 →이므로   항과 상수항만을 계산하면, 다음과 같다.


                 



 

   


               
      
  
              
      
  
  
              
  
    
           
 
  
            

 
      
            
  
  
       

따라서 원래 주어진 식은 다음과 같이 된다.


 
lim exp  
→     







                 


 lim exp         
→ 

 lim exp        
→ ∞ 


      
   
따라서,   


 
 
는 
 이 증가함에 따라,


      
   

 


 
 
~exp    

      으로 근사시킬 수 있다!

따라서 원래 식
  
     
         
         


     
  
 


  
     

          
      
        



 
  exp     


   
    exp   
     exp   


       

  



       
   


 
    


   
exp    
    
      
 exp               

    
       
여기서      
  이었으므로,  
       이고,
    
 

            
 

 







       이므로,

앞 선 식은

 
  exp           로 정리된다.

   
=      

     

우리가 구하고자 하는 p-value는 다음과 같이 쓸 수 있다.



 
  exp             ⋯ 

= ⋯  
 
      
 




   




 exp           

=  
 
      
 




여기서,         ⋯    로 놓으면 위의 식은

 
  exp  이 된다.

 
     =        =   =  

      

따라서 앞선 적분을 하기 앞 서
 가 s차원 상의 부피이므로,       이고, 따라서,


 
  exp    

  
     
 
  
  
을 구하면 된다.

여기서 한 가지   이 근사치이므로,


 
  exp    

     
        
  
 =1을 만족시키지 못할 수가 있다.


 
 ′exp       =1 로 놓고,  ′를 왼쪽의 식을 만족시키는 상수로 놓으면,

적분 안의 수식은 다음의 자유도 인   -분포와 비슷하다.

       
  if  ≥ 
   ⇒          
   
 if   

사실    이고,   이므로,
위의 식은 자유도가 s일때,   -분포와 일치함을 알 수 있다!

   
   

그리고,    ,    에서
  
            이므로,          의 가능한 공간은
  차원의 초평면이 된다!

You might also like