Professional Documents
Culture Documents
2648794053155BEF16
2648794053155BEF16
만약 이 무한히 커지면,
의 분포는 (중심극한정리에 의해) 정규분포가 된다. 따라서, 만
약
가 정규분포를 따른다고 생각하면, 다음과 같다.
∼
∼
을 좀 더 자세히 살펴보자.
=
이고, 임을 이용하면,
= 라고 쓸 수 있다. 중학교 때 배운 공식 중에 가
있다. 를 대입하면, 가 된다. 이 식을
활용하면 다음의 식을 얻을 수 있다.
=
=
이제 실제 관찰된 값 , 를 , (Observed)라고 표시하고, 이론적인 확률에 의해
나타나길 기대되는 범주의 평균 관측 횟수를 (Expected)라고 표시하면, 다음과
같이 된다.
위의
를
로 표현하기 위해 분자와 분모에 을 곱한 후
위의 식을 이용하여 로 표현하자.
=
=
= =
따라서, 만약 이 충분히 크다고 하면,
∼ 이고,
=
이므로,
∼ 임을 알
수 있다.
∼ (단,
)
=
따라서 이론적 확률분포가 있고, 관측값(실제 관찰된 첫 번째, 두 번째, ..., s번째 범주의 개
수)이 있을 때, 값(관측값 또는 그것보다 더 드문 사건들의 확률)은 정확히 구할 수 있
다. 문제 계산이 굉장히 많다는 것이다.
예를 들어서 5개의 범주가 결과로 가능하고, 100개의 관측값을 얻었다고 해보자. 우리가 구
해야 할 확률은 에서 는 다음을 만족해야 한다.
≤ ≤ ≤ ≤ ≤ ≤
,
그리고 각각의 ( )에 따라 를 계산해야 하는데, 이것이 만만
치 않다. 계산기가 있어서 30초가 걸린다고 해보자.(계산기를 손을 쳐야 하고, 계산 결과를
모두 적어놓는 시간을 모두 합한다면 길지 않은 시간이다.) 계산해 보면 알겠지만, 가능한
모든 ( )의 를 구하려면 96560646분, 대략 14년이 걸린다! 손으로
계산하려면 얼마나 걸릴지 짐작이 안 간다!
물론 우리에겐 컴퓨터가 있다. 하지만 내 컴퓨터에서 계산을 시도한 결과에 따르면 20분 이
상이 걸렸다.
∼
여기서 ~는 근사값임을 나타낸다. 자세히 살펴보면, 왼쪽의 승수값이 오른쪽에서는 지수함
수로 표현되어 있음을 알 수 있다. 따라서 양변에 로그를 취하면, 다음과 같다.
log ∼ log
위의 식이 ∼
보다 나은 점은 log 값은 그리 크지 않은 에 대해 이미 계산
해 놓은 로그표를 사용하여 대입할 수 있다는 장점이 있다!
를 좀 더 쉽게 구하기 위해(근사값을 이용하여), 다음과 같이 놓는다.
∼
, ∼
∼
∼
위의 값을 넣으면 다음과 같이 쓸 수 있다.
(여기서 임을 이용하여)
( 임을 이용하면)
결국 =
꼴로 나타냈다.
일단 해보자.
여기서
는 다음과 같이 쓸 수 있다.
여기서
→ ∞
lim
를 활용하자.
여기서는 lim
→ ∞
를 구하는 것인데,
이것을 구하기 위해서 →∞ 일 때 을 → 일때 로 쓸 수 있다는 것을 이용하자.
있다.
∞
lim log = lim
→ →
∞
lim
→
lim exp
→
log
lim exp
→
따라서,
는
이 증가함에 따라,
~exp
으로 근사시킬 수 있다!
따라서 원래 식
exp
exp
exp
exp
exp
여기서
이었으므로,
이고,
이므로,
앞 선 식은
exp 로 정리된다.
=
exp
=
여기서, ⋯ 로 놓으면 위의 식은
exp 이 된다.
= = =
따라서 앞선 적분을 하기 앞 서
가 s차원 상의 부피이므로, 이고, 따라서,
∞
exp
을 구하면 된다.
여기서 한 가지 이 근사치이므로,
∞
exp
=1을 만족시키지 못할 수가 있다.
∞
′exp =1 로 놓고, ′를 왼쪽의 식을 만족시키는 상수로 놓으면,
if ≥
⇒
if
사실 이고, 이므로,
위의 식은 자유도가 s일때, -분포와 일치함을 알 수 있다!
그리고, , 에서
이므로, 의 가능한 공간은
차원의 초평면이 된다!