Download as pdf or txt
Download as pdf or txt
You are on page 1of 5

『다양한 분야에서 마르코프 연쇄의 활용』

22061 이나경

연구 동기
이번 조별 프로젝트에서 우리 조가 선정한 주제는 마르코프 연쇄였다. 마르코프 연쇄는 현
재 상태에만 의존하여 미래 상태를 예측하는 모델로, 시간이 이산적으로 나눠진 상황에서
상태 간의 전이를 나타낸다. 우리 조에서는 여러 분야에서 어떻게 사용될 수 있을지 간략하
게 알아보았으나, 이론적으로 어떻게 활용될지가 아닌 정확히 어떤 방식으로 응용되는지, 그
래서 얻을 수 있는 결론이 무엇인지 궁금해져 자율 탐구보고서의 주제를 다양한 분야에서의
마르코프 연쇄의 활용으로 선정하게 되었다.

연구 내용
1. 경제적 관점에서 마르코프 체인의 응용
예를 들어, 어느 의류 쇼핑몰 중 재구매 행태를 파악한 표가 다음과 같다고 하자.

1월 2월

구매 비구매
구매
3만명
0.8 0.2

구매 비구매
비구매
1만명
0.1 0.9

이러한 표가 주어졌을 때, 기준이 되는 고객 수 4만 명 중 1월의 구매자가 3만명이었을 경


         
      

우, 3월의 구매, 비구매 수를 계산하는 행렬은    과 같이 계산
              
할 수 있으며, 5개월이 지난 경우 등 상황에도 역시 이 행렬을 여러 번 반복하여 결과를 예
측할 수 있다. 이를 통해 경제적 관점에서는 그대로 가면 의류 고객이 이탈할 것이므로, 기
존 4만명 이외에 추가로 고객 수를 늘려야 한다는 판단 등 역시 가능하다.

구매/비구매로 나누어지는 경우 이외에도, 상품이 A/B/C 패키지로 나누어지는 경우 A 패키


지를 구매한 고객이 다음 달 어떤 패키지를 구매하는지 등 역시 2x2 행렬이 아니라 행렬의
크기를 늘려 마르코프 체인을 사용해 각 패키지를 구매하는 고객의 수를 예측할 수도 있다.

2. 생물학적 관점에서 마르코프 체인의 응용


마르코프 체인은 생명과학, 특히 체세포와 관련된 분야에서도 응용될 수 있다. 생물 시스템
의 변화를 모델링하기 위해서는 그 변화의 기작을 자세히 알 필요가 없다. 대신에, 몇몇 상
태 사이에서 시간에 따라 전환되는 경로로 변화를 모델링할 수 있다.

체세포의 경우 성장(  ), 분열(  ), 그리고 휴면(  )의 세 가지 상태를 가질 수 있다고 가정


해보자. 어떤 특정 시점에서 세포의 상태(state)는 랜덤 변수 X로 나타낼 수 있으며, X는 ,
 , 의 세 상태와 각각의 전환 확률     을 가지고 있다. 이 시스템의 마르코프 체
인은 (     ⋯ )의 순열로 나타낼 수 있으며, 여기서  는 시점  에서 각 상태의 세포

가 발견될 확률의 벡터이다. 또,  에서    로의 전환 확률은 오직  의 관찰된 값인 ,


,  등으로만 판단된다. 이 체인은 순차적으로 관찰된 상태의 집합으로 이루어져 있다.

2개의 상태 (  ,  )를 갖는 마르코프 체인을 생각하자. 이 마르코프 체인은 이산 시간이며


시간이 지나도 일정한 특성을 가지고 있다. 어떤 시점에서 에 있는 시스템은   의
확률로 체세포 분열을 하거나 (  ->  ) 또는        의 확률로  상태에 머무
를 수 있다.  에서 연속적으로 머무를 확률을 높이기 위해    으로 설정할 수 있으
며, 분열한 세포는 다음 시간에  상태로 한번에 돌아가도록   로 설정한다. 이러한
확률들은 2x2 전이 확률 행렬  로 나타내며, 이 행렬의 요소  는  에서  로 진행되는 확
률을 나타낸다. 각 행렬의 값은 확률이므로, 각 행의 합은 해당 상태로 존재할 확률을 나타
내며 반드시 1이어야 한다.

세포가  에서 시작한다고 하면, 최초의 상태 확률 벡터는         이다. 현재


상태 확률 벡터를 전환 상태 확률 벡터로 곱함으로써 이후 상태에 대한 확률을 구할 수
있다. 두 번째 상태 벡터는       이고, 세번째는

        이다. 각 전환 단계는  를 곱한 것으로 n번째로 전환한


 
상태의 시스템은  을 곱하면 나온다.   의 각 요소들은  상태에서 시작하여 n번의
전환을 거쳐  상태로 끝날 때의 확률을 의미한다.


오랜 기간 동안 어떤 사건이 벌어지는 과정을 관찰하고 싶다면,  을 lim  으로 계산하
→∞

면 된다. 위에서 언급한 두 가지 상태를 갖는 시스템에서,  은 빠르게 수렴하며, 소수점

둘째 자리까지  가 장기적인 시점에서의 우수한 척도가 된다고 알려져 있다. 이 행렬의
각 행  는 상태  에서 시작한 세포가 무한한 단계 후 각각의 상태에 존재할 확률을 보여준
다. 이러한 확률들이 각 상태의 극한(limit)이며, 이를 종합하여 극한 분포(limiting
distribution)라고 한다. 앞의 예시는 항상   로 수렴하며, 이는 세포가 장기적으로

 상태에 존재할 확률이 17%임을 나타낸다. 이는  의 양쪽 행이 동일하기 때문에 세포
의 초기 상태에 무관하다. 이때 극한 분포는 체인에서 정상 상태의 특성을 나타낸다. 이를
정상확률분포라 부르고, 이에 도달하면 더 이상 변화에 영향을 받지 않게 된다.

더 이상 줄일 수 없고 비주기적인 마르코프 체인에서는 극한 분포와 정상 확률 분포가 하나


의 해를 갖는다. 이 경우, 극한 분포와 정상 확률 분포는 동일하다. 앞서 언급한 두 가지 상

태 예시에서처럼 극한 분포는 체인의 초기 상태에 독립적이며, 따라서  의 각 행이 동일


하다. 더 이상 줄일 수 없는 체인에서는 한 상태는 어떠한 다른 상태에서도 몇 단계를 거쳐
도달이 가능하다. 반면, 비주기적인 체인은 정해진 수의 변환 내에 최초의 상태로 되돌아오
지 않는다.

주기적인 체인은 정상 확률 분포를 가질 수 있지만, 극한 분포는 가질 수 없다. 이런 체인은


정상 확률 분포에서 시작했다면 그 분포에 머무르지만, 아니라면 정상 확률 분포로 수렴하
지 않는다. 예를 들어,      인 경우  에서 시작한 세포는 각 단계에서 확정적으
로 상태를 변경하며, 정상 확률 분포는  이지만  은 수렴하지 않는다. 축소 가능
한 체인에서는 극한 분포가 초기 상태에 좌우되며,      인 경우 초기 상태에 따

라   과   인 두 정상 확률 분포가 존재한다.

위 모델에 휴면 상태 를 더하면, 이 휴면 상태는 일시적이며 세포가 작은 확률로  에서


로 돌아옴을 알 수 있다. 이 체인은 줄일 수 없고 비주기적이므로  은 수렴한다. 극한
분포는    이며, 세포가 긴 시간 후  상태로 발견될 확률은 12.5% 이다.

체세포 분열을 저해하는 물질을 이용하는 것와 같이 휴면 상태를 영구적으로 만들어 이 체


인을 축소 가능하게 만들 수 있다. (Fig1 c)에서 모든  에서의 전환 확률은 0으로 나 
에 도달할 수 없다. 휴면기 는 흡수하는 상태가 되었으며 체인은 흡수적, 축소 가능한, 비
주기적인 성질을 띤다. 이 시스템이 더 오랜 시간 동안 진화할수록  나  보다  에서 발
견될 확률이 높아질 것이다.

초기 상태에 따라 세포의 휴면 상태 도달 속도가 달라질지, 휴면 상태에 도달하기 전에는

무슨 상태로 더 자주 있을지와 같은 질문들은 기초 행렬인       으로 알 수 있

다. 여기서 는 비흡수 상태 이내에서의 전환 확률을 나타내는 의 부분 행렬이다. 각 행


의 성분을 합하면 흡수 상태로 가기 이전의 시간 단계의 기대값이 나온다.  에서 시작한
경우 흡수가 평균 30단계 이후에 일어나는 것을 알 수 있다. 그 중에서, 25단계는  에, 5단
계는 에 있을 것이다. 만약  에서 시작한다면,  에서 20,  에서 5단계인 25단계로
감소할 것이다.

 에서 흡수 상태로 가기 까지의 시간은 초기 상태가 일 때 보다 5단계 더 길다. 이는


(a)  에서 초반에 다섯 단계 더 머무르고 (b) 다음 단계는 과거 상태와 독립적이므로 체인
이  으로 전환되었을 때 비로소 초기 상태가 인 체인과 통계학적으로 같게 되기 때문이
다. 앞면이 나올 확률    인 동전을 고려했을 때 동전 앞면을 흡수 상태라 하자. 동전
을 던질 때 앞면이 최초로 나오는 것에 대한 기댓값이 흡수 도달 시간이 되며, 이에 대응하
는 기하 분포    로 계산할 수 있다. 이와 더불어, 이 동전은      ,
         이므로,  의 형태를 가진 행렬이 된다.

이를 확장하여  상태에서 시작하는    인 세포 2500개가 진화하는 것을 시뮬레


이션하자. (Fig. 2a) 시간이 흐를 수록, 의 세포 비율은 증가하고, 평균 30.9 단계로 휴면
상태에 들어간다. 이는  에서의 기대치인 30 단계와 근접하다. 이제 와 동일한 세포

2500개가 모두  에서 시작한다고 가정하자.    이므로, 세포의 20%가 두번째 단


계에서 휴면 상태로 전환되며, 나머지 80%는 로 전환된다. 이것은 Fig. 2a 아래에서 체인
을  에서 시작하도록 측면으로 민 것과 같이 나타낼 수 있다. 즉, 이 체인의 앞부분에 
에서 보낸 다섯 단계를 붙여버린다면,  에서 시작한 체인과 통계적으로 동일한 체인을 생
성할 수 있다.

만약 흡수 확률을    로 증가시킨다면, 기초행렬의 값은 절반이 되어, 휴면 상태에


도달하는 시간은  에서 시작한다면 15,  에서 시작한다면 10이 된다 (Fig. 2b). 전과 마찬
가지로, 초기 상태  에서  로 전환된 체인은  에서 시작한 체인과 통계적으로 동일하다.

3. 정보적 관점에서 마르코프 체인의 응용


자연어 처리 과정에서, 마르코프 체인을 사용하면 다음 단어가 나올 확률을 예측할 수 있으
며, 이는 초기 딥러닝 모델 형태이다.
예를 들어, “I like apple“, ”I don’t like carrot“, ”I like kiwi“ 라는 세 문장이 있을 때, 다음과
같이 관계도를 그릴 수 있고, 오른쪽과 같이 표를 나타낼 수 있으며, 이것을 행렬으로 고치
면 마르코프 체인을 이용해 한 단어가 나왔을 때 다음 단어를 예측할 수 있다.
또한, 비슷한 방식으로 여러 음악이 주어졌을 때, 마르코프 체인을 이용하여 인공지능 모델
을 제작해 음악의 일부분이 주어졌을 때 나머지 음악을 작곡하는 모델을 제작할 수 있다.

4. 다양한 분야에서 마르코프 체인의 응용


앞서 탐구한 관점 이외에도 주가, 금리, 지표와 같은 금융 및 경제 변수의 동적인 변화를 모
델링하거나 생물학에서 유전자 변이, 분자의 이동, 신경 세포의 활동과 같은 생물학적 프로
세스, 통신 네트워크에서의 데이터 전송 및 라우팅, 경기 승부 예측, 날씨 예측 등에서도 마
르코프 체인은 널리 활용된다. 마르코프 체인은 현재 상태에만 의존하여 이전 상태들과 독
립적인 성질을 갖고 있는 동적 시스템을 모델링하는 데 효과적으로 활용된다.

연구를 통해 느낀점
미래 상태가 현재 상태에 의존하는 경우, 그것을 예측할 때 마르코프 연쇄 모델을 사용한다
는 사실은 알고 있었지만 직접적으로 어떻게 사용되는지는 몰랐었다. 본 탐구 보고서 작성
을 계기로 마르코프 연쇄를 통해 미래 발생할 일을 예측하는 방법을 알게되었고, 이를 통해
본 탐구보고서에서 다룬 분야 외에도 어떻게 적용되는지 이해가 깊어진 것 같다. 작성을 위
해 필요한 자료를 찾다가 KCI에 등재된 “마르코프 연쇄를 이용한 한국 프로야구 경기 분석
(문형우 우용태, 신양우)” 라는 논문을 보게 되었는데, 알고리즘을 세워 정밀하게 분석할 수
도 있다는 사실을 알게 되었다. 또한, 선형대수학의 개념들이 현실에서 실제로 어떻게 응용
되는지를 알게 되었다. 지금까지는 행렬과 벡터에 대한 이론적인 부분에 중점을 두고 학습
했었데, 이들이 어떻게 현실 문제를 해결하는 데 활용되는지를 알게 되었다. 수학적인 개념
들이 데이터 분석과 예측 모델링에 어떻게 적용되는지를 보면서, 이제까지의 수학 학습이
얼마나 실생활에 밀접하게 관련되어 있었는지를 느꼈다. 이를 통해 수학이 현실적인 문제
해결에 큰 도움을 주는 강력한 도구임을 깨달았다. 앞으로 더 많은 분야에서 이러한 수학적
기법들을 활용해 보고 싶다.

Reference
Markov models—Markov chains, Jasleen K. Grewal, Martin Krzywinski & Naomi Altman
https://www.nature.com/articles/s41592-019-0476-x
마르코프 연쇄를 이용한 한국 프로야구 경기 분석, 창원대학교, 문형우, 우용태, 신양우

You might also like