정연승

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 24

The Korean Journal of Applied Statistics (2014) DOI: http://dx.doi.org/10.5351/KJAS.2014.27.6.

867
27(6), 867–889

Nonparametric Bayesian Statistical Models in


Biomedical Research

Heesang Noha · Jinsu Parka · Gyuseok Sima · Jae-eun Yua · Yeonseung Chunga,1
a
Department of Mathematical Sciences, Korea Advanced Institute of Science and Technology

(Received October 27, 2014; Revised November 27, 2014; Accepted December 1, 2014)

Abstract
Nonparametric Bayesian (np Bayes) statistical models are popularly used in a variety of research areas be-
cause of their flexibility and computational convenience. This paper reviews the np Bayes models focusing on
biomedical research applications. We review key probability models for np Bayes inference while illustrating
how each of the models is used to answer different types of research questions using biomedical examples.
The examples are chosen to highlight the problems that are challenging for standard parametric inference
but can be solved using nonparametric inference. We discuss np Bayes inference in four topics: (1) density
estimation, (2) clustering, (3) random effects distribution, and (4) regression.

Keywords: Nonparametric Bayes, Dirichlet process, density estimation, clustering, random effects distribu-
tion, regression.

1. 서론

생물/보건/의학 연구에서는 관심 연구가설을 검증하기 위해 다양한 형태의 자료를 수집하고, 수집된 자


료에 연구목적과 부합하는 통계모형을 설정하여 통계적 추론을 한다. 즉, 통계모형이란 수집된 자료에
가정하는 확률모형이다. 그러나 이는 가정일 뿐이며, 사실 이 가정은 종종 실제와 다르게 설정되어 잘못
된 통계적 추론의 결과를 가져온다. 특히, 자료에 유한개의 모수로 결정되는 확률분포를 가정하는 모수
적 통계모형은 계산적인 편리함으로 인해 많은 응용 연구에서 사용되지만, 때때로 자료의 특성을 지나치
게 단순화하여 잘못된 추론과 의사결정을 초래한다. 따라서 자료의 특성을 보다 자세히 모형화할 수 있
는 유연한 통계적 모형이 필요한데, 이를 위해 최근 비모수적 베이지안 통계모형이 많이 사용되고 있다.
본 논문에서는 최근 20년 동안 출판된 논문들을 토대로 생물/보건/의학 연구를 위해 사용되는 비모수
베이지안 통계모형을 개괄하였다.
비모수적 베이지안 통계모형의 핵심은 자료의 확률분포함수를 특정 모수적 분포가 아닌 임의의 유동적
인 분포로 설정하고, 이 분포에 사전분포를 설정하여 사후추론을 하는 것이다. 베이지안 통계모형의 경
우 비모수적 모델링을 통해 자료의 분포함수뿐만 아니라, 임의효과의 분포 혹은 관심모수의 사전분포 또
한 유동적인 모형화가 가능하여 보다 넓은 클래스의 확률모형을 제시할 수 있다. 따라서 비모수적 베
이지안 통계 모델링을 위해서는 임의분포에 대한 사전분포가 핵심요소이며, 가장 많이 사용되는 확률
1 Corresponding author: Department of Mathematical Sciences, Korea Advanced Institute of Science and
Technology, 291 Daehak-ro, Yuseong-gu, Daejeon 305-701, Korea. E-mail: dolyura@kaist.edu
868 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

모형은 디리슈레 확률과정(Dirichlet process; DP)이다 (Ferguson, 1973, 1974). DP는 임의의 확률
분포 G에 대한 사전분포로, 임의의 확률 분포 G가 DP를 따를 때 G ∼ DP(α, G0 )로 표기하며, 여기
서 α와 G0 은 DP를 결정짓는 두 모수를 나타낸다. α는 질량모수(mass parameter)로써 G의 불확실
성을 나타내며, G0 은 기저분포(base measure)로 E(G) = G0 를 만족한다. DP에서 추출한 G는 임의
의 가측집합 A에 대해 G(A) ∼ Beta(αG0 (A), α(1 − G0 (A)))를 만족하고, 이를 확장하여, 임의의 분
할 {A1 , A2 , . . . , Ak }에 대하여 (G(A1 ), . . . , G(Ak ))는 Dir(αG0 (A1 ), . . . , αG0 (Ak ))를 따른다. DP를
표현하는 방법 중 가장 널리 알려진 것으로 막대분할 표현방식(stick-breaking representation)이 있다
(Sethuraman, 1994). 막대분할 표현방식에 따르면 DP에서 추출된 임의의 확률분포 G는 다음처럼 표
현된다.


i.i.d.
G(θ) = πh δθ̃h ( · ), θ̃h ∼ G0 , (1.1)
h=1

여기서 δx ( · )는 x가 중심인 퇴화분포(point mass)이며, πh = νh l<j (1 − νl ), νh ∼ Beta(1, α)이다.
식 (1.1)에서 보듯이 DP에서 추출된 임의의 분포 G는 연속이 아닌 이산분포로, 퇴화분포의 무한합으
로 표현된다. DP의 이산성은 연속형 변수의 분포를 모형화하는데 부적절하지만 이는 혼합모형을 통해
쉽게 해결할 수 있다. 오히려 DP의 이산성은 자료의 임의분할을 유도하여 군집분석에서 매우 유용하게
사용된다. DP를 따르는 G로부터 추출된 θi 는 동일한 값을 가지는 θi 끼리 묶이게 되며, 그 각각의 묶음
들을 군집이라고 정의할 수 있기 때문이다.
임의분포 G에 대한 사전분포로 DP 이외에도 다양한 모형이 제시되었는데, DP가 비모수 베이지안
통계모형에서 가장 많이 사용되는 이유는 첫째로 계산적으로 단순하다는 것과 둘째로 식 (1.1)의 구
조를 변형하여 보다 일반적인 모형으로의 확장이 매우 용이하기 때문이다 (Dunson, 2010). 임의의
변량 θi 의 분포를 G로 가정하고, G가 DP를 따른다고 했을 때, G에 대한 해석적 주변화(analytical
marginalization)를 통해, θi 의 주변 분포를 구할 수 있다. 이를 Polya Urn scheme이라고 부르
며 (Blackwell과 MacQueen, 1973), 이는 사후표본 추출을 위한 계산과정을 매우 간단하게 한다
(MacEachern, 1994). Polya Urn scheme에 의존하지 않더라도, 식 (1.1)의 표현에 근거해 G에 대
한 사후표본 추출이 가능한데, 이러한 사후표본추출 방법은 blocked Gibbs sampling이라고 부르며
(Ishwaran과 James, 2001), Polya Urn scheme에 기초한 표본추출보다 훨씬 빠른 속도의 계산이 가능
하다. 또한 식 (1.1)의 구조는 여러 방향으로의 확장이 용이한데, 대표적으로 설명변수에 의존하는 임의
의 분포 집합에 대한 사전분포로의 확장이나, 그룹별로 얻어진 자료분석을 위해 그룹별 임의분포에 대한
사전분포로의 확장이 가능하다. 설명변수에 의존하는 임의분포는 조건부함수의 추정이나 비모수 베이
지안 회귀분석에서 사용되며, 혹은 군집분석에서 설명변수의 영향을 반영할 때도 사용된다. 그룹별 임
의분포는 부분모집단별로 자료의 분포함수나 임의효과의 분포함수를 추정할 때 사용되고, 또는 계층적
군집분석에 응용된다.
본 논문에서는 생물/보건/의학 연구를 위해 사용되는 DP와 DP 확장모형을 중심으로 한 비모수 베이
지안 통계모형을 다음의 네 가지 주제별로 살펴보았다. 먼저 2장에서는 자료의 확률밀도함수 추정을 위
한 모형들을 소개하였다. 3장에서는 비모수 베이지안 통계모형을 이용한 군집분석 방법들을 소개하였
다. 4장에서는 임의효과분포의 추정을 다루었고, 마지막으로 5장에서는 비모수 베이지안 회귀분석 방법
에 대해 소개하였다.

2. 확률밀도함수 추정

주어진 자료의 확률밀도함수를 추정하고자 할 때, 모수적 방법은 먼저 자료가 특정한 모수적 분포를 따
Nonparametric Bayesian Statistical Models in Biomedical Research 869

Table 2.1. Number of TCR(T-cell receptors) types distribution. The number f0 of TCR that were not observed
in the sample (yi = 0) is censored.
yi = j 0 1 2 3 4 5이상
도수 fj - 37 11 5 2 0

른다고 가정하고, 그 분포의 모수를 추정한다. 베이지안 추정의 경우 모수에 사전분포를 설정하여 표본
분포와 결합한 후 사후분포를 유도하여 모수를 추정한다. 그러나 이러한 모수적 가정은 자료의 특성을
지나치게 단순화시켜 잘못된 추정의 결과를 초래한다. 비모수적 베이지안 방법은 이러한 모수적 방법의
한계점을 극복하기 위해, 자료의 확률밀도함수를 특정 모수적 분포가 아닌 임의의 분포로 설정하고, 이
분포 자체에 사전분포를 설정하여 보다 유연한 추정을 가능하게 한다. 본 단원에서는 비모수 베이지안
통계모형을 통한 확률밀도함수의 추정에 대해 소개한다.

2.1. 디리슈레 확률과정을 이용한 확률밀도함수의 추정

1장에서 소개한 DP는 임의분포에 대한 사전분포이므로 이를 이용해 자료의 확률밀도함수를 추정할 수


있다. 식 (1.1)에서 보듯이 DP에서 추출된 임의의 분포 G는 연속이 아닌 이산분포로, 퇴화분포의 합
으로 표현된다. 그러나 자료의 이산성이 적합하지 않은 경우가 많으므로, DP에서 추출된 임의의 분포
G를 주어진 자료의 확률분포함수로 가정하는 것은 적절하지 않다. 그러나 다음과 같은 혼합모형을 통
해 이러한 문제를 해결할 수 있다. 자료 y의 확률분포함수를 P 라 하고, P 는 다음의 혼합모형으로 설정
하는 것이다.

P (y) = f (y|θ)dG(θ), G ∼ DP(α, G0 ). (2.1)

즉, 자료는 모수 θ가 주어졌을 때 f (y|θ)를 따른다고 하고, 모수 θ가 DP에서 추출된 임의의 분포 G를


따른다고 가정하는 것이다. 이 모형을 DP 혼합모형(DP mixture model; DPM)이라고 한다 (Escobar,
1994). f (y|θ)가 연속 분포일 때, 이렇게 정의한 확률 분포 P 는 연속분포가 된다. 위의 혼합 모형을 계
층적으로 풀어 쓰면 다음과 같이 표현된다.

yi |θi ∼ F (θi ), θi ∼ G, G ∼ DP(α, G0 ). (2.2)

DPM의 가장 큰 장점 중 하나는 계산적인 편리함이다. 마코프 사슬 몬테 카를로(Markov Chain Monte


Carlo; MCMC) 방법을 사용하여 사후분포를 추정할 때 대부분의 모수의 완전 조건부 분포(full condi-
tional distribution)가 사전분포와 표본분포의 켤레구조(conjugate structure)로 인해 알려진 분포로 유
도되어 상대적으로 빠른 시간에 MCMC 연산이 가능하다.

예제 2.1: (T세포의 다양성) Guindani 등 (2012)는 T세포의 수용기(T-cell receptors; TCR) 타입의
개수에 대한 분포를 추정하기 위하여 DPM를 사용하였다. TCR 타입의 종류가 얼마나 되는지 아는 것
은 면역 체계가 어떤 식으로 반응하는지 이해하는 데 매우 중요한 역할을 한다. yi 를 i번째 TCR 타
입이 T세포에서 발견된 개수라 하고, yi ∼ F, i = 1, . . . , n에 대해 F 를 추정하고자 하였는데, 희귀한
TCR 타입은 실험을 통해 관찰되지 않을 수 있기 때문에, 이러한 TCR 타입, 즉 yi = 0인 자료는 관찰
이 불가능하다. Table 2.1은 분석에 사용된 자료로 fj 는 각각 건강한 쥐의 집단에서 측정된 TCR 타입
의 개수가 j인 빈도를 나타낸다. Guindani 등 (2012)는 F 를 추정함으로써 F (0), 즉 실험에서 발견되지

않은 TCR 타입의 종류의 총 갯수를 추정하고, 4j=0 fj , 즉 TCR 타입의 종류의 분포에 대해 추정하고
자 하였다. 이들은 Table 2.1의 자료가 단일 포아송 분포를 따른다고 가정하는 것은 제한적이라고 판단
870 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

Figure 2.1. (a) shows the data (as pin plot) and a posterior sample F ∼ p(F |y) under a DP mixture prior (grey
∑4
curves) and the posterior estimate F̄ = E(F |y) (black curve). (b) shows the implied posterior p(N = j=0 fj |y)
on the total number of T-cell types.

하고, 포아송 분포의 DPM을 가정하였다. 즉, yi 가 포아송 분포를 따른다고 가정하고, 모수 λi 가 DP를
따르는 임의의 분포 G를 따른다고 설정하였다.

yi |λi ∼ Poisson(λi ), λi ∼ G, G ∼ DP(α, Ga(a, b)). (2.3)

Figure 2.1-(a)의 검은 곡선은 F 의 사후 분포의 평균을 나타내며, Figure 2.1-(b)는 T세포 타입의 종류,

즉 4j=0 fj 의 사후분포를 나타낸다.

2.2. 조건부 확률밀도함수의 추정

주어진 자료에 반응변수의 확률분포를 변화시키는 설명변수가 있을 때, 설명변수가 반응변수에 미치는


영향을 조사하는 가장 간단한 방법으로 설명변수에 따라 반응변수의 평균이 변하는 회귀모형을 생각할
수 있다. 그러나 회귀모형은 잔차의 분포형태가 정규분포라는 가정을 주로 동반하기 때문에, 설명변수
에 따라 반응변수의 평균만 변할 뿐 분포형태는 동일하다고 가정하는 매우 제한적인 모형이다. 설명변
수에 따라 반응변수의 확률분포 자체가 변할 때, 비모수적 베이지안 방법을 통해 조건부 확률밀도함수를
유동적으로 모형화할 수 있다.
Müller 등 (1996)는 반응변수 Y 와 설명변수 벡터 x의 결합분포, 즉 z = (Y, xT )T 에 DPM의 사전분포
를 설정하여 반응변수의 조건부 평균함수를 비모수적/비선형적으로 추정하였는데, 이 방법은 사실 반응
변수의 조건부 분포를 비모수적으로 모형화하고 있어 유동적인 조건부 분포의 추정에도 이용될 수 있다.
또한, MacEachern (1999)은 종속적 DP(Dependent DP; DDP)를 제시하였다. 설명변수 x에 의존하
는 임의의 확률분포 Gx 는


i.i.d.
Gx (θ) = πh δθ̃h (x) ( · ), θ̃h ∼ G0 (2.4)
h=1

∏ i.i.d.
이라고 정의하고, 여기서 πh = νh l<h (1 − νl ), νh ∼ Beta(1, α)이다. 식 (2.4)은 DDP의 막대분할
표현방식을 나타내는데, 가중치와 퇴화분포 모두가 x에 종속적일 경우 모형이 지나치게 복잡해 질 수 있
으므로, 일반적으로 퇴화분포만 x에 종속되도록 설정한다. De Iorio 등 (2004)가 제안한 분산분석 종속
적 DP (ANOVA dependent DP; ANOVA-DDP)이 퇴화분포만 x에 종속적으로 변하는 DDP의 대표
적인 예이다. 또 다른 방법으로 Dunson 등 (2007)은 설명변수가 변함에 따른 확률분포 Gx 를 DP에서
Nonparametric Bayesian Statistical Models in Biomedical Research 871

Figure 2.2. Estimated densities of GAD conditionally on DDE. Estimates correspond to different percentiles of
the predictor distribution, including (a) 10th , (b) 60th , (c) 90th and (d) 99th . Solid lines represent posterior means,
and dashed lines represent 99% credible intervals.

추출된 임의분포의 결합으로 설정하되, 결합가중치를 x에 의존하는 확률과정으로 설정하는 방법을 제안


하였다. 주어진 자료가 각각 (Yi , xi ), i = 1, . . . , n일 때, 설명변수 x에 대한 확률분포 Gx 는

n
i.i.d.
Gx (θ) = bi (x)Gxi (θ), Gxi ∼ DP(α, G0 ) (2.5)
i=1

이고, bi (x) = γi K(x, xi )/ nl=1 γl K(x, xl )가 된다. K(x1 , x2 )는 핵함수(kernel function)로, x1 와
x2 의 거리가 가까울수록 값이 커진다. 즉 x값이 가까우면 Gx 역시 비슷해진다. 이 모형을 가중 혼합
DP(weighted mixture of DP (WMDP))라고 한다. 이 모형은 주어진 자료를 바탕으로 혼합 모형을 구
성하므로, 주어진 자료의 설명변수의 변이가 충분하지 않을 경우 좋지 않은 결과를 보여줄 수도 있다.
Dunson과 Park (2008)은 이를 대체하는 모형으로 핵 막대분할 과정(kernel stick-breaking process;
KSBP)을 제시하였다. 설명변수 x에 대한 확률분포는


πh (x; Vh , Γh )G∗h , G∗h ∼ DP (α, G0 )
i.i.d.
Gx (θ) = (2.6)
h=1

이고, πh (x; Vh , Γh ) = U (x; Vh , Γh ) l<j U (x; Vl , Γl ), U (x; Vh , Γh ) = Vh K(x, Γh )가 된다. 핵함수의
성질에 의해 Γh 은 G∗h 의 위치를 나타내고, h가 커지고, x에서 멀어질수록 가중치가 작아지게 되어, 조
건부 분포의 추정이 x에 종속적으로 이루어지게 된다.

예제 2.2: (임산부의 조기 분만 자료 분석) Dunson과 Park (2008)은 Longnecker 등 (2001)가 DDE가


조기 분만에 미치는 영향을 분석한 자료를, 핵 막대분할 과정을 이용하여 재분석하였다. DDT는 말
872 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

Figure 2.3. Estimated probability that GAD is less than T weeks versus DDE, for (a) T = 33, (b) T = 35, (c) T
= 37, (d) T = 40. Solid lines are posterior means and dashed lines are pointwise 99% credible intervals.

라리아 모기를 살충하는 효과가 있어 인체에 유해함에도 불구하고 말라리아가 유행하는 지역에서 많
이 사용되는 살충제로, DDE는 이 DDT의 분해물질이다. 37주 이하의 조기 분만은 산모에게 큰 위험
부담을 수반하는데, DDE 수치가 높으면 조기 분만이 될 가능성이 높다고 알려져 있다. Longnecker 등
(2001)는 2,313명의 산모의 혈청에서 측정한 DDE 수치, 임신 기간(gestational age at delivery; GAD),
그리고 산모의 나이 등의 인구 통계학적 요소를 자료로 수집하였다. 이들은 GAD가 37주 이하인 산모
들을 조기 분만으로 판단하여 GAD를 이진수 자료로 변환하고, 이를 반응변수로 하여 로지스틱 회귀분
석을 하였고, DDE가 조기 분만에 큰 영향을 준다는 결과를 얻었다. 그러나 단순히 효과의 유무를 판단
하는 것이 아니라 DDE 수치가 변함에 따른 GAD 분포의 변화를 보기 위하여 Dunson과 Park (2008)은
같은 자료에 대해 다음 모형을 가정하였다.
∫ ( )
f (yi |xi ) = N yi ; xTi βi ; τ −1 dGxi (βi ). (2.7)

yi 가 GAD, xi = (1, DDEi , agei )T 로, GAD를 반응 변수로 하여, DDE와 산모의 나이에 대한 회귀 계
수에 핵 막대분할 과정 사전분포를 설정하였으며, 핵함수로는 가우시안 핵함수를 사용하였다. Figure
2.2는 DDE 수치가 변함에 따른 식 (2.7)을 이용해서 얻어진 GAD 분포의 추정값 및 99% 신뢰구간을
보여주고 있다. 4번째 그림의 DDE 수치가 매우 높은 경우에는 자료가 몇 개 되지 않아 상대적으로 신
뢰구간의 폭이 넓음을 볼 수 있다. DDE 수치가 증가함에 따라 GAD분포의 좌측 꼬리가 길어지고 있
으며, 이는 DDE 수치가 커질수록 조기 분만의 위험이 높아지는 것을 의미한다. 이 결과를 더 명확하게
보기 위하여 Figure 2.3은 DDE값이 변함에 따라 GAD가 T 이하일 확률, 즉 조기 분만이 될 확률이 어
떻게 변하는 지를 나타내고 있다. 단순히 T = 37인 경우 뿐만 아니라 여러 값에 대하여 DDE가 증가함
에 따라 조기 분만의 확률이 증가함을 명확하게 볼 수 있다.
Nonparametric Bayesian Statistical Models in Biomedical Research 873

3. 군집분석

군집분석은 주어진 자료에 나타난 정보에 근거해 성질이 비슷한 개체를 묶는 통계 기법이다. 형질이 비
슷한 개개인 혹은 개별 동물들을 무리 짓거나, 사회경제적 특성들이 비슷한 지역을 분류하거나, 기후가
비슷한 날들을 분류하거나, 문서에 나온 단어들을 주제에 맞게 묶거나, 유전자 발현(gene expression)의
정도가 서로 비슷한 유전자들을 묶는 등, 군집분석은 다양한 분야에서 폭 넓게 사용되는 통계 기법이다.
특히 관찰된 자료에 확률모형을 가정하고, 그 모형의 통계적 추론을 통해 군집화하는 것을 모형기반 군
집분석(model-based clustering)이라고 한다. 비모수 베이지안 통계모형을 통한 군집분석은 군의 개수
를 사전에 정할 필요 없이 자료로부터 추론하게 되어 유동적으로 최적의 군의 개수를 찾을 수 있다는 점
에서 모수적 모형기반 군집분석보다 유용하다. 본 단원에서는 비모수 베이지안 통계모형을 통한 군집분
석에 대해 소개한다.

3.1. 디리슈레 확률과정을 통한 군집분석

앞장에서 DP는 비모수적 베이지안 통계 모델링에서 가장 많이 사용되는 모형이라고 설명한 바 있다.


이 모형이 특별히 유용한 이유로 두 가지를 들 수 있는데, 첫째는 계산적으로 단순하다는 것과 둘째는
이 모형을 통해 비모수적 모델링을 하는 동시에 군집분석이 가능하다는 점이다. 임의의 변량 θi 의 분
포를 G로 가정하고, G가 DP를 따른다고 했을 때, G에 대한 해석적 주변화(analytical marginaliza-
tion)를 통해, θi 의 주변 분포를 구할 수 있다. 이는 사후 추론 과정에서의 계산을 매우 간단하며, 또
한 DP에서 추출된 G는 본질적으로 이산형 분포이기 때문에 G로 부터 추출된 θi 는 동일한 값을 가지는
θi 끼리 묶이게 되며, 그 각각의 묶음들을 군집이라고 정의할 수 있다.
다시 말해, k = 1, . . . , K 에 대해, θk∗ 들을 n개의 θi 들 중 K개의 유일한 값이라 하고, k번째 유일한 값
θk∗ 를 갖는 θi 들을 묶어 k번째 군이라고 하고, Sk = {i : θi = θk∗ }를 k번째 군 개체들의 색인집합이라
고 하면, ρn = {S1 , . . . , SK }는 θi 들을 군집화한 임의분할을 나타낸다. 이 표현은, si 를 1과 K사이의
정수 값을 갖는 i번째 개체가 속한 군을 나타내는 지시변수라 했을 때, 군 소속 지시변수 벡터(cluster
membership indicator vector) s = (s1 , . . . , sn )와 같은 정보를 나타낸다. DP 하에서 유도되는 임의분
할 ρn 의 사전분포는 다음과 같이 표현된다.


K
p(ρn ) ∝ αK (nk − 1)!, (3.1)
k=1

여기서 nk 는 k번째 군에 있는 원소의 개수를 나타낸다(i.e., nk = |Sk |). 또한, DP 하에서 다른 모든 개


체들의 군집이 주어졌을 때, i번째 개체가 k번째 군에 들어갈 조건부 확률을 구해보면 다음과 같이 표현
된다.
{
− n− for k = 1, · · · , K − ,
p(si = k|s ) ∝ k
(3.2)
α for k = K − + 1,

여기서, s− = s\si 이며, n−


k 는 Sk 에서 i번째 실험 단위를 제외한 군의 크기를 나타낸다. 즉 식 (3.2)는
si 가 특정 군에 속할 확률은 각 군의 크기인 n− k 와 비례하고, 기존에 없는 새로운 군에 속할 확률은 α에
비례한다는 것을 의미한다. 따라서 표본의 수가 늘어날수록 군의 개수도 확률적으로 늘어날 수 있다.
이는 사전적으로 군의 개수를 특정 값으로 정하는 모수적 군집분석에 비해 유연성이 높은 모형이라고 할
수 있으며, 최적화된 군의 개수는 자료에 의해 사후적으로 결정된다. 이해를 돕기 위해 앞서 식 (2.1)에
서 소개한 막대 분할 표현 방식을 통해 보면, 각각의 지시변수들의 주변 분포는 P (si = k) = πk 가 된다.
874 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

DP를 통한 임의분할로 군집분석을 할 경우 MCMC 표본추출을 통해 수많은 분할 표본을 사후분포로


부터 얻게 되는데, 사후표본의 대표값 혹은 중앙값을 어떻게 정할 것인가가 문제가 된다. 가장 간단한
방법으로, 사후분포 최대값(Maximum a posteriori; MAP) 방법이 있다. 이는 MCMC 표본추출을 통
해 얻은 분할 표본 중, 분할의 사후 분포인 p(ρn |y)를 최대화 하는 분할 표본을 선택하는 방법이다. 하
지만 이 방법은 단 하나의 분할표본을 추정치로 선택하기 때문에 실제 분할과 추정치가 서로 상당한 차
이를 나타낼 수 있다는 단점이 있다. Dahl (2006)은 이러한 문제를 보완하기 위해 최소제곱 모형기반
군집화(least-squares model-based clustering) 방법을 제시하였다. 먼저 s를 MCMC 표본추출에서 얻
은 분할 중 하나라고 하면, Dahl (2006)은 δi,j (s)를 i와 j번째 관측치가 서로 같은 군에 있다면 1, 그
렇지 않으면 0의 값을 갖도록 하는 지표 함수로 설정하고, δi,j (s)를 원소로 갖는 연관 행렬(association
matrix)을 δ(s)라 정의하였다. 이러한 연관 행렬들은 각각의 MCMC 분할 표본마다 존재하며, 행렬의
원소마다 전체 MCMC 분할 표본의 평균을 낸 행렬을 쌍 확률 행렬(pairwise probability matrix of
clustering), π̂으로 정의하였다. 마지막으로, 다음의 쌍 확률 행렬과 연관 행렬의 차이의 제곱합을 최소
화 하는 군집을 최소 제곱 군집 sLS 로 선택하였다.
n ∑
∑ n
sLS = arg min (δi,j (s) − π̂i,j )2 , (3.3)
s∈{s1 ,··· ,sB }
i=1 j=1

여기서 B는 MCMC 표본의 수를 나타낸다. 이와 같은 최소 제곱 모형기반 군집화는 MCMC 추출을


통해 얻어진 모든 군집들의 정보를 이용하여 전체 군집들의 ”평균” 군집을 얻어낸다는 점에서 매우 직
관적이며 편리한 방법이라고 볼 수 있다.

예제 3.1: (쥐의 골격근 산화스트레스에 대한 유전자 발현 자료 분석) Dahl (2006)은 쥐의 골격근에


산화 스트레스를 주었을 때 관찰된 유전자 발현 자료에 근거하여 유전자들을 군집화하는 모형을 제시하
였다. 분석의 목적은 유전자들의 군집화를 통해 상관관계가 큰 유전자들을 찾아내는 것인데, 특히 여러
실험조건에 대해 유사하게 발현되는 유전자군들을 찾아내고자 하였다. 어린 쥐(5달)와 나이든 쥐(25달)
에 파라콰트(paraquat)를 50mg/kg을 주입한 뒤, 1, 3, 5, 7 시간이 지날 때 마다 유전자 발현을 측정하
였다. 따라서 파라콰트를 주입하지 않았을 경우를 포함해서 총 10개의 실험 조건이 고려되었다. ygtr 을
t번째 실험조건 하에서 g번째 유전자의 r번째 개체의 유전자 발현을 수치화한 반응변수라고 하면, Dahl
(2006)이 제시한 모형은 다음과 같다.

ygtr |µg , τgt , λg ∼ N (ygtr |µg + τgt , λg ), (3.4)

여기서 τgt 는 g번째 유전자의 t번째 실험조건의 처리 효과(treatment effect)에 해당하며, 모든 실험조
건의 처리효과와 정밀도(precision) λg 가 동일한 유전자를 동일한 군에 있는 것으로 간주하는 모형을
설정하였다. 즉, 총 10개의 실험 조건이 주어져 있으므로, (τg1 , . . . , τg10 , λg ) = (τg′ 1 , . . . , τg′ 10 , λg′ )은
g번째 유전자와 g ′ 번째의 유전자가 동일한 군에 있다는 것을 의미한다. 이러한 군집화를 유도하기 위해
(τg1 , . . . , τg10 , λg )가 임의의 결합분포 G를 따른다고 가정하고, G는 DP를 따른다고 가정하였다. Fig-
ure 3.1은 제시된 모형과 식 (3.3)에 제시된 최소제곱 군집화 방법으로 추정된 군집분석의 결과를 그림
으로 표현한 결과이다. 각 열은 10개의 서로 다른 실험 조건들을 나타내며, 행은 군집화된 유전자들을
나타내는데, 군의 크기가 큰 순서대로 위에서 아래로 배열되어 있다. 여기서 색의 상대적 진하기는 처리
효과의 추정치를 나타내는 것으로 처리 전 나이든 쥐를 참조범주로 하여 이에 비해 상대적으로 어두운
부분은 과대발현된 유전자 군에 해당하며, 밝은 부분은 과소발현된 유전자 군들을 나타낸다. 군의 개수
는 총 105개로 추정되었으며, 군의 크기는 최소 1개에서 700개로 다양한 크기의 유전자 군이 추정되었
다. 또한 참조범주와 비교했을 때, 크기가 작은 군들이 큰 군들에 비해 유전자 발현 변화가 크게 나타나
Nonparametric Bayesian Statistical Models in Biomedical Research 875

Figure 3.1. Effects intensity plot for all probe sets. This figure, Based on the least-squares clustering, shows the
estimated treatment effects of all the clusters simulaneously and sorts the clusters based on size.

는 것을 확인 할 수 있다. 그리고 나이가 어린 쥐의 유전자 발현은 참조범주와의 차이가 크게 나타나는


데 비해, 나이든 쥐의 경우에는 차이가 작다. 이로부터 나이가 많은 쥐들은 산화 스트레스의 의한 영향
이 적다는 결론 또한 내릴 수 있다. 본 논문에서 제시한 유전자 군집분석 방법은 기존에 유전자 발현정
도에만 근거한 군집분석과는 달리 처리효과와 오차의 분산에 근거하여 유전자들을 보다 세부적으로 군
집화하고 있으며, 군의 수를 자료로부터 추정하고 있다. 이는 자료에 가정된 확률모형의 다차원 모수에
비모수적 결합 사전분포를 설정함으로써 가능한 것인데, 이러한 유동성이 비모수 베이지안 모형기반 군
집분석의 장점이라고 할 수 있다.

3.2. 디리슈레 확률과정의 확장모형을 통한 군집분석

DP를 이용한 군집분석은 여러 방향으로 확장되어 왔다. 먼저, Hartigan (1990)은 식 (3.1)에 제시된 분
할 모형을 일반화 하여 다음과 같은 곱분할 모형(product partition model; PPM)을 정의 했다.


K
p(ρn ) ∝ C(Sk ), (3.5)
k=1

여기서 C(A)는 A집합의 원소들이 얼마나 타이트하게 묶여 있는지를 나타내는 측도로써, 응집(cohesion)
함수라고 부른다. C(Sk ) = α(nk − 1)!인 경우가 식 (3.1)에 제시된 분할 모형에 해당하며, 이와 같은
DP 분할 모형과 일반화된 PPM과의 관계는 Quintana (2006)에 자세히 설명되어 있다. 또한, Müller
등 (2011)는 위의 PPM을 확장하여 분할에 관여하는 어떤 설명변수의 자료가 있을 때, 설명변수에 의존
하는 분할모형을 제시했다. x∗k = {xi : i ∈ Sk }를 k번째 군에 있는 개체에 대응하는 설명변수들의 집합
이라고 하면, Müller 등 (2011)는 다음과 같이 임의분할이 설명변수에 영향을 받는 PPMx를 정의했다.


K
p(ρn ) ∝ C(Sk )g(x∗k ), (3.6)
k=1

여기서 g(x∗k )는 유사성(similarity) 함수라고 부르며, g(x∗k )가 클수록 k번째 군의 개체들의 설명변수가
서로 비슷하다는 것을 의미한다. 이는 설명변수가 유사한 개체들끼리 같은 군에 속할 확률을 높이는 역
할을 하여 설명변수가 군집화에 영향을 주도록 한 모형이다.
876 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

Figure 3.2. Residual plots for the NDP(nested DP) mixture regression model including random effects on the
initial antibiotic data. The gradation represents the posterior probability that two regions are in the same cluster.

또한, 계층적 자료의 군집분석을 위해 DP를 계층적으로 확장한 모형이 다양하게 제시 되었는데, 대표
적으로 계층적 DP(Hierarchical DP; HDP)와 중첩 DP(Nested DP; NDP)가 있다 (Teh 등, 2006;
Rodrı́guez 등, 2008). HDP와 NDP는 DP를 확장한 형태로, 다음과 같이 요약할 수 있다.

HDP : Gj |G∗ ∼ DP(M, G∗ ) and G∗ ∼ DP (B, H) for j = 1, . . . , J, (3.7)



NDP : Gj ∼ Q and Q ∼ DP (M, DP (α, G )) for j = 1, . . . , J. (3.8)

식 (3.7)을 보면, HDP는 공통된 기저분포인 G∗ 에 대한 사전 분포가 DP를 따르며, 이러한 G∗ 에서


Gj 가 추출된다. θij 를 j번째 그룹의 i번째 표본이라고 하고, θij ∼ Gj 라고 하면, θij 는 공통 기저분포의
이산성으로 인해 서로 다른 i나 서로 다른 j들끼리 묶일 확률이 양수가 된다; P (θij = θi′ j ′ ) > 0. 따라
서, 단순히 모든 개체를 한꺼번에 군집화하는 DP 군집분석과는 달리 개체들이 그룹내에서와 그룹간에
서 군집화 되는 계층적 군집화를 수행한다. NDP 또한 이러한 계층적 군집화를 수행하는데, 식 (3.8)을
보면, Gj 가 공통된 이산 확률 분포인 Q를 따르기 때문에 P (Gj = Gj ′ ) > 0가 되어 개체들의 군집
화와 동시에 그룹의 군집화도 수행한다. 반면, HDP의 경우 (G1 , . . . , GJ )가 G∗ 의 원자(atom)들을 공
유하고 있지만, 가중치가 서로 다르게 배정 되기 때문에 결과 적으로 Gj 들은 서로 다를 수 밖에 없다;
P (Gj = Gj ′ ) = 0. 이로 인해 그룹별로 개체들의 군집화 패턴을 추정할 수 있지만, 그룹의 군집화는
수행하지 않는다. Teh 등 (2006)는 HDP를 이용하여, 문서들의 단어 정보를 통해 특정 주제(topic)를
찾아내는 모형을 제시하고, 제시한 모형과 모수적 모형인 잠재 디리슈레 할당(latent Dirichlet alloca-
tion(LDA); Blei 등, 2003) 모형을 비교하였다. Rodrı́guez 등 (2008)는 NDP를 이용하여 미국 내 여러
지역에 있는 병원들의 의료 서비스 품질 자료를 분석하였다.

예제 3.2: (미국의 의료 서비스 품질에 따른 병원들의 군집화) Rodrı́guez 등 (2008)는 미국 내 51개


지역(50개 주와 콜럼비아 지역)에 있는 병원들의 의료 서비스 품질 자료를 이용하여 지역마다 서비스 품
질들이 어떤 차이를 보이는지를 분석하였다. 구체적으로 지역에 내에서 병원들을 군집화하고, 병원들의
군집화 패턴에 따라 동시에 지역을 군집화하는 것을 목표로 하였다. 반응변수는 각 병원들에서 적절한
초기 항생물질을 투여한 환자의 비율이며, 각 병원마다 4가지의 설명변수(병원의 유형, 병원의 소유기
관, 응급 서비스를 제공하는지의 유무, 인가를 받은 병원인지)를 고려했다. Rodrı́guez et al (2008)는
Nonparametric Bayesian Statistical Models in Biomedical Research 877

다음과 같이 반응변수의 분포에 NDP 혼합모형을 가정하였다.


( 2 )
yij = µij + xij γ + ϵij where ϵij ∼ N 0, σij ,
( 2 )
µij , σij ∼ Gj and {G1 , · · · , GJ } ∼ DP(M, DP(α, G∗ )), (3.9)

여기서 yij 는 j번째 지역의 i번째 병원의 반응변수를 나타내며, xij 는 네 개의 설명변수에 해당하며, 기
저 측도인 G∗ 는 정규 역 감마 분포를 따른다고 가정 했다. 식 (3.9)는 잔차의 분포를 정규분포가 아닌
지역에 따라 형태가 변하는 임의의 분포들로 유연하게 가정함과 동시에 비슷한 병원끼리 그리고 비슷한
지역끼리의 군집화를 유도하는 모형이다. Figure 3.2는 서로 다른 두 지역들이 동일한 그룹에 있을 확
률을 히트맵(heat map) 형태로 나타낸 결과 이며, 크게 다음과 같은 세 개의 그룹들로 나뉘어짐을 확인
할 수 있다; (1) 31개 지역들로 균일하게 분포되어 있는 군; (2) 6개의 지역들로 균일하게 분포되어 있
는 군; (3) 나머지 15개의 지역들로 이루어진 불 균일한 군. 본 논문에 제시된 NDP 혼합모형은 계층적
자료의 분석에서 자료의 하위단위에서의 군집화와 상위단위에서의 군집화를 동시에 수행하는 모형이다.
이러한 구조는 베이지안 통계모형이 계층적으로 쉽게 확장된다는 점을 이용하여 자료의 분포를 계층적
혼합모형으로 설정하되, 비모수 사전분포를 사용함으로써 가능한 것이다.

4. 임의효과 분포의 추정

비모수적 베이지안 모델링이 특별히 중요한 모형 중 하나로 계층적 혼합효과 모형(hierarchical mixed
effects model)을 들 수 있다. 베이지안 계층적 혼합효과 모형에서는 임의효과(random effects)의 확률
분포를 가정하게 되는데 임의효과가 어떤 분포를 따르는지 알려지지 않은 경우가 많다. 일반적으로 임
의효과가 특정한 형태의 모수적 분포(예: 정규분포)를 따른다고 가정하는데 이는 알려진 정보에 근거한
다기 보다는 계산적인 편리함이나 절약적인 모형화(parsimonious modeling)를 위해서이다. 임의효과
분포 자체에 관심 있는 경우, 분포를 실제와 다른 모수적 분포로 모형화 하는 것은 잘못된 추론의 결과
를 초래한다. 또한 분포 자체에 관심이 없더라도 혼합효과 모형에서의 임의효과 분포의 가정은 관심 있
는 모수(예: 고정효과(fixed effect))의 추론에 영향을 미칠 수 있다. 따라서 임의효과 분포를 실제와 가
깝게 모형화 하는 것이 중요하며, 모수적 모형으로 설명할 수 없는 다양한 분포형태를 비모수적 모형으
로 유연하게 모델링하는 것이 필요하다. 또한 임의효과의 비모수적 모형화는 3장에서 설명한 바대로 군
집분석을 동시에 수행한다는 점에서도 매우 유용하다. 본 단원에서는 계층적 혼합효과 모형에서 임의효
과 분포 추정을 위한 비모수 베이지안 통계모형을 소개한다.

4.1. 단일 모집단 자료의 임의효과 분포

먼저 가장 간단한 계층적 혼합효과 모형 yij = µ + βi + ϵij 을 살펴보자. 여기서 yij 는 i번째 개체(i =
1, . . . , n)의 j번째 관측치(j = 1, . . . , ni )이고 µ는 고정효과를, βi 는 i번째 개체의 임의효과를 나타내
며, 그리고 잔차 ϵij 는 N (0, σ 2 )을 따른다고 가정한다. 일반적으로 모수적 모델링에서는 사후 분포의 계
산을 편리하게 하기 위해 임의효과 βi 가 정규분포 N (0, τ 2 )를 따른다고 가정한다. 그러나 비모수적 모
델링에서는 임의효과 분포를 임의의 분포 G(β)라고 가정하고, G의 사전분포 p(G)를 설정한다. 모수
적/비모수적 모델링의 가장 큰 차이점은 모수적 모델링에서는 임의효과 분포를 유한한 개수의 모수로
결정되는 분포로 가정하는 반면, 비모수적 모델링에서는 임의효과 분포 G에 대한 모수의 개수를 제한하
지 않음으로써 G의 불확실성을 보다 일반적으로 반영한다는 것이다. 비모수적 모델링을 이용한 계층적
혼합효과 모형은 다음과 같이 나타낼 수 있다.

yij ∼ p(yij |µ, βi ), βi ∼ G, i = 1 . . . , n, G ∼ p(G), (4.1)


878 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

Figure 4.1. Estimated random effects distribution E(G|y) (contours) and random draws (dots). The vertical line
through 1 and the identity line are shown for reference. The event {(β, δ)|1 < β < δ} indicates preferential binding
for a tripeptide-tissue pair.

여기서 p(yij |µ, βi )는 yij 의 확률분포를 나타내며, 임의효과 βi 의 분포는 사전분포 p(G)를 따르는 임의
의 분포 G로 설정한다. 모형 (4.1)은 모수적 모델링과 같이 해석이 용이하고 효율적인 사후 추론이 가
능하며, 동시에 모수적 모델링의 단점인 제한된 임의효과 분포의 가정을 완화시킨다는 장점을 가진다.
계층적 혼합효과 모형에서 임의효과 분포의 비모수적 베이지안 모델링에 대한 많은 연구가 이루어졌다.
먼저 Bush와 MacEachern (1996)은 계층적 혼합효과 모형에서 처음으로 임의효과 분포를 비모수적 방
법으로 모형화 하였다. 그들은 임의화 블록 설계 모형(randomized block experiment model)에서 블록
에 대한 임의효과의 분포에 비모수적 방법을 적용하였는데, 구체적으로 DP를 임의효과 분포의 사전분
포로 사용하였다; βi ∼ G, G ∼ DP(α, G0 ). Kleinman과 Ibrahim (1998a)은 선형 혼합효과 모형(linear
mixed effects model)에서 임의효과 분포에 DP를 설정하였고, Kleinman과 Ibrahim (1998b)은 같은
방법을 일반화 선형 혼합효과 모형(generalized linear mixed effects model)으로 확장하였다. 그리고
Mukhopadhyay와 Gelfand (1997)는 역시 일반화 선형 혼합효과 모형에서 임의효과 분포의 사전분포
를 DP로 설정하여 다양한 종류의 DPM을 제안하였다. Müller와 Rosner (1997)는 혈액 가산 자료 분
석을 위해 비선형(nonlinear) 계층적 혼합효과 모형에 DPM을 결합하였고, Müller 등 (2007)는 각 계
층 마다 반복 측정된 다중 계층 자료를 분석하기 위해 가장 높은 계층의 임의효과 분포에 DP를 설정한
반모수적(semiparametric) 모형을 제안하였다. 또한 Walker와 Mallick (1997)은 일반화 선형 혼합효
과 모형에서 임의효과의 분포에 PT 사전분포를 사용하였다. 최근에는 Rodriguez와 Dunson (2011)이
PSBP를 제안하여 임의효과 분포의 사전분포로 사용하였다.

예제 4.1: (파지 전시 실험자료 분석) Leon-Novelo 등 (2013)는 임의효과 분포의 베이지안 비모수적
모형화를 통해 3단계 파지 전시(Phage display) 실험 자료를 분석하였다. 파지 전시 실험은 단백질
의 항원항체 결합을 이용하여 특정 조직(골수, 지방, 근육, 전립선 그리고 피부)과 강한 결합력을 가
지는 펩티드를 찾는 것을 목적으로 한다. Leon-Novelo 등 (2013)는 연속된 3번의 실험을 통해 얻어
진 펩티드/조직 결합의 개수 자료를 분석하여, 3단계에 걸쳐 결합이 증가하는 경향을 가진 펩티드/조
직 쌍들을 찾고자 하였다. 먼저 3단계에 걸친 실험에서 관찰된 i번째 펩티드/조직 쌍의 개수를 yi =
(yi1 , yi2 , yi3 )라고 하고, 각 단계의 펩티드/조직 결합 개수는 다음의 포아송 분포를 따른다고 가정하였
Nonparametric Bayesian Statistical Models in Biomedical Research 879

Figure 4.2. Observed tripeptide-tissue pair counts across the three stages. Each line connects the three observed
counts for one tripeptide-tissue pair. The three panels arrange the pairs by: (a) nondecreasing, (b) oscillating,
and (c) nonincreasing observed tripeptide-tissue pair counts across the three stages. Marked in black are the 62
selected pairs using the decision rule di with a threshold value of c.

다.

(yi1 , yi2 , yi3 |µi , βi , δi ) ∼ Poi(yi1 |µi )Poi(yi2 |µi βi )Poi(yi3 |µi δi ), (4.2)

여기서 (µi , βi , δi )는 i번째 쌍에 대한 임의효과를 나타낸다. 임의 효과 중에서 µi 는 계산적 편의를 위


해 감마 분포를 따른다고 가정하고 우리가 관심 있는 (βi , δi )는 임의의 분포 G를 따른다고 가정한다;
µi ∼ Ga(aµ , bµ ), (βi , δi |G) ∼ G. 그리고 임의효과 분포 G에 DP를 걸어서 비모수적 모형을 완성하였
다; G ∼ DP(α, G0 ). 이 모형에서 A = {(β, δ)|1 < β < δ}에 속하는 (βi , δi )의 조합은 평균 결합의 개수
가 증가하는 쌍들을 의미하므로 논문에서는 A에 속하는 임의효과 (βi , δi )의 추론에 중점을 두었다. 분
석의 결과를 살펴보면, Figure 4.1에서 등고선은 임의효과 (β, δ)의 추정된 사후 평균 E(G|y)을 나타내
고 점들은 각 쌍의 임의 효과의 사후 평균 (E(β|y), E(δ|y))을 의미한다. 여기서 두 직선으로 둘러 쌓
인 우측 상단부분은 A = {(β, δ)|1 < β < δ} 사건을 나타내는데, 이를 통해 i번째 펩티드/조직 쌍의 결
합 개수가 증가할 사후 평균 확률 pi = p(Ai |y)을 추정할 수 있다. 본 논문에서는 추정된 pi 와 적절한
효용함수(utility function)를 이용하여 설정한 분계점(threshold) c를 이용해 유의하게 증가하는 경향을
가지는 펩티드/조직 쌍을 정하는 결정 규칙(decision rule) di = I(pi > c)를 설정하였다. Figure 4.2는
결정 규칙으로 선택된 펩티드/조직 쌍들의 결과를 나타낸다. 알아보기 쉽도록 각 단계의 펩티드/조직
쌍을 선으로 연결했다. 회색 선은 전체 자료를 나타내고 그 중에서 검정 선은 추론을 통해 선택된 62개
의 쌍을 나타낸다. 본 논문에서 다룬 형태의 자료를 Ji 등 (2007)은 모수적 모형을 이용하여 분석하였
는데, 실험 단계와 펩티드/조직 쌍의 결합 개수의 관계가 선형이라고 가정하고, 기울기에 해당하는 임의
효과를 3개의 정규분포의 혼합모형을 따른다고 가정한 후, 기울기를 양수, 음수, 0으로 분류하여 이 부
호가 양수인 펩티드/조직 쌍을 찾고자 하였다. 그러나 Figure 4.2의 Pair A과 같은 진동하는 자료는 이
러한 선형 증가 가정이 적합하지 않기 때문에 Leon-Novelo 등 (2013)는 각 단계마다 기울기가 다른 모
형을 가정하였다. 그리고 Ji 등 (2007)는 임의효과를 3개의 정규분포의 혼합모형을 따른다고 가정하였
는데 이는 기울기에 대한 자료의 사전적인 정보를 이용한 것이 아니며, 모수적 가정으로 인해서 특이점
이나 임의로 증가한 자료에 대해서도 결합력이 강한 펩티트/조직 쌍이라는 잘못된 결론을 낼 수도 있다.
따라서 Leon-Novelo 등 (2013)는 보다 유연한 비모수적 모형을 이용하여 임의효과 (βi , δi )의 분포를 가
880 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

Figure 4.3. Optimal partition of hospitals as K increases for (a) model A and (b) model B.

정하여 보다 정확한 추론 방법을 제시하였다.

4.2. 다중 모집단 자료의 임의효과 분포

임의효과 분포에 대한 베이지안 비모수적 분석은 여러 부분모집단(subpopulation)을 포함한 자료를 분


석할 때 특히 유용하다. 자료가 부분모집단별로 얻어졌다면, 모든 부분모집단에 공통적인 임의효과 분
포 G를 가정하기 보다는 각 부분모집단에 따라 임의효과 분포를 Gv (v = 1, . . . , V )로 (여기서 v는
부분모집단의 색인이다.) 다르게 가정하여 부분모집단의 특이성을 반영하는 것이 합리적이다. 이 때,
부분모집단을 독립적으로 설정하는 것이 아니라 부분모집단별 임의효과 분포의 집합 G = {Gv , v =
1, . . . , V }에 대한 사전분포에 부분모집단끼리의 연관성을 반영하면 부분모집단간에 정보공유가 유도되
어 보다 효과적인 추론을 할 수 있다. 이러한 구조를 모형 (4.1)에 반영하면 다음과 같다.

yvij ∼ p(yvij |µ, βvi ), j = 1, . . . , nvi , βvi |G ∼ Gv , i = 1, . . . , nv , G ∼ p(G), (4.3)

여기서 p(G)는 임의 확률 측도 집합(set of random probability measure) G에 대한 사전분포를 나타내


는데, 앞 장에서 살펴봤던 DDP를 이용할 수 있다. 그 중에서 De Iorio 등 (2004)가 제안한 ANOVA-
DDP는 임의효과들을 분산분석 구조로 설명하고 부분모집단들을 연관 짓고 있다. De la Cruz-Mesia
등 (2007)는 임신한 여성의 호르몬 측정치로 향후 새로운 임산부의 임신이 정상인지 아닌지 예측하기
위해 임산부들을 정상과 비정상 임신의 부분모집단으로 나누어 로지스틱 회귀모형과 ANOVA-DDP를
결합한 모형을 제시하였다.

예제 4.2: (심근경색 환자들의 생존자료 분석) Guglielmi 등 (2014)는 이탈리아 롬바르디아 지역의 여
러 병원에 입원한 심근경색증 환자들의 자료를 분석하여 병원들을 군집화하고 동시에 환자들의 사망유
무를 예측하기 위한 비모수적 베이지안 혼합효과 모형을 제안하였다. i번째 병원의 j번째 환자가 살아
서 퇴원할 확률 pij 에 대한 두 가지 로지스틱 회귀모형을 제시하였는데, 두 모형은 임의효과를 어떻게
모형화 하였는지에 대해 차이를 보인다. 모형A의 임의효과는 일 년 동안 병원에서 수술을 받은 환자들
의 수, zi 에 대한 단순 선형회귀구조로 가정하였다; logit(pij ) = x′ij b + β0i + β1i zi . 여기서 b는 고정
효과이고 β0i + β1i zi 는 i번째 병원의 임의효과를 의미하는데, 고정효과는 정규분포를 따르고 임의효과
Nonparametric Bayesian Statistical Models in Biomedical Research 881

Figure 4.4. Posterior predictive distributions for model A (full curve) and model B (broken curve) of the survival
probability for two patients: (a) one who was discharged alive and (b) one who died.

Table 4.1. Predictive tables of survival outcome when the classification rule is based on survival posterior 90%
CIs and threshold equal to 0.5.
Y =1 Y =0
(a) Model A
Ŷ = 1 661 8
Ŷ = 0 0 3
UC 13 12
(b) Model B
Ŷ = 1 661 8
Ŷ = 0 0 2
UC 13 13


의 분포는 ANOVA-DDP를 따른다고 가정하였다; β0i + β1i zi ∼ G, G = wh δθh (zi ) . 반면 모형B는
병원이 밀라노에 위치해 있는 유무(vi = 0, 1)에 따라 자료를 두 개의 부분모집단으로 나누고 부분모
집단에 따라 임의효과를 다르게 설정하였다; logit(pij ) = x′ij b + βvi i . 두 모형을 비교하기 위해 베이
지안 설명계수(Bayesian R2 )를 계산한 결과, 모형B(R2 = 0.57)가 모형A(R2 = 0.35)보다 자료에 더
적합하다는 것을 알 수 있었는데 이는 모형B가 더 유연한 임의효과의 사전분포를 가정했기 때문이라
고 보여진다. 먼저 군집분석의 결과를 보면, 본 논문에서는 군집화에 대한 사후 추정치를 구하기 위해
임의분할의 사후 분포에 대한 적절한 손실함수(loss function)를 정하고 이를 군집화의 특성을 나타내
는 K에 의존하게 하여 군집의 사후 추정치를 K에 따라 구하였는데, 이는 Figure 4.3에 나타나 있다.
Figure 4.3에서 같은 선으로 연결된 병원들은 같은 군집에 있다는 것을 의미하고 점으로 표시된 병원
은 단집합(singleton)을 나타낸다. K가 바뀌면 군집화의 추정치도 달라지는데 K값이 작아질수록 병원
전체는 하나의 군집을 이루고 커질수록 단집합을 이루려는 경향을 보이고 있다. 모형B로 분석한 결과
가 모형A의 결과보다 K가 달라짐에 따라 더 점진적으로 군집의 추정치가 변한다는 것을 통해 모형B가
더 세밀하게 병원들을 군집화 한다는 것을 볼 수 있다. 또한 사망유무의 예측에 대한 결과를 살펴보면,
Figure 4.4은 두 모형으로 분석한 두 환자의 생존확률 pij 의 사후 예측 분포를 나타내며, 왼쪽은 실제
로 살아서 퇴원한 환자의, 오른쪽은 입원 중에 사망한 환자에 대한 결과이다. 두 모형의 결과는 약간의
차이를 보이는데, 이는 임의효과 모형화의 차이에 따른 것으로 보이며, 그러나 전체적인 생존확률에 대
한 결과는 두 모형 다 잘 예측하고 있다. 논문에서 다루고 있는 심근경색증은 사망률이 5 ∼ 10%이므
로 사망한 환자들의 자료가 거의 없기 때문에 이러한 경우 사망하는 환자의 오분류율(misclassification
rate)이 높다. 본 논문에서는 사망할 환자의 오분류율을 낮추기 위해 예측사망확률의 사후 신뢰구간을
이용한 예측 방법을 제시하였는데, Table 4.1에 예측 결과가 요약되어 있다. Y 는 실제 환자의 상태이
882 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

Table 5.1. Estimated regression coefficients (times 100) for Type II diabetes example.
Predictor β̂SLM β̂NLM β̂L1 β̂EL β̂LMR β̂QR
TC 0.55 (0.11, 0.73) 0.74 (0.25, 1.20) 0.75 0.75 0.29 0.01
SG 2.11 (1.75, 2.48) 2.82 (2.5, 3.15) 2.83 2.82 2.99 3.23
HDL −0.50 (−1.4, 0.015) −0.36 (−1.61, 0) −1.02 −1.02 −0.42 0
Age 0.34 (−0.06, 1.3) 0.98 (0, 2.35) 1.19 1.19 0.57 0.04
Gender −3.72 (−30.12, 4.39) −1.53 (−25.46, 3.22) −19.66 −19.81 −7.87 −0.86
BMI(overwt) 1.55 (−9.43, 24.03) 2.04 (−3.33, 29.53) 4.33 4.27 15.12 1.84
BMI(ovese) −0.74 (−20.33, 13.44) −0.91 (−21.93, 6.14) −14.88 −15.03 8.16 0.62
SBP 0.53 (0, 1.35) 0.03 (−0.13, 0.65) 0.25 0.25 0.56 0.009
DBP −0.03 (−0.99, 0.69) 0 (−0.45, 0.45) 0.018 0.017 −0.55 0.002
WHR 224.27 (67.72, 381.88) 3.16 (−44.74, 91.4) 90.47 91.53 90.79 129.23
PPT 21.42 (1.89, 57.49) 33.04 (0, 80.39) 47.31 47.32 37.55 18.99

고 Yb 는 모형을 이용해 예측한 상태이다. 환자의 상태를 사망 유무로만 예측했던 기존의 방법과는 달
리 환자들을 살아서 퇴원하는(Yb = 1), 병원에서 사망하는(Yb = 0), 그리고 불확실한 상태(uncertainty
class)로 나누었다.

5. 회귀분석

실험단위 i = 1, . . . , n에 대해, 반응변수 yi , 설명변수 xi 그리고 오차가 ϵi ∼ p(ϵi )인 다음의 간단한 회


귀모형을 생각해보자.

yi = f (xi ) + ϵi . (5.1)

모수적 회귀분석에선 회귀평균함수(regression function) f ( · )와 오차분포(error distribution) p( · )를


유한차원의 모수벡터 θ로 모형화 하는데, 다시 말해, f (x) = fθ (x) 그리고 p(ϵ) = pθ (ϵ)와 같이 가정
한다. 그러나 실제 자료를 분석할 때, 많은 경우에 모수적 모형은 제한적이기 때문에 비모수적 모형으
로 확장할 필요가 있다. 크게 세 가지 방향의 확장을 고려할 수 있는데, 첫째는 오차분포에 대한 모수적
가정을 완화하는 것이고, 둘째는 회귀평균함수의 모수적 가정을 완화하는 것이며, 마지막으로 두 가지를
동시에 고려하는 조건부분포 회귀모형을 사용하는 것이다. 본 장에서는 비모수 베이지안 회귀모형을 이
세가지 관점에서 소개하고자 한다.

5.1. 오차분포의 비모수적 모형화

Kundu와 Dunson (2014)은 베이지안 변수선택을 고려한 기존의 모수적 선형회귀모형에서 오차의 분포
를 DPM으로 설정하는 다음의 모형을 제시하였다.

Yi = x′γ,i β γ + ϵi , ϵi ∼ f, for i = 1, · · · , n,

( ) ( )
f ( · ) = N ·; α, τ −1 dG(α), G ∼ DP(m, G0 ), G0 = N 0, τ −1 (5.2)

모형 (5.2)에서 γ는 {γj , j = 1, . . . , p}로써 고려대상인 p개의 설명변수 각각에 대해 변수선택여부를


나타내는 지표이고, 절편(intercept)값은 ϵi 에 포함시켜 모형화 하기에 x′γ,i 는 절편을 포함하지 않는다.
Kundu와 Dunson (2014)은 DPM모형을 MCMC를 통해 추정하는 과정에서 각 반복(iteration)마다 자
Nonparametric Bayesian Statistical Models in Biomedical Research 883

Table 5.2. Marginal inclusion probabilities for SLM, NLM, QR in Type II diabetes data.
Predictor TC SG HDL Age Gender BMI(overwt) BMI(obese) SBP DBP WHR PPT
MIPSLM 0.97 1.00 0.64 0.43 0.17 0.15 0.22 0.72 0.23 0.93 0.64
MIPNLM 0.98 1.00 0.39 0.67 0.12 0.13 0.11 0.14 0.10 0.13 0.68
MIPQR 0.02 1.00 0.002 0.03 0.08 0.10 0.08 0.01 0.004 0.71 0.42

Figure 5.1. Residual density for Type II Diabetes study under semiparametric linear model. Dashed lines repre-
sent 95% posterior confidence interval.

연스럽게 형성되는 군집 할당 결과로 n × k 행렬 A를 구성한 뒤, 이를 Zellner의 g-사전분포 (Zellner,


1986)에 반영하여, β γ 에 대한 새로운 사전분포를 제시하였다.

예제 5.1: (당뇨병 관련 자료 분석) Kundu와 Dunson (2014)은 모형 (5.2)를 아프리카계 미국인들의


2형 당뇨병 관련자료를 분석하였는데, 2형 당뇨병 발병과 관련 있는 중요변수들을 찾아내면서 동시에
각 변수가 발병에 미치는 영향의 정도를 알아내기 위해 당화헤모글로빈 밀도를 반응변수로 회귀분석
을 실시한다. 설명변수로는 총 콜레스테롤 수치(total cholesterol; TC), 안정된 포도당 수치(stabilized
glucose; SG), 고밀도지질단백질(high-density lipoprotein; HDL), 나이(age), 성별(gender), 체질량지
수(body mass index; BMI), 수축기 혈압(systolic blood pressure; SBP), 이완기 혈압(diastolic blood
pressure; DBP), 허리와 엉덩이 둘레비율(waist-to-hip ratio; WHR) 그리고 식사 직후인지 아닌지에
관한 지표(postprandial time indicator; PPT)를 사용하였다. Table 5.1은 여섯 가지 모형 하에서 각
변수들의 회귀계수 추정결과를 나타내는데, 편의상 추정 값의 100배를 표기하였다. 여기서 여섯 가지
모형은 논문에서 제안한 모형(semiparametric linear model; SLM), 일반적으로 사용되는 베이지안 모
수적 정규 선형 회귀모형(normal linear model; NLM), 라소 모형(Lasso, L1), Elastic net 모형(EL),
MM-형 회귀 추정모형(LMR), 확률적 탐색 변수선택을 이용한 중앙값 회귀모형(QR)이고, 뒤의 네 가
지 모형에 대한 출처는 Kundu와 Dunson (2014)의 4장을 참고한다. 분석 결과에서 가장 관심 있는 점
은 회귀분석에 통상적으로 사용되는 베이지안 모수적 모형인 NLM과 오차분포 가정을 완화한 SLM간
의 추정결과 비교인데, 각 설명변수의 주변 포함 확률(marginal inclusion probability; MIP)을 나타
낸 Table 5.2를 보면, 두 가지 모형에서 MIP값을 기준으로 판단된 중요변수가 다른 것을 확인할 수 있
다. 구체적으로 설명변수 TC, SG, PPT는 두 가지 모형 모두에서 중요변수로 나타났지만, SBP, HDL,
WHR은 SLM에서만 Age는 NLM에서만 중요변수로 나타났다. 두 가지 모형의 가장 큰 차이점이 오차
분포에 대한 가정이며, Figure 5.1을 살펴보면, 추정된 오차가 우측으로 왜도가 있는 꼬리가 두꺼운 분
포를 따른다는 것을 볼 때, 오차분포를 정규분포로 가정하는 NLM보다 제안된 모형 SLM의 추정결과가
884 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

더 신뢰할만하다는 것을 알 수 있다. 그 외의 여러 가지 기준(평균 오차 제곱합, 예측 오차 등)으로 모형


을 비교한 결과를 보아도 SLM이 최적모형으로 선택되었음을 알 수 있다.

5.2. 회귀평균함수의 비모수적 모형화

본 절에서는 회귀모형 식 (5.1)에서 오차분포는 알려진 모수적 분포로 가정하되, 미지의 회귀평균함수
f 를 비모수적으로 모형화 하는 방법을 소개한다. 크게 두 가지 접근방식이 많이 사용되는데, 하나는 기
저함수 확장을 이용한 방식이고, 다른 하나는 가우스 확률과정(Gaussian process; GP) 사전분포를 이
용한 방식이다.
첫번째 방식은 f 를 아래 식 (5.3)처럼 기저함수확장(basis function expansion)으로 설정하고, 기저함
수들의 계수에 불확실성을 부여하여 f 에 사전분포를 설정하는 방법이다. 기저함수 {ϕj }들에 대해 (한
예로 L2 -함수들), 특정 함수공간의 어떤 함수도 기저함수확장으로 표현이 가능하다.

f( · ) = dh ϕh ( · ). (5.3)
h

함수들이 특정 기저함수들의 조합으로 결정되기 때문에 {dh }에 사전분포를 부여함으로써 f 의 사전분


포를 정의할 수 있다. Vidakovic (1998)은 계산적으로 많은 장점을 가지는 웨이블릿 기저를 제안했
다. Barnes 등 (2003)는 케페우스형 변광성의 위상과 시선속도의 비선형 관계를 웨이블릿 기저함수를
이용하여 회귀평균함수를 모형화 한 비모수 회귀분석을 실시하였다. 웨이블릿 함수 외에도 Baladan-
dayuthapani (2005)는 벌점회귀 스플라인(P-스플라인) 기저를 이용한 임의 함수모형을 제시했다. 이
외에도 자연삼차 스플라인, 삼차 B-스플라인 등을 이용한 모형들이 있다. Brown 등 (2005)는 B-스플
라인들의 기저함수확장을 사용한 비모수 베이지안 회귀분석으로 다시점 자료 및 생존자료의 혼합모형
을 제시하였는데, Rice와 Wu (2001)에 소개된 다시점 삼차 B-스플라인 모형을 시점 외의 다른 설명변
수(치료법의 종류)를 포함한 베이지안 B-스플라인 모형으로 일반화한 뒤, 이를 생존모형과 결합한 혼합
모형을 제시하였다.
두번째 방식은 회귀평균함수 f 의 사전분포로 GP를 사용하는 방법이다. 임의 함수 f (x) (x ∈ Rd )가
GP 사전분포를 갖는다는 것은 임의의 유한집합 xi ∈ Rd , i = 1, . . . , n에 대해 각 점에서 계산된 함
수값들이 다변량 정규분포를 따른다는 것이다. 이를 식으로 표현해보면 다음과 같은데, f ∗ (x) (x ∈
Rd )를 주어진 함수, r(x1 , x2 ) (x1 , x2 ∈ Rd )를 공분산 함수라고 할 때, f ∼ GP(f ∗ (x), r(x, y))는
(f (x1 ), . . . , f (xn ))′ ∼ N ((f ∗ (x1 ), . . . , f ∗ (xn )), R)를 의미한다. 여기서 R은 i행 j열 성분이 r(xi , xj )인
n × n 행렬을 의미한다. 따라서 회귀분석의 오차에도 정규성을 가정한다면, 다변량 정규분포의 성질에
의해 f = (f (x1 ), . . . , f (xn ))의 사후분포 또한 다변량 정규분포를 따른다. 또한 새로운 위치(자료에 기
록되지 않은) xn+i 에서의 예측 함수값 또한 다변량 정규분포를 따르게 된다. GP 회귀분석을 이용한 최
근 생물학 응용 연구로는 Liu 등 (2010)의 유전자 윤곽 분석(profile analysis)을 들 수 있다.

5.3. 조건부 분포 회귀모형

회귀분석을 일반적인 관점에서는 ‘조건부 분포의 추정’으로 볼 수 있는데, 임의의 설명변수 x가 변할


때, 각 x에 해당하는 반응변수 y의 조건부 확률분포를 추정하는 것으로 생각할 수 있다. 이에 대한 비
모수적 베이지안 접근방식은 y|x ∼ Gx (y) 그리고 g = {Gx (y), x ∈ X}를 가정하고, g가 비모수 사전
분포 p(g)를 따른다고 모형화하는 것이 된다. 이 모형은 5.1절에 소개한 오차분포를 비모수적으로 가정
하는 회귀모형과 5.2절에 소개한 회귀평균함수를 비모수적으로 가정하는 회귀모형을 종합적으로 고려하
는 모형이라 할 수 있는데, Gx 는 x에 따라 평균뿐만 아니라 분산, 왜도, 첨도 등이 함께 변하는 임의의
Nonparametric Bayesian Statistical Models in Biomedical Research 885

Figure 5.2. Cancer clinical trial. Posterior survivor functions using the AFT median regression model (panel a)
and using the ANOVA DDP model (panel b). Curves are estimated for tumor size 2.0cm (first quartile). In both
plots, the solid line refers to a low treatment dose and negative ER status. The dashed line corresponds to a high
treatment dose and negative ER status, while the long dashed line shows the survival for a patient in the low dose
group but with positive ER status. Note the almost vanishing difference between the solid and the dashed line.
Panel (c) shows the data as a KM plot arranged by dose and ER status.

분포이기 때문이다. g에 대한 대표적인 사전분포로 MacEachern (1999)이 최초로 제안한 DDP가 있는


데, 이는 DP 사전분포를 따르는 임의 확률측도 G의 막대분할 표현방식을 확장하여 임의 확률측도 모임
g가 특정 사전분포 p(g)를 따르도록 한 모형이다. 이를 DP의 막대분할 표현방식으로 적어보면 다음과
같다.


Gx (θ) = πh δθ̃h (x) (θ), (5.4)
h=1

여기서 θ̃h (x) ∼ G∗x 가 h들을 기준으로 독립적이고, πh = vh Πl<h (1 − vl )일 때, vh ∼ Be(1, M )들 또한


독립적이면, Gx 는 DP(M, G∗x )을 따르게 된다. 식 (5.4)에서 {θ̃h (x)}x∈X 의 사전분포를 x에 의존하는
확률과정으로 설정하여, 종속적 임의 확률측도 Gx 를 형성할 수 있다. 보다 일반적인 DDP의 경우 가중
치 πh 에도 x에 대한 종속성을 부여하는데, 계산의 편리성을 위해 (5.4)와 같이 위치에만 종속성을 부여
한 DDP모형이 응용연구에서 많이 사용되었다. DDP 이외에도 설명변수 x에 의존하는 임의분포 집합
g에 대한 다양한 사전분포와 각 모형의 특징은 2.2절을 참고하기로 한다.

예제 5.2: (유방암 임상시험의 생존자료 분석). De Iorio 등 (2009)는 비례 위험(proportional odds)


가정을 만족하지 않는 생존분석자료에 DDP를 이용한 비모수 베이지안 회귀모형을 제시했다. 자료
는 암 임상시험에서 얻어졌으며, 761명의 여성의 무병 생존시간이 월 단위로 기록되어 있는데, 이 중
n0 = 400명에 대한 자료는 중도절단(censored) 되어 있다. 본 연구의 관심사는 치료약의 복용량에 따
라 암 치료의 효과가 달라지는지를 알아보는 것이다. 분석에서 사용된 설명변수는 치료약 복용량(TRT)
(−1 =적음, 1 =많음), 에스트로겐 수용체(ER) 상태 (−1 =음성, 1 =양성), 종양의 크기 (평균 0, 분산
1로 표준화), TRT/ER 상호작용 (높은 치료약 복용량과 동시에 수용체 상태가 양성이면 1, 그렇지 않
으면 0))이다. 각각의 환자에 대해 생존시간을 반응변수 ti , 설명변수들을 벡터 xi 라 하고 다음의 혼합
모형을 설정하였다.

( ) ( )
fxi =x (ti |Gx ) = f ti |µ, σ 2 dGx µ, σ 2 ,

{Gx , x ∈ X} ∼ LINEAR DDP(M, G0 ). (5.5)


886 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

모형 (5.5)에서 LINEAR DDP란 ANOVA-DDP(De Iorio et al. (2004))의 한 종류인데, 설명변수에


연속변수가 추가됐을 때, 이 변수에 대한 종속성을 선형항(linear-term)을 추가하여 부여한 형태이다.
Figure 5.2의 (a)는 카플란-마이어(KM) 곡선으로써 생존확률곡선에 대한 경험적 추정치를 보여준다.
Figure 5.2의 (b)는 ANOVA-DDP 혼합모형 하에서의 추정결과를 보여준다. 기존 모형과의 비교를 위
해, Figure 5.2의 (c)는 Hanson과 Johnson (2002)이 제시한 오차분포에 PT 혼합모형을 설정한 준모수
적 가속된 파괴시점(Accelerated Failure Time; AFT) 중앙값 회귀분석 모형 하에서의 추정결과를 보
여준다. 참고로 Figure 5.2의 (b)와 (c)는 평균크기의 종양을 가지는 환자들에 대한 추정결과를 나타낸
다 (이로 인해 (a)의 KM 곡선과 (b)와 (c)의 추정결과들이 차이를 보임). (b)에 나타난 ANOVA-DDP
혼합모형이 KM 곡선에서도 나타난 생존곡선들의 교차패턴을 (c)와 달리 잘 추정한다는 것을 확인할 수
있다. 일반적으로 암 임상시험 자료에서 약물 복용량이 높은 환자들과 낮은 환자들의 생존곡선은 교차
패턴을 보일 수 있는데, 기존에 생존분석에서 많이 사용되는 모수적 모형들로는 이러한 패턴을 설명할
수 없지만, 본 논문에서 제시된 ANOVA-DDP 혼합모형은 모수적 가정을 완화함으로써 이러한 불규칙
적인 패턴을 잘 설명한다는 것을 알 수 있다.

6. 결론

본 논문에서는 생명/보건/의학 연구를 위한 비모수적 베이지안 통계모형들을 리뷰 하였다. 특별히 모수


적 통계모형으로 분석하기에 제약이 있는 생명/보건/의학 연구 자료의 예제들을 중심으로 그 예제들에
서 비모수적 통계모형이 어떻게 사용되고, 모수적 모형에 비해 어떤 장점들이 있는지를 소개하였다. 사
실, 대부분의 예제들은 충분히 복잡한 모수적 통계모형으로(예: 유한혼합모형 (finite mixture)) 분석한
다면 비모수적 통계모형에서와 비슷한 결과를 얻을 수도 있다. 그러나 어느 정도가 충분히 복잡한지에
대한 기준을 정하는 것이 애매하고, 통계적인 추론과정이 모수적 모형이라고 해서 비모수적 모형과 비교
해 더 간단하지 않다는 점에서 비모수적 통계모형의 유용성이 강조된다.
비모수 베이지안 통계모형과 관련하여 본 논문에서는 논의되지 않은 두 가지 중요한 이슈가 있다. 첫
째는 사후표본 추출을 위한 계산이 이론적으로 무한차원의 모수벡터를 가정하는 비모수적 모형에서 때
때로 복잡해 질 수 있다는 점이다. 계산과 관련해서는 모형에 따라 그 복잡성과 해결방법이 다르므로,
각 예제와 관련한 논문을 참고하기로 한다. 둘째로, 비모수적 베이지안 통계모형을 통한 추론의 점근적
성질에 대한 것인데, 사실 이 부분은 아직 많은 연구가 되어 있지 않다. 단, 가장 많이 사용되는 DP와
DPM에 대한 사후점근적 성질에 대한 것은 Ghosal (2010)을 참고한다.

References

Baladandayuthapani, V., Mallick, B. K. and Carroll, R. J. (2005). Spatially adaptive Bayesian penalized
regression splines(P-splines), Journal of Computational and Graphical Statistics, 14, 378–394.
Barnes, T. G., Jefferys, W. H., Berger, J. O., Muller, P., Orr, K. and Rodriguez, R. (2003). A Bayesian analysis
of the Cepheid distance scale, The Astrophysical Journal, 592, 539.
Blackwell, D. and MacQueen, J. B. (1973). Ferguson distributions via Polya urn schemes, Annals of Statistics,
1, 353–355.
Blei, D. M., Ng, A. Y. and Jordan, M. I. (2003). Latent Dirichlet allocation, Journal of machine Learning
research, 3, 993–1022.
Brown, E. R., Ibrahim, J. G. and DeGruttola, V. (2005). A flexible B-spline model for multiple longitudinal
Biomarkers and survival, Biometrics, 61, 64–73.
Bush, C. A. and MacEachern, S. N. (1996). A semiparametric Bayesian model for randomized block designs,
Biometrika, 83, 275–285.
Nonparametric Bayesian Statistical Models in Biomedical Research 887

Dahl, D. B. (2006). Model-based clustering for expression data via a Dirichlet process mixture model, In
Vannucci, M., Do, K. A. and Müller, P. (eds.), Bayesian Inference for Gene Expression and Proteomics,
Cambridge University Press.
De Iorio, M., Müller, P., Rosner, G. L. and MacEachern, S. N. (2004). An ANOVA model for dependent
random measures, Journal of the American Statistical Association, 99, 205–215.
De Iorio, M., Johnson, W. O., Müller, P. and Rosner, G. L. (2009). Bayesian nonparametric non-proportional
hazards survival modeling, Biometrics, 65, 762–771.
De la Cruz, R., Quintana, F. A. and Müller, P. (2007). Semiparametric Bayesian classification with longitu-
dinal markers, Applied Statistics, 56, 119–137.
Dunson, D. B. and Park, J. H. (2008). Kernel stick-breaking processes, Biometrika, 95, 307–323.
Dunson, D. B., Pillai, N. and Park, J. H. (2007). Bayesian density regression, Journal of the Royal Statistical
Society, Series B, 69, 163–183.
Dunson, D. B. (2010). Nonparametric Bayes applications to Biostatistics, Bayesian Nonparametrics, Chap-
ter 7, Cambridge University Press.
Escobar, M. D., (1994). Estimating normal means with a Dirichlet process prior, Journals of the American
Statistical Association, 89, 268–277.
Ferguson, T. S. (1973). A Bayesian analysis of some nonparametric problems, The Annals of Statistics, 1,
209–230.
Ferguson, T. S. (1974). Prior distributions on spaces of probability measures, The Annals of Statistics, 2,
615–629.
Guglielm, A., Ruggeri, F. and Soriano, J. (2014). Semiparametric Bayesian models for clustering and clas-
sification in the presence of unbalanced in-hospital survival, Journal of the Royal Statistical Society,
Series C, 63, 25–46.
Guindani, M., Sepulveda, N., Paulino, C. D. and Müller, P. (2012). A Bayesian Semi-parametric approach for
the differential analysis of sequence counts data, Technical report, M. D. Anderson Cancer Center.
Hanson, T. E. and Johnson, W. O. (2002). Modeling regression error with a mixture of Polya trees, Journal
of the American Statistical Association, 97, 1020–1033.
Hartigan, J. A. (1990). Partition models, Communications in Statistics: Theory and Methods, 19, 2745–
2756.
Ishwaran, H. and James, L. F. (2001). Gibbs sampling methods for stick-breaking priors, Journal of the
American Statistical Association, 96, 161–173.
Ji, Y., Yin, G., Tsui, K. W., Kolonin, M. G., Sun, J., Arap, W., Pasqualini, R. and Do, K. A. (2007). Bayesian
mixture models for complex high dimensional count data in phage display experiments, Journal of the
Royal Statistical Society, Series C: Applied Statistics, 56, 139–152.
Kleinman, K. and Ibrahim, J. (1998a). A Semi-parametric Bayesian approach to the random effects model,
Biometrics, 54, 921–938.
Kleinman, K. and Ibrahim, J. (1998b). A Semi-parametric Bayesian approach to generalized linear mixed
models, Statistics in Medicine, 17, 2579–2596.
Kormaksson, M., Booth, J. G., Figueroa, M. E. and Melnick, A. (2012). Integrative model-based clustering of
microarray methylation and expression data, Annals of Applied Statistics, 6, 1327–1347.
Kundu, S. and Dunson, D. B. (2014). Bayes variable selection in semiparametric linear models, Journal of
the American Statistical Association, 109, 437–447.
Leon-Novelo, L. G., Müller, P., Arap, W., Kolonin, M. Sun, J., Pasqualini, R. and Do, K. A. (2013). Semipara-
metric Bayesian inference for phage display data, Biometrics, 69, 174–183.
Liu, Q., Lin, K. K., Andersen, B., Smyth, P., and Ihler, A. (2010). Estimating replicate time shifts using
Gaussian process regression. Bioinformatics, 26, 770–776.
Longnecker, M. P., Klebanoff, M. A., Zhou, H. and Brock, J. W. (2001). Association between maternal serum
concentration of the DDT metabolite DDE and preterm and small-for-gestational-age babies at birth,
Lancet, 358, 110–114.
MacEachern, S. (1994). Estimating normal means with a conjugate style Dirichlet process prior, Commu-
nications in Statistics: Simulation and Computation, 23, 727–741.
MacEachern, S. (1999). Dependent nonparametric processes, in ASA Proceedings of the Section on Bayesian
Statistical Science, American Statistical Association.
888 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung

Mukhopadhyay, S. and Gelfand, A. (1997). Dirichlet process mixed generalized linear models, Journal of the
American Statistical Association, 92, 633–639.
Müller, P., Erkanli, A. and West, M. (1996). Bayesian curve fitting using multivariate normal mixtures,
Biometrika, 83, 67–79.
Müller, P. and Rosner, G. (1997). A Bayesian population model with hierarchical mixture priors applied to
blood count data, Journal of the American Statistical Association, 92, 633–639.
Müller, P., Quintana, F. and Rosner, G. (2007). Semiparametric Bayesian inference for multilevel repeated
measurement data, Biometrics, 63, 280–289.
Müller, P., Quintana, F. and Rosner, G. L. (2011). A product partition model with regression on covariates,
Journal of Computational and Graphical Statistics, 20, 260–278.
Quintana, F. A. (2006). A predictive view of Bayesian clustering, Journal of Statistical Planning and In-
ference, 136, 2407–2429.
Rice, J. A. and Wu, C. O. (2001). Nonparametric mixed effects models for unequally sampled noisy curves,
Biometrics, 57, 253–259.
Rodriguez, A., Dunson, D. B. and Gelfand, A. E. (2008). The nested Dirichlet process, Journal of the
American Statistical Association, 103, 1131–1154.
Rodriguez, A. and Dunson, D. B. (2011). Nonparametric Bayesian models through probit stick-breaking
processes, Bayesian Analysis, 6, 145–178.
Sethuraman, J. (1994). A constructive definition of Dirichlet priors, Statistica Sinica, 4, 639–650.
Teh, Y. W., Jordan, M. I., Beal, M. J., & Blei, D. M. (2006). Hierarchical Dirichlet processes, Journal of the
American statistical association, 101, 1566–1581.
Vidakovic, B. (1998). Nonlinear wavelet shrinkage with Bayes rules and Bayes factors, Journal of the Amer-
ican Statistical Association, 93, 173–179.
Walker, S. and Mallick, B. (1997). Hierarchical generalized linear models and frailty models with Bayesian
nonparametric mixing, Journal of the Royal Statistical Society, 59, 845–860.
Zellner, A. (1986). On assessing prior distributions and Bayesian regression analysis with g-prior distribu-
tions, In Bayesian Inference and Decision Techniques: Essays in Honor of Bruno de Finetti, (eds. P. K.
Goel and A. Zellner), 233–243, North-Holland/Elsevier.
Nonparametric Bayesian Statistical Models in Biomedical Research 889

생물/보건/의학 연구를 위한 비모수 베이지안


통계모형
노희상a · 박진수a · 심규석a · 유재은a · 정연승a,1
a
한국과학기술원 수리과학과

(2014년 10월 27일 접수, 2014년 11월 27일 수정, 2014년 12월 1일 채택)

요약
비모수 베이지안 통계 모형은 그 유연성과 계산의 편리성으로 인해 최근 다양한 분야에서 응용되고 있는데, 본 논문
에서는 생물/의학/보건 연구에서 사용되는 비모수 베이지안 통계 모형에 대해서 개괄하였다. 본 논문에서는 비모수
베이지안 통계 모델링에서 핵심적으로 사용되는 확률모형들을 소개하고, 다양한 예제들을 통하여 그 모형들이 어떻
게 사용되는지 이해를 돕도록 하였다. 특별히, 논의된 예제들은 모수적 통계 모형으로 고찰하기에는 한계가 있는 연
구가설들을 포함하고 있어 모수적 모형의 한계점을 지적하고 비모수적 베이지안 모형의 필요성을 강조하는 것들로
정하였다. 크게 확률밀도함수 추정, 군집분석, 임의효과 분포의 추정, 그리고 회귀분석의 4가지 주제로 분류하여 살
펴보았다.

주요용어: 비모수 베이지안, 디리슈레 확률과정, 확률밀도함수의 추정, 군집분석, 임의효과 분포, 회귀
분석.

1 교신저자: (305-701) 대전광역시 유성구 대학로 291, 한국과학기술원 수리과학과. E-mail: dolyura@kaist.edu

You might also like