Professional Documents
Culture Documents
정연승
정연승
정연승
867
27(6), 867–889
Heesang Noha · Jinsu Parka · Gyuseok Sima · Jae-eun Yua · Yeonseung Chunga,1
a
Department of Mathematical Sciences, Korea Advanced Institute of Science and Technology
(Received October 27, 2014; Revised November 27, 2014; Accepted December 1, 2014)
Abstract
Nonparametric Bayesian (np Bayes) statistical models are popularly used in a variety of research areas be-
cause of their flexibility and computational convenience. This paper reviews the np Bayes models focusing on
biomedical research applications. We review key probability models for np Bayes inference while illustrating
how each of the models is used to answer different types of research questions using biomedical examples.
The examples are chosen to highlight the problems that are challenging for standard parametric inference
but can be solved using nonparametric inference. We discuss np Bayes inference in four topics: (1) density
estimation, (2) clustering, (3) random effects distribution, and (4) regression.
Keywords: Nonparametric Bayes, Dirichlet process, density estimation, clustering, random effects distribu-
tion, regression.
1. 서론
모형은 디리슈레 확률과정(Dirichlet process; DP)이다 (Ferguson, 1973, 1974). DP는 임의의 확률
분포 G에 대한 사전분포로, 임의의 확률 분포 G가 DP를 따를 때 G ∼ DP(α, G0 )로 표기하며, 여기
서 α와 G0 은 DP를 결정짓는 두 모수를 나타낸다. α는 질량모수(mass parameter)로써 G의 불확실
성을 나타내며, G0 은 기저분포(base measure)로 E(G) = G0 를 만족한다. DP에서 추출한 G는 임의
의 가측집합 A에 대해 G(A) ∼ Beta(αG0 (A), α(1 − G0 (A)))를 만족하고, 이를 확장하여, 임의의 분
할 {A1 , A2 , . . . , Ak }에 대하여 (G(A1 ), . . . , G(Ak ))는 Dir(αG0 (A1 ), . . . , αG0 (Ak ))를 따른다. DP를
표현하는 방법 중 가장 널리 알려진 것으로 막대분할 표현방식(stick-breaking representation)이 있다
(Sethuraman, 1994). 막대분할 표현방식에 따르면 DP에서 추출된 임의의 확률분포 G는 다음처럼 표
현된다.
∑
∞
i.i.d.
G(θ) = πh δθ̃h ( · ), θ̃h ∼ G0 , (1.1)
h=1
∏
여기서 δx ( · )는 x가 중심인 퇴화분포(point mass)이며, πh = νh l<j (1 − νl ), νh ∼ Beta(1, α)이다.
식 (1.1)에서 보듯이 DP에서 추출된 임의의 분포 G는 연속이 아닌 이산분포로, 퇴화분포의 무한합으
로 표현된다. DP의 이산성은 연속형 변수의 분포를 모형화하는데 부적절하지만 이는 혼합모형을 통해
쉽게 해결할 수 있다. 오히려 DP의 이산성은 자료의 임의분할을 유도하여 군집분석에서 매우 유용하게
사용된다. DP를 따르는 G로부터 추출된 θi 는 동일한 값을 가지는 θi 끼리 묶이게 되며, 그 각각의 묶음
들을 군집이라고 정의할 수 있기 때문이다.
임의분포 G에 대한 사전분포로 DP 이외에도 다양한 모형이 제시되었는데, DP가 비모수 베이지안
통계모형에서 가장 많이 사용되는 이유는 첫째로 계산적으로 단순하다는 것과 둘째로 식 (1.1)의 구
조를 변형하여 보다 일반적인 모형으로의 확장이 매우 용이하기 때문이다 (Dunson, 2010). 임의의
변량 θi 의 분포를 G로 가정하고, G가 DP를 따른다고 했을 때, G에 대한 해석적 주변화(analytical
marginalization)를 통해, θi 의 주변 분포를 구할 수 있다. 이를 Polya Urn scheme이라고 부르
며 (Blackwell과 MacQueen, 1973), 이는 사후표본 추출을 위한 계산과정을 매우 간단하게 한다
(MacEachern, 1994). Polya Urn scheme에 의존하지 않더라도, 식 (1.1)의 표현에 근거해 G에 대
한 사후표본 추출이 가능한데, 이러한 사후표본추출 방법은 blocked Gibbs sampling이라고 부르며
(Ishwaran과 James, 2001), Polya Urn scheme에 기초한 표본추출보다 훨씬 빠른 속도의 계산이 가능
하다. 또한 식 (1.1)의 구조는 여러 방향으로의 확장이 용이한데, 대표적으로 설명변수에 의존하는 임의
의 분포 집합에 대한 사전분포로의 확장이나, 그룹별로 얻어진 자료분석을 위해 그룹별 임의분포에 대한
사전분포로의 확장이 가능하다. 설명변수에 의존하는 임의분포는 조건부함수의 추정이나 비모수 베이
지안 회귀분석에서 사용되며, 혹은 군집분석에서 설명변수의 영향을 반영할 때도 사용된다. 그룹별 임
의분포는 부분모집단별로 자료의 분포함수나 임의효과의 분포함수를 추정할 때 사용되고, 또는 계층적
군집분석에 응용된다.
본 논문에서는 생물/보건/의학 연구를 위해 사용되는 DP와 DP 확장모형을 중심으로 한 비모수 베이
지안 통계모형을 다음의 네 가지 주제별로 살펴보았다. 먼저 2장에서는 자료의 확률밀도함수 추정을 위
한 모형들을 소개하였다. 3장에서는 비모수 베이지안 통계모형을 이용한 군집분석 방법들을 소개하였
다. 4장에서는 임의효과분포의 추정을 다루었고, 마지막으로 5장에서는 비모수 베이지안 회귀분석 방법
에 대해 소개하였다.
2. 확률밀도함수 추정
주어진 자료의 확률밀도함수를 추정하고자 할 때, 모수적 방법은 먼저 자료가 특정한 모수적 분포를 따
Nonparametric Bayesian Statistical Models in Biomedical Research 869
Table 2.1. Number of TCR(T-cell receptors) types distribution. The number f0 of TCR that were not observed
in the sample (yi = 0) is censored.
yi = j 0 1 2 3 4 5이상
도수 fj - 37 11 5 2 0
른다고 가정하고, 그 분포의 모수를 추정한다. 베이지안 추정의 경우 모수에 사전분포를 설정하여 표본
분포와 결합한 후 사후분포를 유도하여 모수를 추정한다. 그러나 이러한 모수적 가정은 자료의 특성을
지나치게 단순화시켜 잘못된 추정의 결과를 초래한다. 비모수적 베이지안 방법은 이러한 모수적 방법의
한계점을 극복하기 위해, 자료의 확률밀도함수를 특정 모수적 분포가 아닌 임의의 분포로 설정하고, 이
분포 자체에 사전분포를 설정하여 보다 유연한 추정을 가능하게 한다. 본 단원에서는 비모수 베이지안
통계모형을 통한 확률밀도함수의 추정에 대해 소개한다.
예제 2.1: (T세포의 다양성) Guindani 등 (2012)는 T세포의 수용기(T-cell receptors; TCR) 타입의
개수에 대한 분포를 추정하기 위하여 DPM를 사용하였다. TCR 타입의 종류가 얼마나 되는지 아는 것
은 면역 체계가 어떤 식으로 반응하는지 이해하는 데 매우 중요한 역할을 한다. yi 를 i번째 TCR 타
입이 T세포에서 발견된 개수라 하고, yi ∼ F, i = 1, . . . , n에 대해 F 를 추정하고자 하였는데, 희귀한
TCR 타입은 실험을 통해 관찰되지 않을 수 있기 때문에, 이러한 TCR 타입, 즉 yi = 0인 자료는 관찰
이 불가능하다. Table 2.1은 분석에 사용된 자료로 fj 는 각각 건강한 쥐의 집단에서 측정된 TCR 타입
의 개수가 j인 빈도를 나타낸다. Guindani 등 (2012)는 F 를 추정함으로써 F (0), 즉 실험에서 발견되지
∑
않은 TCR 타입의 종류의 총 갯수를 추정하고, 4j=0 fj , 즉 TCR 타입의 종류의 분포에 대해 추정하고
자 하였다. 이들은 Table 2.1의 자료가 단일 포아송 분포를 따른다고 가정하는 것은 제한적이라고 판단
870 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung
Figure 2.1. (a) shows the data (as pin plot) and a posterior sample F ∼ p(F |y) under a DP mixture prior (grey
∑4
curves) and the posterior estimate F̄ = E(F |y) (black curve). (b) shows the implied posterior p(N = j=0 fj |y)
on the total number of T-cell types.
하고, 포아송 분포의 DPM을 가정하였다. 즉, yi 가 포아송 분포를 따른다고 가정하고, 모수 λi 가 DP를
따르는 임의의 분포 G를 따른다고 설정하였다.
Figure 2.1-(a)의 검은 곡선은 F 의 사후 분포의 평균을 나타내며, Figure 2.1-(b)는 T세포 타입의 종류,
∑
즉 4j=0 fj 의 사후분포를 나타낸다.
∏ i.i.d.
이라고 정의하고, 여기서 πh = νh l<h (1 − νl ), νh ∼ Beta(1, α)이다. 식 (2.4)은 DDP의 막대분할
표현방식을 나타내는데, 가중치와 퇴화분포 모두가 x에 종속적일 경우 모형이 지나치게 복잡해 질 수 있
으므로, 일반적으로 퇴화분포만 x에 종속되도록 설정한다. De Iorio 등 (2004)가 제안한 분산분석 종속
적 DP (ANOVA dependent DP; ANOVA-DDP)이 퇴화분포만 x에 종속적으로 변하는 DDP의 대표
적인 예이다. 또 다른 방법으로 Dunson 등 (2007)은 설명변수가 변함에 따른 확률분포 Gx 를 DP에서
Nonparametric Bayesian Statistical Models in Biomedical Research 871
Figure 2.2. Estimated densities of GAD conditionally on DDE. Estimates correspond to different percentiles of
the predictor distribution, including (a) 10th , (b) 60th , (c) 90th and (d) 99th . Solid lines represent posterior means,
and dashed lines represent 99% credible intervals.
Figure 2.3. Estimated probability that GAD is less than T weeks versus DDE, for (a) T = 33, (b) T = 35, (c) T
= 37, (d) T = 40. Solid lines are posterior means and dashed lines are pointwise 99% credible intervals.
라리아 모기를 살충하는 효과가 있어 인체에 유해함에도 불구하고 말라리아가 유행하는 지역에서 많
이 사용되는 살충제로, DDE는 이 DDT의 분해물질이다. 37주 이하의 조기 분만은 산모에게 큰 위험
부담을 수반하는데, DDE 수치가 높으면 조기 분만이 될 가능성이 높다고 알려져 있다. Longnecker 등
(2001)는 2,313명의 산모의 혈청에서 측정한 DDE 수치, 임신 기간(gestational age at delivery; GAD),
그리고 산모의 나이 등의 인구 통계학적 요소를 자료로 수집하였다. 이들은 GAD가 37주 이하인 산모
들을 조기 분만으로 판단하여 GAD를 이진수 자료로 변환하고, 이를 반응변수로 하여 로지스틱 회귀분
석을 하였고, DDE가 조기 분만에 큰 영향을 준다는 결과를 얻었다. 그러나 단순히 효과의 유무를 판단
하는 것이 아니라 DDE 수치가 변함에 따른 GAD 분포의 변화를 보기 위하여 Dunson과 Park (2008)은
같은 자료에 대해 다음 모형을 가정하였다.
∫ ( )
f (yi |xi ) = N yi ; xTi βi ; τ −1 dGxi (βi ). (2.7)
yi 가 GAD, xi = (1, DDEi , agei )T 로, GAD를 반응 변수로 하여, DDE와 산모의 나이에 대한 회귀 계
수에 핵 막대분할 과정 사전분포를 설정하였으며, 핵함수로는 가우시안 핵함수를 사용하였다. Figure
2.2는 DDE 수치가 변함에 따른 식 (2.7)을 이용해서 얻어진 GAD 분포의 추정값 및 99% 신뢰구간을
보여주고 있다. 4번째 그림의 DDE 수치가 매우 높은 경우에는 자료가 몇 개 되지 않아 상대적으로 신
뢰구간의 폭이 넓음을 볼 수 있다. DDE 수치가 증가함에 따라 GAD분포의 좌측 꼬리가 길어지고 있
으며, 이는 DDE 수치가 커질수록 조기 분만의 위험이 높아지는 것을 의미한다. 이 결과를 더 명확하게
보기 위하여 Figure 2.3은 DDE값이 변함에 따라 GAD가 T 이하일 확률, 즉 조기 분만이 될 확률이 어
떻게 변하는 지를 나타내고 있다. 단순히 T = 37인 경우 뿐만 아니라 여러 값에 대하여 DDE가 증가함
에 따라 조기 분만의 확률이 증가함을 명확하게 볼 수 있다.
Nonparametric Bayesian Statistical Models in Biomedical Research 873
3. 군집분석
군집분석은 주어진 자료에 나타난 정보에 근거해 성질이 비슷한 개체를 묶는 통계 기법이다. 형질이 비
슷한 개개인 혹은 개별 동물들을 무리 짓거나, 사회경제적 특성들이 비슷한 지역을 분류하거나, 기후가
비슷한 날들을 분류하거나, 문서에 나온 단어들을 주제에 맞게 묶거나, 유전자 발현(gene expression)의
정도가 서로 비슷한 유전자들을 묶는 등, 군집분석은 다양한 분야에서 폭 넓게 사용되는 통계 기법이다.
특히 관찰된 자료에 확률모형을 가정하고, 그 모형의 통계적 추론을 통해 군집화하는 것을 모형기반 군
집분석(model-based clustering)이라고 한다. 비모수 베이지안 통계모형을 통한 군집분석은 군의 개수
를 사전에 정할 필요 없이 자료로부터 추론하게 되어 유동적으로 최적의 군의 개수를 찾을 수 있다는 점
에서 모수적 모형기반 군집분석보다 유용하다. 본 단원에서는 비모수 베이지안 통계모형을 통한 군집분
석에 대해 소개한다.
∏
K
p(ρn ) ∝ αK (nk − 1)!, (3.1)
k=1
여기서 τgt 는 g번째 유전자의 t번째 실험조건의 처리 효과(treatment effect)에 해당하며, 모든 실험조
건의 처리효과와 정밀도(precision) λg 가 동일한 유전자를 동일한 군에 있는 것으로 간주하는 모형을
설정하였다. 즉, 총 10개의 실험 조건이 주어져 있으므로, (τg1 , . . . , τg10 , λg ) = (τg′ 1 , . . . , τg′ 10 , λg′ )은
g번째 유전자와 g ′ 번째의 유전자가 동일한 군에 있다는 것을 의미한다. 이러한 군집화를 유도하기 위해
(τg1 , . . . , τg10 , λg )가 임의의 결합분포 G를 따른다고 가정하고, G는 DP를 따른다고 가정하였다. Fig-
ure 3.1은 제시된 모형과 식 (3.3)에 제시된 최소제곱 군집화 방법으로 추정된 군집분석의 결과를 그림
으로 표현한 결과이다. 각 열은 10개의 서로 다른 실험 조건들을 나타내며, 행은 군집화된 유전자들을
나타내는데, 군의 크기가 큰 순서대로 위에서 아래로 배열되어 있다. 여기서 색의 상대적 진하기는 처리
효과의 추정치를 나타내는 것으로 처리 전 나이든 쥐를 참조범주로 하여 이에 비해 상대적으로 어두운
부분은 과대발현된 유전자 군에 해당하며, 밝은 부분은 과소발현된 유전자 군들을 나타낸다. 군의 개수
는 총 105개로 추정되었으며, 군의 크기는 최소 1개에서 700개로 다양한 크기의 유전자 군이 추정되었
다. 또한 참조범주와 비교했을 때, 크기가 작은 군들이 큰 군들에 비해 유전자 발현 변화가 크게 나타나
Nonparametric Bayesian Statistical Models in Biomedical Research 875
Figure 3.1. Effects intensity plot for all probe sets. This figure, Based on the least-squares clustering, shows the
estimated treatment effects of all the clusters simulaneously and sorts the clusters based on size.
DP를 이용한 군집분석은 여러 방향으로 확장되어 왔다. 먼저, Hartigan (1990)은 식 (3.1)에 제시된 분
할 모형을 일반화 하여 다음과 같은 곱분할 모형(product partition model; PPM)을 정의 했다.
∏
K
p(ρn ) ∝ C(Sk ), (3.5)
k=1
여기서 C(A)는 A집합의 원소들이 얼마나 타이트하게 묶여 있는지를 나타내는 측도로써, 응집(cohesion)
함수라고 부른다. C(Sk ) = α(nk − 1)!인 경우가 식 (3.1)에 제시된 분할 모형에 해당하며, 이와 같은
DP 분할 모형과 일반화된 PPM과의 관계는 Quintana (2006)에 자세히 설명되어 있다. 또한, Müller
등 (2011)는 위의 PPM을 확장하여 분할에 관여하는 어떤 설명변수의 자료가 있을 때, 설명변수에 의존
하는 분할모형을 제시했다. x∗k = {xi : i ∈ Sk }를 k번째 군에 있는 개체에 대응하는 설명변수들의 집합
이라고 하면, Müller 등 (2011)는 다음과 같이 임의분할이 설명변수에 영향을 받는 PPMx를 정의했다.
∏
K
p(ρn ) ∝ C(Sk )g(x∗k ), (3.6)
k=1
여기서 g(x∗k )는 유사성(similarity) 함수라고 부르며, g(x∗k )가 클수록 k번째 군의 개체들의 설명변수가
서로 비슷하다는 것을 의미한다. 이는 설명변수가 유사한 개체들끼리 같은 군에 속할 확률을 높이는 역
할을 하여 설명변수가 군집화에 영향을 주도록 한 모형이다.
876 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung
Figure 3.2. Residual plots for the NDP(nested DP) mixture regression model including random effects on the
initial antibiotic data. The gradation represents the posterior probability that two regions are in the same cluster.
또한, 계층적 자료의 군집분석을 위해 DP를 계층적으로 확장한 모형이 다양하게 제시 되었는데, 대표
적으로 계층적 DP(Hierarchical DP; HDP)와 중첩 DP(Nested DP; NDP)가 있다 (Teh 등, 2006;
Rodrı́guez 등, 2008). HDP와 NDP는 DP를 확장한 형태로, 다음과 같이 요약할 수 있다.
여기서 yij 는 j번째 지역의 i번째 병원의 반응변수를 나타내며, xij 는 네 개의 설명변수에 해당하며, 기
저 측도인 G∗ 는 정규 역 감마 분포를 따른다고 가정 했다. 식 (3.9)는 잔차의 분포를 정규분포가 아닌
지역에 따라 형태가 변하는 임의의 분포들로 유연하게 가정함과 동시에 비슷한 병원끼리 그리고 비슷한
지역끼리의 군집화를 유도하는 모형이다. Figure 3.2는 서로 다른 두 지역들이 동일한 그룹에 있을 확
률을 히트맵(heat map) 형태로 나타낸 결과 이며, 크게 다음과 같은 세 개의 그룹들로 나뉘어짐을 확인
할 수 있다; (1) 31개 지역들로 균일하게 분포되어 있는 군; (2) 6개의 지역들로 균일하게 분포되어 있
는 군; (3) 나머지 15개의 지역들로 이루어진 불 균일한 군. 본 논문에 제시된 NDP 혼합모형은 계층적
자료의 분석에서 자료의 하위단위에서의 군집화와 상위단위에서의 군집화를 동시에 수행하는 모형이다.
이러한 구조는 베이지안 통계모형이 계층적으로 쉽게 확장된다는 점을 이용하여 자료의 분포를 계층적
혼합모형으로 설정하되, 비모수 사전분포를 사용함으로써 가능한 것이다.
4. 임의효과 분포의 추정
비모수적 베이지안 모델링이 특별히 중요한 모형 중 하나로 계층적 혼합효과 모형(hierarchical mixed
effects model)을 들 수 있다. 베이지안 계층적 혼합효과 모형에서는 임의효과(random effects)의 확률
분포를 가정하게 되는데 임의효과가 어떤 분포를 따르는지 알려지지 않은 경우가 많다. 일반적으로 임
의효과가 특정한 형태의 모수적 분포(예: 정규분포)를 따른다고 가정하는데 이는 알려진 정보에 근거한
다기 보다는 계산적인 편리함이나 절약적인 모형화(parsimonious modeling)를 위해서이다. 임의효과
분포 자체에 관심 있는 경우, 분포를 실제와 다른 모수적 분포로 모형화 하는 것은 잘못된 추론의 결과
를 초래한다. 또한 분포 자체에 관심이 없더라도 혼합효과 모형에서의 임의효과 분포의 가정은 관심 있
는 모수(예: 고정효과(fixed effect))의 추론에 영향을 미칠 수 있다. 따라서 임의효과 분포를 실제와 가
깝게 모형화 하는 것이 중요하며, 모수적 모형으로 설명할 수 없는 다양한 분포형태를 비모수적 모형으
로 유연하게 모델링하는 것이 필요하다. 또한 임의효과의 비모수적 모형화는 3장에서 설명한 바대로 군
집분석을 동시에 수행한다는 점에서도 매우 유용하다. 본 단원에서는 계층적 혼합효과 모형에서 임의효
과 분포 추정을 위한 비모수 베이지안 통계모형을 소개한다.
먼저 가장 간단한 계층적 혼합효과 모형 yij = µ + βi + ϵij 을 살펴보자. 여기서 yij 는 i번째 개체(i =
1, . . . , n)의 j번째 관측치(j = 1, . . . , ni )이고 µ는 고정효과를, βi 는 i번째 개체의 임의효과를 나타내
며, 그리고 잔차 ϵij 는 N (0, σ 2 )을 따른다고 가정한다. 일반적으로 모수적 모델링에서는 사후 분포의 계
산을 편리하게 하기 위해 임의효과 βi 가 정규분포 N (0, τ 2 )를 따른다고 가정한다. 그러나 비모수적 모
델링에서는 임의효과 분포를 임의의 분포 G(β)라고 가정하고, G의 사전분포 p(G)를 설정한다. 모수
적/비모수적 모델링의 가장 큰 차이점은 모수적 모델링에서는 임의효과 분포를 유한한 개수의 모수로
결정되는 분포로 가정하는 반면, 비모수적 모델링에서는 임의효과 분포 G에 대한 모수의 개수를 제한하
지 않음으로써 G의 불확실성을 보다 일반적으로 반영한다는 것이다. 비모수적 모델링을 이용한 계층적
혼합효과 모형은 다음과 같이 나타낼 수 있다.
Figure 4.1. Estimated random effects distribution E(G|y) (contours) and random draws (dots). The vertical line
through 1 and the identity line are shown for reference. The event {(β, δ)|1 < β < δ} indicates preferential binding
for a tripeptide-tissue pair.
여기서 p(yij |µ, βi )는 yij 의 확률분포를 나타내며, 임의효과 βi 의 분포는 사전분포 p(G)를 따르는 임의
의 분포 G로 설정한다. 모형 (4.1)은 모수적 모델링과 같이 해석이 용이하고 효율적인 사후 추론이 가
능하며, 동시에 모수적 모델링의 단점인 제한된 임의효과 분포의 가정을 완화시킨다는 장점을 가진다.
계층적 혼합효과 모형에서 임의효과 분포의 비모수적 베이지안 모델링에 대한 많은 연구가 이루어졌다.
먼저 Bush와 MacEachern (1996)은 계층적 혼합효과 모형에서 처음으로 임의효과 분포를 비모수적 방
법으로 모형화 하였다. 그들은 임의화 블록 설계 모형(randomized block experiment model)에서 블록
에 대한 임의효과의 분포에 비모수적 방법을 적용하였는데, 구체적으로 DP를 임의효과 분포의 사전분
포로 사용하였다; βi ∼ G, G ∼ DP(α, G0 ). Kleinman과 Ibrahim (1998a)은 선형 혼합효과 모형(linear
mixed effects model)에서 임의효과 분포에 DP를 설정하였고, Kleinman과 Ibrahim (1998b)은 같은
방법을 일반화 선형 혼합효과 모형(generalized linear mixed effects model)으로 확장하였다. 그리고
Mukhopadhyay와 Gelfand (1997)는 역시 일반화 선형 혼합효과 모형에서 임의효과 분포의 사전분포
를 DP로 설정하여 다양한 종류의 DPM을 제안하였다. Müller와 Rosner (1997)는 혈액 가산 자료 분
석을 위해 비선형(nonlinear) 계층적 혼합효과 모형에 DPM을 결합하였고, Müller 등 (2007)는 각 계
층 마다 반복 측정된 다중 계층 자료를 분석하기 위해 가장 높은 계층의 임의효과 분포에 DP를 설정한
반모수적(semiparametric) 모형을 제안하였다. 또한 Walker와 Mallick (1997)은 일반화 선형 혼합효
과 모형에서 임의효과의 분포에 PT 사전분포를 사용하였다. 최근에는 Rodriguez와 Dunson (2011)이
PSBP를 제안하여 임의효과 분포의 사전분포로 사용하였다.
예제 4.1: (파지 전시 실험자료 분석) Leon-Novelo 등 (2013)는 임의효과 분포의 베이지안 비모수적
모형화를 통해 3단계 파지 전시(Phage display) 실험 자료를 분석하였다. 파지 전시 실험은 단백질
의 항원항체 결합을 이용하여 특정 조직(골수, 지방, 근육, 전립선 그리고 피부)과 강한 결합력을 가
지는 펩티드를 찾는 것을 목적으로 한다. Leon-Novelo 등 (2013)는 연속된 3번의 실험을 통해 얻어
진 펩티드/조직 결합의 개수 자료를 분석하여, 3단계에 걸쳐 결합이 증가하는 경향을 가진 펩티드/조
직 쌍들을 찾고자 하였다. 먼저 3단계에 걸친 실험에서 관찰된 i번째 펩티드/조직 쌍의 개수를 yi =
(yi1 , yi2 , yi3 )라고 하고, 각 단계의 펩티드/조직 결합 개수는 다음의 포아송 분포를 따른다고 가정하였
Nonparametric Bayesian Statistical Models in Biomedical Research 879
Figure 4.2. Observed tripeptide-tissue pair counts across the three stages. Each line connects the three observed
counts for one tripeptide-tissue pair. The three panels arrange the pairs by: (a) nondecreasing, (b) oscillating,
and (c) nonincreasing observed tripeptide-tissue pair counts across the three stages. Marked in black are the 62
selected pairs using the decision rule di with a threshold value of c.
다.
(yi1 , yi2 , yi3 |µi , βi , δi ) ∼ Poi(yi1 |µi )Poi(yi2 |µi βi )Poi(yi3 |µi δi ), (4.2)
Figure 4.3. Optimal partition of hospitals as K increases for (a) model A and (b) model B.
예제 4.2: (심근경색 환자들의 생존자료 분석) Guglielmi 등 (2014)는 이탈리아 롬바르디아 지역의 여
러 병원에 입원한 심근경색증 환자들의 자료를 분석하여 병원들을 군집화하고 동시에 환자들의 사망유
무를 예측하기 위한 비모수적 베이지안 혼합효과 모형을 제안하였다. i번째 병원의 j번째 환자가 살아
서 퇴원할 확률 pij 에 대한 두 가지 로지스틱 회귀모형을 제시하였는데, 두 모형은 임의효과를 어떻게
모형화 하였는지에 대해 차이를 보인다. 모형A의 임의효과는 일 년 동안 병원에서 수술을 받은 환자들
의 수, zi 에 대한 단순 선형회귀구조로 가정하였다; logit(pij ) = x′ij b + β0i + β1i zi . 여기서 b는 고정
효과이고 β0i + β1i zi 는 i번째 병원의 임의효과를 의미하는데, 고정효과는 정규분포를 따르고 임의효과
Nonparametric Bayesian Statistical Models in Biomedical Research 881
Figure 4.4. Posterior predictive distributions for model A (full curve) and model B (broken curve) of the survival
probability for two patients: (a) one who was discharged alive and (b) one who died.
Table 4.1. Predictive tables of survival outcome when the classification rule is based on survival posterior 90%
CIs and threshold equal to 0.5.
Y =1 Y =0
(a) Model A
Ŷ = 1 661 8
Ŷ = 0 0 3
UC 13 12
(b) Model B
Ŷ = 1 661 8
Ŷ = 0 0 2
UC 13 13
∑
의 분포는 ANOVA-DDP를 따른다고 가정하였다; β0i + β1i zi ∼ G, G = wh δθh (zi ) . 반면 모형B는
병원이 밀라노에 위치해 있는 유무(vi = 0, 1)에 따라 자료를 두 개의 부분모집단으로 나누고 부분모
집단에 따라 임의효과를 다르게 설정하였다; logit(pij ) = x′ij b + βvi i . 두 모형을 비교하기 위해 베이
지안 설명계수(Bayesian R2 )를 계산한 결과, 모형B(R2 = 0.57)가 모형A(R2 = 0.35)보다 자료에 더
적합하다는 것을 알 수 있었는데 이는 모형B가 더 유연한 임의효과의 사전분포를 가정했기 때문이라
고 보여진다. 먼저 군집분석의 결과를 보면, 본 논문에서는 군집화에 대한 사후 추정치를 구하기 위해
임의분할의 사후 분포에 대한 적절한 손실함수(loss function)를 정하고 이를 군집화의 특성을 나타내
는 K에 의존하게 하여 군집의 사후 추정치를 K에 따라 구하였는데, 이는 Figure 4.3에 나타나 있다.
Figure 4.3에서 같은 선으로 연결된 병원들은 같은 군집에 있다는 것을 의미하고 점으로 표시된 병원
은 단집합(singleton)을 나타낸다. K가 바뀌면 군집화의 추정치도 달라지는데 K값이 작아질수록 병원
전체는 하나의 군집을 이루고 커질수록 단집합을 이루려는 경향을 보이고 있다. 모형B로 분석한 결과
가 모형A의 결과보다 K가 달라짐에 따라 더 점진적으로 군집의 추정치가 변한다는 것을 통해 모형B가
더 세밀하게 병원들을 군집화 한다는 것을 볼 수 있다. 또한 사망유무의 예측에 대한 결과를 살펴보면,
Figure 4.4은 두 모형으로 분석한 두 환자의 생존확률 pij 의 사후 예측 분포를 나타내며, 왼쪽은 실제
로 살아서 퇴원한 환자의, 오른쪽은 입원 중에 사망한 환자에 대한 결과이다. 두 모형의 결과는 약간의
차이를 보이는데, 이는 임의효과 모형화의 차이에 따른 것으로 보이며, 그러나 전체적인 생존확률에 대
한 결과는 두 모형 다 잘 예측하고 있다. 논문에서 다루고 있는 심근경색증은 사망률이 5 ∼ 10%이므
로 사망한 환자들의 자료가 거의 없기 때문에 이러한 경우 사망하는 환자의 오분류율(misclassification
rate)이 높다. 본 논문에서는 사망할 환자의 오분류율을 낮추기 위해 예측사망확률의 사후 신뢰구간을
이용한 예측 방법을 제시하였는데, Table 4.1에 예측 결과가 요약되어 있다. Y 는 실제 환자의 상태이
882 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung
Table 5.1. Estimated regression coefficients (times 100) for Type II diabetes example.
Predictor β̂SLM β̂NLM β̂L1 β̂EL β̂LMR β̂QR
TC 0.55 (0.11, 0.73) 0.74 (0.25, 1.20) 0.75 0.75 0.29 0.01
SG 2.11 (1.75, 2.48) 2.82 (2.5, 3.15) 2.83 2.82 2.99 3.23
HDL −0.50 (−1.4, 0.015) −0.36 (−1.61, 0) −1.02 −1.02 −0.42 0
Age 0.34 (−0.06, 1.3) 0.98 (0, 2.35) 1.19 1.19 0.57 0.04
Gender −3.72 (−30.12, 4.39) −1.53 (−25.46, 3.22) −19.66 −19.81 −7.87 −0.86
BMI(overwt) 1.55 (−9.43, 24.03) 2.04 (−3.33, 29.53) 4.33 4.27 15.12 1.84
BMI(ovese) −0.74 (−20.33, 13.44) −0.91 (−21.93, 6.14) −14.88 −15.03 8.16 0.62
SBP 0.53 (0, 1.35) 0.03 (−0.13, 0.65) 0.25 0.25 0.56 0.009
DBP −0.03 (−0.99, 0.69) 0 (−0.45, 0.45) 0.018 0.017 −0.55 0.002
WHR 224.27 (67.72, 381.88) 3.16 (−44.74, 91.4) 90.47 91.53 90.79 129.23
PPT 21.42 (1.89, 57.49) 33.04 (0, 80.39) 47.31 47.32 37.55 18.99
고 Yb 는 모형을 이용해 예측한 상태이다. 환자의 상태를 사망 유무로만 예측했던 기존의 방법과는 달
리 환자들을 살아서 퇴원하는(Yb = 1), 병원에서 사망하는(Yb = 0), 그리고 불확실한 상태(uncertainty
class)로 나누었다.
5. 회귀분석
yi = f (xi ) + ϵi . (5.1)
Kundu와 Dunson (2014)은 베이지안 변수선택을 고려한 기존의 모수적 선형회귀모형에서 오차의 분포
를 DPM으로 설정하는 다음의 모형을 제시하였다.
Yi = x′γ,i β γ + ϵi , ϵi ∼ f, for i = 1, · · · , n,
∫
( ) ( )
f ( · ) = N ·; α, τ −1 dG(α), G ∼ DP(m, G0 ), G0 = N 0, τ −1 (5.2)
Table 5.2. Marginal inclusion probabilities for SLM, NLM, QR in Type II diabetes data.
Predictor TC SG HDL Age Gender BMI(overwt) BMI(obese) SBP DBP WHR PPT
MIPSLM 0.97 1.00 0.64 0.43 0.17 0.15 0.22 0.72 0.23 0.93 0.64
MIPNLM 0.98 1.00 0.39 0.67 0.12 0.13 0.11 0.14 0.10 0.13 0.68
MIPQR 0.02 1.00 0.002 0.03 0.08 0.10 0.08 0.01 0.004 0.71 0.42
Figure 5.1. Residual density for Type II Diabetes study under semiparametric linear model. Dashed lines repre-
sent 95% posterior confidence interval.
본 절에서는 회귀모형 식 (5.1)에서 오차분포는 알려진 모수적 분포로 가정하되, 미지의 회귀평균함수
f 를 비모수적으로 모형화 하는 방법을 소개한다. 크게 두 가지 접근방식이 많이 사용되는데, 하나는 기
저함수 확장을 이용한 방식이고, 다른 하나는 가우스 확률과정(Gaussian process; GP) 사전분포를 이
용한 방식이다.
첫번째 방식은 f 를 아래 식 (5.3)처럼 기저함수확장(basis function expansion)으로 설정하고, 기저함
수들의 계수에 불확실성을 부여하여 f 에 사전분포를 설정하는 방법이다. 기저함수 {ϕj }들에 대해 (한
예로 L2 -함수들), 특정 함수공간의 어떤 함수도 기저함수확장으로 표현이 가능하다.
∑
f( · ) = dh ϕh ( · ). (5.3)
h
Figure 5.2. Cancer clinical trial. Posterior survivor functions using the AFT median regression model (panel a)
and using the ANOVA DDP model (panel b). Curves are estimated for tumor size 2.0cm (first quartile). In both
plots, the solid line refers to a low treatment dose and negative ER status. The dashed line corresponds to a high
treatment dose and negative ER status, while the long dashed line shows the survival for a patient in the low dose
group but with positive ER status. Note the almost vanishing difference between the solid and the dashed line.
Panel (c) shows the data as a KM plot arranged by dose and ER status.
6. 결론
References
Baladandayuthapani, V., Mallick, B. K. and Carroll, R. J. (2005). Spatially adaptive Bayesian penalized
regression splines(P-splines), Journal of Computational and Graphical Statistics, 14, 378–394.
Barnes, T. G., Jefferys, W. H., Berger, J. O., Muller, P., Orr, K. and Rodriguez, R. (2003). A Bayesian analysis
of the Cepheid distance scale, The Astrophysical Journal, 592, 539.
Blackwell, D. and MacQueen, J. B. (1973). Ferguson distributions via Polya urn schemes, Annals of Statistics,
1, 353–355.
Blei, D. M., Ng, A. Y. and Jordan, M. I. (2003). Latent Dirichlet allocation, Journal of machine Learning
research, 3, 993–1022.
Brown, E. R., Ibrahim, J. G. and DeGruttola, V. (2005). A flexible B-spline model for multiple longitudinal
Biomarkers and survival, Biometrics, 61, 64–73.
Bush, C. A. and MacEachern, S. N. (1996). A semiparametric Bayesian model for randomized block designs,
Biometrika, 83, 275–285.
Nonparametric Bayesian Statistical Models in Biomedical Research 887
Dahl, D. B. (2006). Model-based clustering for expression data via a Dirichlet process mixture model, In
Vannucci, M., Do, K. A. and Müller, P. (eds.), Bayesian Inference for Gene Expression and Proteomics,
Cambridge University Press.
De Iorio, M., Müller, P., Rosner, G. L. and MacEachern, S. N. (2004). An ANOVA model for dependent
random measures, Journal of the American Statistical Association, 99, 205–215.
De Iorio, M., Johnson, W. O., Müller, P. and Rosner, G. L. (2009). Bayesian nonparametric non-proportional
hazards survival modeling, Biometrics, 65, 762–771.
De la Cruz, R., Quintana, F. A. and Müller, P. (2007). Semiparametric Bayesian classification with longitu-
dinal markers, Applied Statistics, 56, 119–137.
Dunson, D. B. and Park, J. H. (2008). Kernel stick-breaking processes, Biometrika, 95, 307–323.
Dunson, D. B., Pillai, N. and Park, J. H. (2007). Bayesian density regression, Journal of the Royal Statistical
Society, Series B, 69, 163–183.
Dunson, D. B. (2010). Nonparametric Bayes applications to Biostatistics, Bayesian Nonparametrics, Chap-
ter 7, Cambridge University Press.
Escobar, M. D., (1994). Estimating normal means with a Dirichlet process prior, Journals of the American
Statistical Association, 89, 268–277.
Ferguson, T. S. (1973). A Bayesian analysis of some nonparametric problems, The Annals of Statistics, 1,
209–230.
Ferguson, T. S. (1974). Prior distributions on spaces of probability measures, The Annals of Statistics, 2,
615–629.
Guglielm, A., Ruggeri, F. and Soriano, J. (2014). Semiparametric Bayesian models for clustering and clas-
sification in the presence of unbalanced in-hospital survival, Journal of the Royal Statistical Society,
Series C, 63, 25–46.
Guindani, M., Sepulveda, N., Paulino, C. D. and Müller, P. (2012). A Bayesian Semi-parametric approach for
the differential analysis of sequence counts data, Technical report, M. D. Anderson Cancer Center.
Hanson, T. E. and Johnson, W. O. (2002). Modeling regression error with a mixture of Polya trees, Journal
of the American Statistical Association, 97, 1020–1033.
Hartigan, J. A. (1990). Partition models, Communications in Statistics: Theory and Methods, 19, 2745–
2756.
Ishwaran, H. and James, L. F. (2001). Gibbs sampling methods for stick-breaking priors, Journal of the
American Statistical Association, 96, 161–173.
Ji, Y., Yin, G., Tsui, K. W., Kolonin, M. G., Sun, J., Arap, W., Pasqualini, R. and Do, K. A. (2007). Bayesian
mixture models for complex high dimensional count data in phage display experiments, Journal of the
Royal Statistical Society, Series C: Applied Statistics, 56, 139–152.
Kleinman, K. and Ibrahim, J. (1998a). A Semi-parametric Bayesian approach to the random effects model,
Biometrics, 54, 921–938.
Kleinman, K. and Ibrahim, J. (1998b). A Semi-parametric Bayesian approach to generalized linear mixed
models, Statistics in Medicine, 17, 2579–2596.
Kormaksson, M., Booth, J. G., Figueroa, M. E. and Melnick, A. (2012). Integrative model-based clustering of
microarray methylation and expression data, Annals of Applied Statistics, 6, 1327–1347.
Kundu, S. and Dunson, D. B. (2014). Bayes variable selection in semiparametric linear models, Journal of
the American Statistical Association, 109, 437–447.
Leon-Novelo, L. G., Müller, P., Arap, W., Kolonin, M. Sun, J., Pasqualini, R. and Do, K. A. (2013). Semipara-
metric Bayesian inference for phage display data, Biometrics, 69, 174–183.
Liu, Q., Lin, K. K., Andersen, B., Smyth, P., and Ihler, A. (2010). Estimating replicate time shifts using
Gaussian process regression. Bioinformatics, 26, 770–776.
Longnecker, M. P., Klebanoff, M. A., Zhou, H. and Brock, J. W. (2001). Association between maternal serum
concentration of the DDT metabolite DDE and preterm and small-for-gestational-age babies at birth,
Lancet, 358, 110–114.
MacEachern, S. (1994). Estimating normal means with a conjugate style Dirichlet process prior, Commu-
nications in Statistics: Simulation and Computation, 23, 727–741.
MacEachern, S. (1999). Dependent nonparametric processes, in ASA Proceedings of the Section on Bayesian
Statistical Science, American Statistical Association.
888 Heesang Noh, Jinsu Park, Gyuseok Sim, Jae-eun Yu, Yeonseung Chung
Mukhopadhyay, S. and Gelfand, A. (1997). Dirichlet process mixed generalized linear models, Journal of the
American Statistical Association, 92, 633–639.
Müller, P., Erkanli, A. and West, M. (1996). Bayesian curve fitting using multivariate normal mixtures,
Biometrika, 83, 67–79.
Müller, P. and Rosner, G. (1997). A Bayesian population model with hierarchical mixture priors applied to
blood count data, Journal of the American Statistical Association, 92, 633–639.
Müller, P., Quintana, F. and Rosner, G. (2007). Semiparametric Bayesian inference for multilevel repeated
measurement data, Biometrics, 63, 280–289.
Müller, P., Quintana, F. and Rosner, G. L. (2011). A product partition model with regression on covariates,
Journal of Computational and Graphical Statistics, 20, 260–278.
Quintana, F. A. (2006). A predictive view of Bayesian clustering, Journal of Statistical Planning and In-
ference, 136, 2407–2429.
Rice, J. A. and Wu, C. O. (2001). Nonparametric mixed effects models for unequally sampled noisy curves,
Biometrics, 57, 253–259.
Rodriguez, A., Dunson, D. B. and Gelfand, A. E. (2008). The nested Dirichlet process, Journal of the
American Statistical Association, 103, 1131–1154.
Rodriguez, A. and Dunson, D. B. (2011). Nonparametric Bayesian models through probit stick-breaking
processes, Bayesian Analysis, 6, 145–178.
Sethuraman, J. (1994). A constructive definition of Dirichlet priors, Statistica Sinica, 4, 639–650.
Teh, Y. W., Jordan, M. I., Beal, M. J., & Blei, D. M. (2006). Hierarchical Dirichlet processes, Journal of the
American statistical association, 101, 1566–1581.
Vidakovic, B. (1998). Nonlinear wavelet shrinkage with Bayes rules and Bayes factors, Journal of the Amer-
ican Statistical Association, 93, 173–179.
Walker, S. and Mallick, B. (1997). Hierarchical generalized linear models and frailty models with Bayesian
nonparametric mixing, Journal of the Royal Statistical Society, 59, 845–860.
Zellner, A. (1986). On assessing prior distributions and Bayesian regression analysis with g-prior distribu-
tions, In Bayesian Inference and Decision Techniques: Essays in Honor of Bruno de Finetti, (eds. P. K.
Goel and A. Zellner), 233–243, North-Holland/Elsevier.
Nonparametric Bayesian Statistical Models in Biomedical Research 889
(2014년 10월 27일 접수, 2014년 11월 27일 수정, 2014년 12월 1일 채택)
요약
비모수 베이지안 통계 모형은 그 유연성과 계산의 편리성으로 인해 최근 다양한 분야에서 응용되고 있는데, 본 논문
에서는 생물/의학/보건 연구에서 사용되는 비모수 베이지안 통계 모형에 대해서 개괄하였다. 본 논문에서는 비모수
베이지안 통계 모델링에서 핵심적으로 사용되는 확률모형들을 소개하고, 다양한 예제들을 통하여 그 모형들이 어떻
게 사용되는지 이해를 돕도록 하였다. 특별히, 논의된 예제들은 모수적 통계 모형으로 고찰하기에는 한계가 있는 연
구가설들을 포함하고 있어 모수적 모형의 한계점을 지적하고 비모수적 베이지안 모형의 필요성을 강조하는 것들로
정하였다. 크게 확률밀도함수 추정, 군집분석, 임의효과 분포의 추정, 그리고 회귀분석의 4가지 주제로 분류하여 살
펴보았다.
주요용어: 비모수 베이지안, 디리슈레 확률과정, 확률밀도함수의 추정, 군집분석, 임의효과 분포, 회귀
분석.
1 교신저자: (305-701) 대전광역시 유성구 대학로 291, 한국과학기술원 수리과학과. E-mail: dolyura@kaist.edu