Chapter 6-6.3-6.4

Chapter 6 Data Mining for Temporal Data
6.3 Time-to-Event Analysis

Trong phần này, chúng ta thảo luận về các mô hình cho phép dự đoán thời gian cho đến
một sự kiện nhất định. Trong ứng dụng kinh doanh, các sự kiện dự đoán là việc khách
hàng từ bỏ mối quan hệ của mình với một công ty. Trong ứng dụng y tế, các sự có thể là
thời gian của một đợt bệnh nhất định.
Dữ liệu thời gian tới sự kiện (TTE) là duy nhất vì kết quả quan tâm không chỉ là liệu một
sự kiện có xảy ra hay không, mà còn là khi sự kiện đó xảy ra.
Quan tâm phân tích khái niệm khác trong phân tích thời gian đến sự kiện, phân tích lịch
sử sự kiện (history analysis) và phân tích tồn tại (survival analysis).
Ba loại câu hỏi nghiên cứu khác nhau có thể được quan tâm đối với dữ liệu TTE bao
gồm:
-Tỷ lệ cá nhân sẽ vẫn không có sự kiện sau một thời gian nhất định là bao nhiêu?
-Tỷ lệ cá nhân sẽ có sự kiện sau một thời gian nhất định là bao nhiêu?
-Rủi ro của sự kiện tại một thời điểm cụ thể, trong số những người đã sống sót cho đến
thời điểm đó là gì?
Câu hỏi tương ứng với các hàm trong một phân tích sinh tồn:
-Hàm sinh tồn (Survival Function), S(t): xác suất một cá thể sẽ sống sót vượt thời gian t
[Pr(T>t)]
-Hàm mật độ xác suất (Probability Density Function), F(t), hoặc Hàm tỷ lệ mắc mới tích
lũy (Cumulative Incidence Function), R(t): xác suất mà một cá thể sẽ có thời gian sống
nhỏ hơn hoặc bằng t [Pr(T≤t)]
-Chức năng nguy hiểm (Hazard Function), h (t): tiềm năng tức thời của việc trải qua một
sự kiện tại thời điểm t, với điều kiện là đã sống sót đến thời điểm đó
-Hàm nguy hiểm tích lũy (Cumulative Hazard Function), H(t): tích phân hàm nguy hiểm
từ thời điểm 0 đến thời gian t, bằng diện tích dưới đường cong h(t) giữa thời gian 0 và
thời gian t
(1)
Vấn đề chính trong phân tích là đối phó với dữ liệu bị kiểm duyệt (censored data), chính
xác là dữ liệu được kiểm duyệt đúng (right censored data). Có nghĩa là chúng ta có thể
ghi lại thời gian khi một trạng thái nhất định bắt đầu cho tất cả các trường hợp, nhưng
chúng ta có thông tin đầy đủ về thời gian của trạng thái đó chỉ cho một phần nhỏ các
trường hợp đã xảy ra sự kiện.
Mục tiêu là mô tả dữ liệu và mô hình cho phép dự đoán thời lượng (duration) tùy thuộc
vào các thuộc tính của các trường hợp quy trình (process instances).
Chúng ta chỉ xem xét các khái niệm và phương pháp cơ bản để phân tích thời gian đến sự
kiện trong phần này.
Template: Time to Event Analysis

 Relevant Business and Data (dữ liệu và kinh doanh có liên quan): Hành vi của
khách hàng được thể hiện bằng dữ liệu cắt ngang (cross-sectional data) và chuỗi
thời gian (time sequences) có chứa thông tin được kiểm duyệt về một sự kiện cuối
cùng (terminal event).
 Analytical Goals (mục tiêu phân tích): Dự đoán khoảng thời gian tính đến sự kiện
(the duration up to the event) cho các chuỗi thời gian được kiểm duyệt từ dữ liệu
chưa được kiểm duyệt.
 Modeling Tasks (Nhiệm vụ mô hình hóa):
o Định nghĩa bảng sinh tồn (survival table)
o Định nghĩa mô hình hồi quy Cox (Cox regression model) cho thời gian xảy
ra sự kiện
 Analytical Tasks (Nhiệm vụ phân tích):
o Ước tính thời gian đến sự kiện bằng cách sử dụng ước tính Kaplan–Meier
o Ước lượng các hệ số trong mô hình hồi quy Cox (Cox regression model)
 Evaluation and Reporting Task (Nhiệm vụ Đánh giá và Báo cáo): Đánh giá kết
quả bằng cách sử dụng một phương pháp để đánh giá hồi quy.
Trong mô tả và mô hình hóa thời lượng (duration), cần quan tâm khái niệm chức năng
tồn tại (survival function) và chức năng nguy hiểm (the hazard function).
Một biến ngẫu nhiên: Khoảng thời gian đến một sự kiện nhất định được mô hình hóa
bằng phân phối xác suất.
T: biến đo thời gian tính đến sự kiện.
Hàm phân phối: Xác suất để sự kiện xảy ra trước thời điểm t
F(t) = P (T ≤ t)
Hàm tồn tại (survival function): xác suất mà khoảng thời gian của khách hàng lớn hơn
t
S(t) = 1 – F(t)
Từ định nghĩa hàm tồn tại (survival function) là một hàm giảm dần theo thời gian. Giá
trị trung bình (mean of the survival function) là thời gian tồn tại dự kiến.
Mối nguy (hazard) là khả năng xảy ra sự kiện tại thời điểm t, với điều kiện là sự kiện
đó chưa xảy ra cho đến thời điểm t. Mối nguy (hazard) có liên quan đến phân bố xác
suất của khoảng thời gian theo công thức:
p(t)
h(t) =
1−F (t)
Dựa trên các hàm (1) được biết đến, các hàm khác có thể được tính bằng các công thức
sau:
-S(t) = 1 – F(t) Hàm sống sót (survival function) và tổng hàm mật độ xác suất là 1
-h(t)=f(t)/S(t) Nguy cơ tức thời bằng xác suất vô điều kiện của việc trải qua sự kiện tại
thời điểm t, được tính theo tỷ lệ phần nhỏ còn sống tại thời điểm t
-S(t) = e –H(t) Hàm tồn tại bằng tích lũy âm lũy thừa hàm nguy hiểm (hazard function)
Trong hầu hết các trường hợp, hàm nguy hiểm (hazard function) được sử dụng để mô tả
hành vi. Tùy thuộc vào miền (domain), các cấu trúc khác nhau của hàm nguy hiểm
(hazard function) có thể được xác định, ví dụ, mối nguy (hazard) có thể tăng hoặc giảm
theo thời gian.
Họ (family) phân phối thuận tiện cho những vấn đề như vậy là họ phân phối Weibull với
hàm phân phối (distribution function):
F(x) = 1 – exp[−( αx)β ]
Các thông số (parameters) cho phép thích ứng với các loại nguy cơ (hazard) khác nhau.
Hình bên dưới cho thấy hai phân bố Weibull với hàm nguy hiểm (hazard function) tăng
và giảm.
Mật độ (densities) và hàm nguy hiểm (hazard function) của phân phối suốt đời (lifetime)
(đồ họa R)
Giả định chính trong việc phân tích dữ liệu TTE là kiểm duyệt không cung cấp thông tin:
các cá nhân bị kiểm duyệt có cùng xác suất trải qua một sự kiện tiếp theo như các cá nhân
còn lại trong nghiên cứu. Nếu nghi ngờ kiểm duyệt thông tin, các phân tích độ nhạy cảm,
chẳng hạn như các tình huống tốt nhất và trường hợp xấu nhất, có thể được sử dụng để cố
gắng định lượng ảnh hưởng của việc kiểm duyệt thông tin đối với phân tích.
Một giả định khác khi phân tích dữ liệu TTE là có đủ thời gian theo dõi và số lượng sự
kiện để có đủ sức mạnh thống kê. Điều này cần được xem xét trong giai đoạn thiết kế
nghiên cứu, vì hầu hết các phân tích sinh tồn đều dựa trên các nghiên cứu thuần tập.
Có ba cách tiếp cận chính để phân tích dữ liệu TTE: phương pháp tiếp cận phi tham số,
bán tham số và tham số. Các phương pháp tiếp cận phi tham số để phân tích sinh tồn là gì
và khi nào chúng phù hợp? Không dựa vào các giả định về hình dạng hoặc hình thức của
các tham số trong tập hợp cơ bản. Được sử dụng để mô tả dữ liệu bằng cách ước tính hàm
sinh tồn, S (t), cùng với trung vị và tứ phân vị của thời gian sinh tồn.
Các phương pháp tiếp cận phi tham số thường được sử dụng làm bước đầu tiên trong
phân tích để tạo ra số liệu thống kê mô tả không thiên vị và thường được sử dụng cùng
với các phương pháp tiếp cận bán tham số hoặc tham số.
Một bảng tuổi thọ (life table) là phương pháp tiêu chuẩn cho việc mô tả dữ liệu được
kiểm duyệt (censored data). Các hàng của bảng được xác định bởi các khoảng thời gian
xác định trước và được đặc trưng bởi điểm cuối của khoảng thời gian đó.
Trong mỗi hàng, có ba mục nhập cơ bản xác định các cột của bảng:
 Số đơn vị nhập vào khoảng thời gian
 Số đơn vị mà sự kiện đã xảy ra trong khoảng thời gian
 Giá trị của hàm tồn (survival function) tại điểm kết thúc
Bảng ước tính tuổi thọ của hàm sinh tồn là một trong những ví dụ sớm nhất về các
phương pháp thống kê được áp dụng, đã được sử dụng trong hơn 100 năm để mô tả tỷ lệ
tử vong trong các quần thể lớn.
Công cụ ước tính bảng cuộc sống tương tự như phương pháp Kaplan-Meier, ngoại trừ các
khoảng thời gian dựa trên thời gian lịch thay vì các sự kiện quan sát được. Vì các phương
pháp bảng cuộc sống dựa trên các khoảng thời gian lịch này và không dựa trên các sự
kiện / thời gian kiểm duyệt riêng lẻ, các phương pháp này sử dụng kích thước đặt rủi ro
trung bình trên mỗi khoảng thời gian để ước tính S (t) và phải giả định rằng việc kiểm
duyệt diễn ra thống nhất trong khoảng thời gian lịch.
Ngoài ra, các cột khác có thể được chỉ định, ví dụ, một vùng tin cậy (confidence region)
để ước tính hàm tồn tại (survival function). Việc ước lượng hàm tồn tại (survival
function) thường dựa trên ước lượng Kaplan – Meier
Cách tiếp cận phi tham số phổ biến nhất trong tài liệu là công cụ ước tính Kaplan-Meier.
Công cụ ước tính Kaplan-Meier hoạt động bằng cách chia ước tính S (t) thành một loạt
các bước / khoảng thời gian dựa trên thời gian sự kiện quan sát được. Các quan sát góp
phần ước tính S (t) cho đến khi sự kiện xảy ra hoặc cho đến khi chúng được kiểm duyệt.
Đối với mỗi khoảng thời gian, xác suất sống sót cho đến khi kết thúc khoảng thời gian
được tính toán, cho rằng các đối tượng có nguy cơ ở đầu khoảng thời gian (điều này
thường được ký hiệu là pj = ( nj - dj) / nj). S(t)ước tính cho mọi giá trị của t bằng tích của
việc sống sót sau mỗi khoảng thời gian lên đến và bao gồm cả thời gian t.
S(t) ước tính từ phương pháp Kaplan-Meier có thể được vẽ dưới dạng hàm từng bước
(stepwise function) với thời gian trên trục X. Có thể được sử dụng để ước tính mức trung
bình (khi S (t) ≤ 0,5) hoặc tứ phân vị thời gian sinh tồn.
Chứng minh những ý tưởng này trong bối cảnh của trường hợp sử dụng EBMC2:
EBMC2 Use Case: Life Table for Melanoma Patients (Bảng sống cho bệnh nhân u
ác tính)
Để hiểu được thời gian của khối u ác tính cho đến khi chết, 305 bệnh nhân đã được đăng
ký với khối u ác tính da ác tính từ năm 2006 đến năm 2010.
Các biến số chẩn đoán thời gian của khối u ác tính ác tính, tuổi chẩn đoán, giới tính và
stadium (sân vận độn) với ba giá trị: khu trú, khu vực và phổ biến. Và ghi nhận sự xuất
hiện của các loại khối u khác.
Tổng cộng 137 sự kiện đã xảy ra cho 305 bệnh nhân trong khoảng thời gian được quan
sát. Bảng tuổi thọ của những người sử dụng năm làm độ phân giải thời gian được trình
bày trong bảng bên dưới.
Bảng cuộc sống của bệnh nhân mắc u ác tính trên da

Chi tiết kết quả tại www.businessintelligence-fundamentals.com
Thời gian sống sót có thể được vẽ biểu đồ cho các nhóm dân số được xác định bởi một số
yếu tố. Như có thể thấy, các trường hợp lan tỏa có tiên lượng xấu nhất (worst prognosis)
về thời gian sống sót và các trường hợp khu trú (localized) là tốt nhất.
Thời gian sống sót cho những bệnh nhân có stadiums khác nhau
Để dự đoán thời gian xảy ra sự kiện, chúng ta cần một mô hình cho phép đặc tả mối nguy
(hazard) phụ thuộc vào một số biến giải thích (explanatory variables) có tính đến việc
kiểm duyệt dữ liệu - hồi quy Cox (Cox regression), còn được gọi là mô hình rủi ro tỷ lệ
(proportional hazard model). Ý tưởng chính là định nghĩa về mối nguy cơ bản phụ thuộc
(được sửa đổi theo các biến giải thích của các trường hợp) vào thời gian cho mọi trường
hợp theo công thức:
h(t) = h 0(t)exp( β 1 x 1+ β 2 x 2+…+ β k x k )
Công thức biện minh cho tên rủi ro tỷ lệ thuận, bởi vì tỷ lệ rủi ro trong hai trường hợp là
không đổi theo thời gian.
Mô hình xác định sự phụ thuộc tuyến tính đối với logarit của mối nguy trong các biến
giải thích (explanatory variables) tương tự như hồi quy logistic. Giải thích cho các tham
số:
 Đối với biến giải thích định lượng (quantitative explanatory variable) X j, sự thay
đổi của rủi ro tương đối khi thay đổi giá trị từ x sang x + 1 được cho bởi exp( β 1)
 Đối với biến giả (dummy variable) đại diện cho mức nhân tố (factor level), exp( β 1)
đo lường sự thay đổi của rủi ro tương đối đối với mức nhân tố so với mức nhân tố
tham chiếu (reference factor level).
Trường hợp sử dụng EBMC2: Hồi quy Cox cho bệnh nhân u ác tính
Đối với dữ liệu của 305 bệnh nhân được mô tả ở trên, các thông số kỹ thuật khác nhau
của mô hình Cox đã được tính toán. Hóa ra là mô hình tốt nhất sử dụng độ tuổi chẩn đoán
(diagnosis) và stadiums làm các biến giải thích (explanatory variables). Yếu tố nguy cơ
theo tuổi là 1.03 mỗi năm cho thấy nguy cơ tăng nhẹ theo độ tuổi. So với hạng mục tham
chiếu của stadium phổ biến, rủi ro đối với localized stadium giảm 0,071 và đối với
regional stadium là 0,244 tương ứng với các đường cong sinh tồn được hiển thị trong
bảng Thời gian sống sót cho những bệnh nhân có stadiums khác nhau.
Bên cạnh việc ước lượng còn có thể sử dụng các công cụ để chẩn đoán mô hình. Mối
quan liệu giả định về rủi ro tỷ lệ có đúng hay không. Trong trường hợp các biến giải thích
phân loại (categorical explanatory variables), có thể thực hiện việc kiểm tra trực quan
đơn giản về thời gian tồn tại của các loại khác nhau là các đường cong không được cắt
chéo đối với các hạng mục khác nhau hiển thị trong bảng Thời gian sống sót cho những
bệnh nhân có stadiums khác nhau.
Mô hình Cox Proportional là phương pháp tiếp cận đa biến được sử dụng phổ biến nhất
để phân tích dữ liệu sống sót trong nghiên cứu y học. Về cơ bản, nó là một mô hình hồi
quy thời gian đến sự kiện, mô tả mối quan hệ giữa tỷ lệ xảy ra sự kiện, như được thể hiện
bằng hàm nguy hiểm và một tập hợp các covariates. Là một mô hình hồi quy thời gian
đến sự kiện, mô tả mối quan hệ giữa tỷ lệ xảy ra sự kiện, như được thể hiện bằng hàm
nguy hiểm và một tập hợp các covariates
h(t) = h 0(t)exp( β 1 x 1+ β 2 x 2+…+ β k x k )
Tính năng này làm cho mô hình Cox mạnh mẽ hơn các phương pháp tiếp cận tham số vì
nó không dễ bị xác định sai về mối nguy hiểm cơ bản.
Đối với mô hình nguy hiểm tỷ lệ Cox, việc bao gồm một covariate thay đổi theo thời gian
sẽ có dạng: h(t) = h0(t)e^β1x1(t).
(https://www.publichealth.columbia.edu/research/population-health-methods/time-event-
data-analysis)
6.4 Analysis of Markov Chains
Đối với dữ liệu được biểu diễn dưới dạng chuỗi sự kiện hoặc trạng thái với các dấu thời
gian đã biết hoặc chưa biết, một số mục tiêu phân tích được quan tâm trong cả ba quan
điểm kinh doanh.
 Ở góc độ sản xuất, người ta có thể quan tâm đến việc tìm kiếm các cụm chuỗi sự
kiện để tối ưu hóa dịch vụ.
 Trong quan điểm của tổ chức hoặc khách hàng, việc hiểu rõ hành vi trong mạng
lưới giao tiếp và hợp tác thường được quan tâm.
Mô hình chuỗi Markov đồng nhất (homogeneous Markov chains) với một số trạng thái
hữu hạn được giới thiệu dưới dạng cấu trúc mô hình xác suất cho các mục tiêu phân tích.
Bắt đầu từ trạng thái ban đầu S0= si, một chuỗi các biến < S0, S1,…, ST > mô tả các trường
hợp quy trình. Mỗi biến có thể nhận các giá trị từ một tập S = { S1, S2,…, S K } là trạng thái
hoặc sự kiện.
Sử dụng hai kiểu biểu diễn trong chuỗi Markov đồng nhất:
 Biểu diễn xác suất dưới dạng ma trận P = ( pi , j) được xác định bởi các xác suất
chuyển từ trạng thái si sang trạng thái s j trong một bước thời gian. Một ma trận
ngẫu nhiên là tất cả các mục nhập đều dương và các hàng cộng lại thành một. Ma
trận chuyển tiếp sau n bước được ký hiệu là P(n). Bằng phương trình Chapman-
Kolmogorov, P(n) có thể được tính bằng phép nhân ma trận P(n) = Pn. Nếu biểu
thị xác suất ban đầu cho các trạng thái có thể có (possible states) tại t = 0 bằng μ0(i )
= P( S0= si ) và bằng μ(in ) xác suất của các trạng thái (probabilities of the states) tại
thời điểm T = n, thì có thể tính xác suất của các trạng thái khác nhau sau bước n
thời gian
n
μn=μ 0 . P
( 1) ( 2) (K )
μ0 =( μ0 , μ0 ,… , μ0 )
 Biểu diễn thứ hai là biểu diễn đồ họa. Nó thu được bằng cách giải thích ma trận
xác suất chuyển đổi (matrix of transition probabilities) dưới dạng ma trận kề có
trọng số của một đồ thị có hướng với các nút được xác định bởi các trạng thái của
quá trình.
Các bước phân tích quan trọng:
Template: Analysis of Markov Chains
 Relevant Business and Data (Dữ liệu và kinh doanh có liên quan): Các phiên bản
quy trình được biểu thị dưới dạng trạng thái hoặc chuỗi sự kiện
 Analytical Goals:
o Ước tính chuyển đổi trạng thái từ các phiên bản thoát (exiting)
o Hành vi cấu trúc của quá trình chuyển đổi trạng thái trong thời gian dài
o Phân đoạn trình tự thành nhóm
o Phân đoạn các trạng thái
 Modeling Tasks: Định nghĩa chuỗi Markov tĩnh cho các chuyển đổi trạng thái
 Analysis Tasks:
o Ước tính xác suất chuyển đổi (transition probabilities)
o Ước tính phân phối ổn định (stable distribution)
o Phân tích cụm cho các trường hợp trạng thái hoặc chuỗi sự kiện
o Phân tích cụm của các trạng thái hoặc sự kiện
 Evaluation and Reporting Task: Đánh giá và báo cáo kết quả phù hợp với những
cân nhắc chung về đánh giá phương pháp học tập trong Chương 5.
(Chuỗi Markov ẩn là một mô hình tổng quát hơn hữu ích trong nhiều ứng dụng)
Chuỗi Markov là một hệ thống toán học trải nghiệm sự chuyển đổi từ trạng thái này sang
trạng thái khác theo một bộ quy tắc xác suất nhất định. Chuỗi Markov là quá trình ngẫu
nhiên. Nghĩa là, xác suất của trạng thái tiếp theo của hệ thống chỉ phụ thuộc vào trạng
thái hiện tại của hệ thống chứ không phụ thuộc vào bất kỳ trạng thái nào trước đó:
Để có một mô hình chuỗi Markov chức năng, điều cần thiết là phải xác định một ma trận
chuyển tiếp Pt chứa thông tin về xác suất chuyển tiếp giữa các trạng thái khác nhau trong
hệ thống. Để ma trận chuyển tiếp hợp lệ, mỗi hàng phải là một vectơ xác suất và tổng của
tất cả các số hạng của nó phải là 1.
Ma trận chuyển tiếp có tính chất là tích của các ma trận tiếp theo có thể mô tả các xác
suất chuyển tiếp trong một khoảng thời gian. có thể mô hình hóa mức độ có thể xảy ra ở
một trạng thái nhất định sau các bước k:
(https://www.datacamp.com/tutorial/markov-chain-analysis-r)
6.4.1 Structural Analysis of Markov Chains (Phân tích cấu trúc của chuỗi Markov)
Các phương pháp để giải quyết các mục tiêu ước tính là tìm xác suất chuyển đổi
(transition probabilities) trong thời gian dài hoặc ước tính xác suất chuyển đổi từ các
trường hợp của chuỗi trạng thái. Bắt đầu với việc phân loại các trạng thái của chuỗi
Markov đối với hành vi chuyển đổi là quan trọng trong giải quyết vấn ước lượng, sau đó
xem xét ước tính xác suất chuyển đổi dựa trên các chuỗi trạng thái quan sát được và kết
luận với ước tính phân phối ổn định (stable distribution).
Typology of States for Markov Chains (Mô hình các trạng thái cho chuỗi
Markov)
Biểu diễn của chuỗi Markov thuần nhất (homogeneous Markov chain) dưới dạng đồ thị
để hiểu mô hình trạng thái. Nói rằng một trạng thái si có thể truy cập được (reachable) từ
một trạng thái s j nếu có một đường dẫn từ trạng thái si đến trạng thái s j. Một cạnh ( si , s j)
xác định một đường dẫn có độ dài 1, và gọi các trạng thái như vậy được liên kết trực tiếp
(directly linked). Các trạng thái si và s j được gọi là đã kết nối (connected) nếu si có thể
truy cập được (reachable) từ s j và s j có thể truy cập được (reachable) từ si . Trong biểu
diễn đồ thị, các trạng thái được kết nối xác định một đường dẫn đóng (closed path) và
thuộc tính của tính kết nối xác định một phân vùng của tất cả các trạng thái thành các lớp
trạng thái được kết nối.
Chuỗi Markov được gọi là bất khả quy (irreducible) nếu mỗi trạng thái có thể đạt được từ
bất kỳ trạng thái nào khác trong thời gian hữu hạn, tức là tất cả các trạng thái đều thuộc
về một lớp. Hơn nữa, một tập hợp các trạng thái đóng là các trạng thái không thể rời khỏi
ngay khi chúng đã đạt đến các trạng thái. Trạng thái hấp thụ (absorbing) là trạng thái
đóng không kết nối với bất kỳ trạng thái nào khác. Đối với trạng thái hấp thụ si , ta có pii =
1.
Các loại trạng thái trong chuỗi Markov

Trong hình trên chuỗi không phải là không thể phục hồi (irreducible) vì từ s4 không có
trạng thái nào khác có thể đạt được (reached). Có ba lớp trạng thái được kết nối: { s1, s2};
{ s3} và { s4 }; các lớp { s1, s2} và { s4 } xác định các lớp đóng và s4 là một trạng thái hấp thụ
(absorbing).
Với hành vi dài hạn của quá trình được xác định bởi các xác suất chuyển đổi (transition
probabilities) cần định nghĩa bổ sung:
 Trạng thái được gọi là nhất thời (transient) nếu có xác suất dương không quay trở
lại trạng thái (not returning into the state).
 Một trạng thái được gọi là tái diễn (recurrent) nếu xác suất trở lại trạng thái
(returning into the state) là 1. Trong trường hợp chuỗi Markov bất khả quy
(irreducible), tất cả các trạng thái đều là tái diễn hoặc nhất thời. Với trạng thái tái
diễn, có thể định nghĩa chu kỳ là ước số chung lớn nhất của mọi thời điểm t mà
pii (n) > 0. Nếu chu kỳ là 1, trạng thái được gọi là không tuần hoàn (aperiodic).
 Chuỗi Markov trong đó tất cả các trạng thái đều không theo chu kỳ được gọi là
chuỗi Markov ổn định (ergodic).
Ví dụ về chuỗi Markov ổn định (ergodic Markov chain) (a) và chuỗi Markov có trạng
thái tuần hoàn (Markov chain with periodic states) (b)
Hình a cho thấy một chuỗi Markov ổn định và hình b một chuỗi Markov trong đó mỗi
trạng thái có chu kỳ 3.
Chuỗi Markov là các hệ thống toán học nhảy từ một "trạng thái" (một tình huống hoặc
tập hợp các giá trị) sang một trạng thái khác. Ví dụ: nếu bạn tạo một mô hình chuỗi
Markov về hành vi của em bé, bạn có thể bao gồm "chơi", "ăn", "ngủ" và "khóc" dưới
dạng trạng thái, cùng với các hành vi khác có thể tạo thành 'không gian trạng thái': danh
sách tất cả các trạng thái có thể. Ngoài ra, trên đỉnh của không gian trạng thái, một chuỗi
Markov cho bạn biết khả năng nhảy hoặc "chuyển đổi", từ trạng thái này sang bất kỳ
trạng thái nào khác---ví dụ: khả năng một em bé hiện đang chơi sẽ ngủ thiếp đi trong năm
phút tới mà không khóc trước.
Một chuỗi Markov hai trạng thái đơn giản
Với hai trạng thái (A và B) trong không gian trạng thái, có 4 chuyển tiếp có thể xảy ra
(không phải 2, vì một trạng thái có thể chuyển trở lại chính nó). Xác suất chuyển từ bất
kỳ trạng thái nào sang bất kỳ trạng thái nào khác là 0, 5.
Mọi trạng thái trong không gian trạng thái được bao gồm một lần dưới dạng một hàng và
một lần nữa dưới dạng một cột và mỗi ô trong ma trận cho bạn biết xác suất chuyển từ
trạng thái của hàng sang trạng thái của cột. Trong ma trận, các ô thực hiện công việc
tương tự như các mũi tên làm trong sơ đồ trên.
Một cách sử dụng chuỗi Markov là đưa các hiện tượng trong thế giới thực vào mô phỏng
máy tính. Ví dụ: chúng tôi có thể muốn kiểm tra tần suất một con đập mới sẽ tràn, điều
này phụ thuộc vào số ngày mưa liên tiếp. Để xây dựng mô hình này, chúng tôi bắt đầu
với mô hình sau đây là những ngày mưa (R) và nắng (S):
(https://setosa.io/ev/markov-chains/)
Estimation of Transition Probabilities
Cho N chuỗi trạng thái s1, s2,…, s N có độ dài có thể khác nhau, được tạo bởi chuỗi
Markov đồng nhất (homogeneous Markov chain) với K trạng thái s1, s2,…, s K , mục tiêu là
ước tính ma trận xác suất chuyển đổi pij. pij ≠ 0 chỉ đối với những chuyển đổi mà một
cạnh giữa các đỉnh tồn tại trong biểu đồ biểu diễn. Giả định rằng tất cả các quá trình
chuyển đổi được tạo ra một cách độc lập, phân phối của số lần chuyển đổi từ một trạng
thái si sang các trạng thái được liên kết trực tiếp là một phân phối đa thức (multinomial
distribution). Cho một số trình tự trạng thái:
 nij là số lần chuyển đổi một bước quan sát được từ trạng thái si sang trạng thái s j
 ni là số lần xuất hiện quan sát được của trạng thái si .
Một phương pháp để ước tính xác suất chuyển đổi là ước tính khả năng xảy ra tối đa
được xác định bởi:
nij
^pij =
ni
Một hạn chế của ước tính này là nếu dữ liệu không quan sát thấy sự chuyển đổi từ trạng
thái si sang s j thì ^pij = 0 mặc dù có thể có những chuyển đổi như vậy từ cấu trúc của chuỗi
Markov. Phương pháp Bayes được sử dụng để khắc phục sự cố trên. Nghĩa là một phân
phối trước cho các xác suất chuyển đổi được giả định và các ước tính của các xác suất
chuyển đổi được tính như là phương tiện của phân phối sau. Một phân phối được sử dụng
trước đây cho phân phối đa thức là phân phối Dirichlet (Dirichlet distribution) được xác
định bởi mật độ:
P( p1, p2,…, p N ) = C ∏ pαi −1 , α i > 0
i
α i gọi là nồng độ (concentrations). Giá trị trung bình và phương sai của các thành phần
được đưa ra bởi:
αi
αi
E[ N i] = K
=
∑ αj α0
j =1
α i (α 0−α i )
[ N i] =
[α 20 (α 0+1)]
E[ N i] phản ánh niềm tin trước đó của nhà nghiên cứu về các giá trị trung bình của các quá
trình chuyển đổi. α 0= ∑ α j đo lường mức độ đỉnh xung quanh giá trị trung bình. Giá trị
lớn của α 0 chỉ ra rằng có độ tin cậy cao hơn đối với giá trị sơ khai (priors) hơn là giá trị
nhỏ của α 0.
Bằng cách sử dụng phân phối trước, người ta có được các ước tính sau cho các xác suất
chuyển đổi:
~ n +α
p ij = ij i
ni +α 0
Dựa trên những ước tính này có thể đưa ra dự đoán về các trạng thái trong tương lai. Ứng
dụng trong dự đoán các yêu cầu trang của con người trên Internet, có thể chọn các tham
số α j theo quan hệ giữa các liên kết đi của các trang, lựa chọn α 0 xác định số lượng quan
sát cần thiết để thay đổi đáng kể các niềm tin trước đó.
Cho {X1,⋯,XN} là N quan sát trên một m trạng thái chuỗi Markov với ma trận xác suất
chuyển tiếp cố định pij. pij ¿ 0, i,j = 1,…,m. N là một biến ngẫu nhiên.
công cụ ước tính f=f(X1,⋯,XN) và chức năng E(f)=g(P). (S,f,g) được đặc trưng cho
chuỗi Markov trong đó pij v pi ' j ' (i’ ≠i) không liên quan đến chức năng. bộ ba hiệu quả
không tồn tại nếu m>2 và g là một hàm của hai hoặc nhiều hàng của P.
(https://projecteuclid.org/journals/annals-of-statistics/volume-3/issue-6/Efficient-
Estimation-of-Transition-Probabilities-in-a-Markov-Chain/10.1214/aos/1176343286.full)
Stable Distribution of Markov Chains
Một vấn đề quan trọng trong phân tích chuỗi Markov là hành vi dài hạn (long-term
behavior) của chuỗi. Liệu có tồn tại một phân phối ổn định (stable distribution) cho các
trạng thái và có thể đạt được một phân phối ổn định độc lập với phân phối ban đầu hay
không?
Theo phân phối ổn định, một phân phối xác suất cho các trạng thái là đáp ứng phương
trình π=π ∙ P , tức là phân phối không thay đổi bởi các chuyển đổi (transitions).
Trong trường hợp chuỗi Markov không theo chu kỳ bất khả quy (irreducible aperiodic
Markov chains), tồn tại một phân bố ổn định và sự phân bố này độc lập với sự phân bố
ban đầu của các trạng thái. Điều này biện minh cho thuật ngữ chuỗi Markov sai lệch
(ergodic), bởi vì thuật ngữ đề cập đến thực tế là sự lặp lại theo thời gian dẫn đến sự phân
bố ổn định của các trạng thái.
Sự phân bố ổn định của một chuỗi Markov sai lệch có thể được xấp xỉ bằng phép lặp của
ma trận chuyển tiếp P được thể hiện trong ví dụ bên dưới:
Ví dụ 6.1 (Phân phối ổn định cho chuỗi Markov)
Hãy xem xét một chuỗi Markov đồng nhất với sáu trạng thái được xác định bởi ma trận
xác suất chuyển đổi sau:
Lặp lại ma trận cung cấp phân phối ổn định cho các trạng thái:
π = (0.2088; 0.1769; 0.2585; 0.3878; 0.0408; 0.0272)
Sau 20 lần lặp, độ chính xác của lời giải là bậc 10−4 và sau 30 lần lặp là 10−9.
Ví dụ 6.1 trình bày ý tưởng cơ bản đằng sau thuật toán xếp hạng trang nổi tiếng, thuật
toán này rất quan trọng để phân tích trình duyệt Web. Các trang của Web xác định các
trạng thái của chuỗi Markov và các cạnh được xác định bởi các liên kết đi từ trang. Số
lượng liên kết gửi đi xác định tính trung tâm của một trang. Người dùng Web tạo ra một
chuỗi trạng thái của các trang bằng cách chọn ngẫu nhiên một trang được liên kết. Nếu
cấu trúc của các liên kết giữa các trang xác định một chuỗi Markov theo chu kỳ không
thể điều chỉnh được, thì xác suất chuyển đổi giữa các trang được tạo bởi nhiều người
dùng sẽ tuân theo sự phân phối ổn định cho chuỗi Markov này. Sự phân phối ổn định này
cho các trang web có thể được hiểu là thứ hạng quan trọng của trang. Các phương pháp
khác nhau đã được đề xuất để đảm bảo rằng chuỗi Markov là không thể điều chỉnh được
và không theo kinh nghiệm, ví dụ, lựa chọn ngẫu nhiên tại các trang không có liên kết đi.
Trong các ứng dụng, cần phải cải tiến rất nhiều và nỗ lực tính toán do quy mô của mạng
gây ra cần được xem xét thêm. Một cách là mô hình HITS nổi tiếng là tên viết tắt của
Tìm kiếm chủ đề được cảm ứng siêu liên kết (abbreviation for Hyperlinked Induced
Topic Search). Để trả lời các truy vấn, HITS không chỉ sử dụng xếp hạng trang mà còn
xây dựng một mạng con gồm các trang có liên quan đến chủ đề của truy vấn. Để xây
dựng mạng con của các trang này, thuật toán sẽ xem xét các liên kết đi cũng như các liên
kết đến các trang. Các liên kết đến xác định thẩm quyền của một trang.
6.4.2 Cluster Analysis for Markov Chains
Việc phân nhóm các chuỗi Markov nhằm mục đích tìm các nhóm chuỗi Markov có cấu
trúc tương tự nhau. Thành phần cơ bản của một thuật toán phân cụm (cluster algorithm)
giải thích (diễn giải) chuỗi sự kiện dưới dạng chuỗi Markov và gán (chỉ định) xác suất
chuỗi sự kiện được tạo bởi chuỗi Markov.
Việc giải thích một chuỗi sự kiện dưới dạng chuỗi Markov dựa trên việc giải thích các sự
nij
kiện dưới dạng trạng thái và định nghĩa xác suất chuyển đổi theo Công thức ^pij = . Xem
ni
xét ví dụ sau trong ngữ cảnh của trường hợp sử dụng EBMC2 để chứng minh ý tưởng
trên:
EBMC2 Use Case: Markov Chain Associated to an Event Sequence (Chuỗi
Markov được liên kết với chuỗi sự kiện)
Những người có nốt ruồi nhạy cảm được yêu cầu thực hiện các cuộc kiểm tra phòng ngừa
tại bệnh viện một cách thường xuyên. Nếu không có sự thay đổi nào trong cấu trúc của
nốt ruồi (sự kiện CN), quyết định là tiếp tục khám sức khỏe định kỳ. Trong trường hợp
thay đổi đáng ngờ (CP sự kiện), chẩn đoán mô học được thực hiện với hai kết quả có thể
xảy ra. Trong trường hợp kết quả mô học âm tính (sự kiện HN), vẫn tiếp tục khám định
kỳ; nếu không bệnh nhân phải phẫu thuật (sự kiện EX). Nếu chúng ta thêm một sự kiện
bắt đầu và một sự kiện kết thúc, các chuỗi sự kiện được xác định bởi các sự kiện S =
{CN, CP, HN, HP, EX, start, end}. Một chu kỳ
<start, CN, CN, CP, HN, CN, CP, HP, EX, end>
tạo chuỗi Markov với các xác suất chuyển đổi tích cực sau:
P(CN|start) = 1
P(CN|CN) = 1/3, P(CP|CN) = 2/3
P(HN|CP) = P(HP|CP) = 1/2
P(CN|HN) = 1
P(EX|HP) = 1
P(end|EX) = 1
Cho chuỗi Markov M với xác suất chuyển tiếp P M và xác suất ban đầu π M , chúng ta có
thể tìm xác suất để chuỗi sự kiện e = (e 1, e 2,…, e T ) được tạo bởi chuỗi Markov
P(s|M) = π ( s1)∙ ∏ P M (s i∨sk )
Phương trình này chỉ có ý nghĩa nếu các sự kiện trong chuỗi là một tập con của các sự
kiện xác định chuỗi Markov M. Dựa trên các xác suất này, thuật toán sau có thể được sử
dụng để phân nhóm các chuỗi Markov, giống với cấu trúc của thuật toán k-mean.
Algorithm 7: Markov chain clustering

Data: Ma trận chuyển tiếp P(i ), 1≤ I ≤ n của chuỗi sự kiện; số cụm K.
Result: Giải pháp cụm cho ma trận chuyển tiếp
1 begin
2 Xác định giải pháp ban đầu cho ma trận chuyển tiếp của các trung tâm cụm ( P1, P2,…,
P K );
3 Gán ma trận chuyển tiếp P(i ) của chuỗi sự kiện cho cụm dẫn đến xác suất cao nhất theo
phương trình
P(s|M) = π ( s1)∙ ∏ P M (s i∨sk )
4 Tính toán các trung tâm mới cho các cụm theo cách tính xác suất chuyển đổi của
phương trình
nij
^pij =
ni
5 Lặp lại các bước 2 và 3 miễn là không có thay đổi đáng kể ở các trung tâm;
6 end
Thuật toán không yêu cầu số lượng cụm phải được biết trước. Thuật toán rất phổ biến
trong việc phân cụm dữ liệu tin sinh học, đặc biệt là các chuỗi protein cụm và các gen
cụm từ dữ liệu đồng biểu hiện
Với ý tưởng nếu bạn bắt đầu đi bộ ngẫu nhiên từ một nút, bạn có nhiều khả năng di
chuyển xung quanh trong cùng một cụm hơn là vượt qua các cụm. Điều này là do theo
định nghĩa, các cụm có mật độ bên trong dày đặc trong khi được ngăn cách bởi các vùng
thưa thớt. Trong phân cụm biểu đồ, mật độ và độ thưa thớt được xác định theo tỷ lệ các
khe cạnh có cạnh trong đó.
Bằng cách thực hiện các bước đi ngẫu nhiên trên biểu đồ, có thể phát hiện ra vị trí dòng
chảy có xu hướng tập hợp và do đó, các cụm nằm ở đâu. Số lần đi bộ ngẫu nhiên trên
biểu đồ được tính toán bằng Markov Chains.
Trong một bước thời gian, một người đi bộ ngẫu nhiên tại nút 1 có 33% cơ hội đi đến nút
2, 3 và 4 và 0% cơ hội đến các nút 5, 6 hoặc 7.
Từ nút 2, 25% cơ hội cho 1, 3, 4, 5 và 0% cho 6 và 7.
Ma trận chuyển tiếp:
Tổng các cột bằng 1.
Lưu ý rằng, trong các bước thời gian bắt đầu, trước khi luồng thực sự trộn lẫn, cấu trúc
cụm được phát âm trong ma trận!
Đây không phải là một sự trùng hợp ngẫu nhiên và MCL sử dụng điều này, sửa đổi quá
trình đi bộ ngẫu nhiên để nhấn mạnh hơn nữa sự phân chia giữa các cụm trong ma trận.
Một chuỗi các biến X1, X2, X3, v.v. (trường hợp là ma trận xác suất) trong đó, cho trạng
thái hiện tại, trạng thái quá khứ và tương lai là độc lập.
Xác suất cho bước thời gian tiếp theo chỉ phụ thuộc vào xác suất hiện tại (với xác suất
hiện tại). Đi bộ ngẫu nhiên là một ví dụ về Chuỗi Markov, sử dụng ma trận xác suất
chuyển tiếp.
(https://resources.experfy.com/ai-ml/markov-clustering-algorithm )
(https://sites.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdf)
6.4.3 Generalization of the Basic Model
Các mô hình Markov có thể được khái quát hóa theo nhiều cách khác nhau. Một cách
tổng quát được sử dụng trong nhiều ứng dụng là chuỗi Markov ẩn (hidden Markov
chains).
Definition 6.4 (Hidden Markov Model)
Một mô hình Markov ẩn ( π ,P,B) được xác định bởi các thành phần sau
a) Một quá trình Markov với K trạng thái s1, s2,…, s K và ma trận xác suất chuyển tiếp
P = ( pij).
b) Với mỗi trạng thái tồn tại thêm một thuộc tính V với các giá trị { v1 , v 2,…, v M }, và
với mỗi v m, xác suất có điều kiện b mi = P( v m, si ) cho sự xuất hiện của thuộc tính v m
trạng thái cho trước si được xác định bởi ma trận B.
c) Một phân phối ban đầu π của các trạng thái.
Example of a hidden Markov chain
Ý tưởng đằng sau định nghĩa là các quan sát của hệ thống được tạo ra bởi chuỗi Markov,
nhưng chúng ta chỉ có thể quan sát một chuỗi các thuộc tính. Hình trên cho thấy cấu trúc
của một mô hình Markov ẩn với ba trạng thái và bốn thuộc tính.
Ví dụ về chuỗi Markov ẩn trong bối cảnh y tế có thể là các trạng thái đại diện cho tình
trạng sức khỏe của một người không được quan sát trực tiếp và chỉ một số thuộc tính có
thể được đo lường. Một ví dụ khác là hỗn hợp các mô hình Markov giả định rằng dữ liệu
được tạo ra bởi các chuỗi Markov khác nhau.
Đối với mô hình Markov ẩn, có thể phân biệt ba loại mục tiêu phân tích khác nhau:
Analytical Goals for Hidden Markov Chains
1. Evaluation problem (bài toán đánh giá): Cho một chuỗi các quan sát về các thuộc
tính và các tham số của mô hình, hãy tính xác suất của một chuỗi quan sát được.
Điều này có thể được thực hiện trực tiếp bằng cách áp dụng định lý Bayes. Một
cách hiệu quả hơn là cái gọi là thủ tục chuyển tiếp (the so-called forward
procedure).
2. Decoding problem (bài toán giải mã): Cho một chuỗi các quan sát, chúng ta muốn
tìm hiểu chuỗi trạng thái nào đã tạo ra các quan sát. Vấn đề này được giải quyết
bằng cái gọi là thuật toán Viterbi, một ứng dụng của nguyên tắc lập trình động.
3. Learning problem: Tìm P, B và π của mô hình từ các chuỗi quan sát. Vấn đề này
có thể được coi là một dạng đặc biệt của vấn đề thiếu dữ liệu và có thể được giải
quyết bằng thuật toán EM. Liên quan đến mô hình, nó còn được gọi là thuật toán
Baum – Welch.
Ở đây chỉ đề cập đến một ứng dụng liên quan đến việc phân tích quy trình công việc
trong trường hợp nhật ký quy trình mà không xác định nhãn. Với một mô hình quy trình
làm việc, tất cả các hoạt động hiện thực hóa quy trình làm việc có thể chấp nhận được
đều được xem xét và xác định bằng chuỗi sự kiện tương ứng. Các chuỗi có thể chấp nhận
này xác định các trạng thái của chuỗi Markov ẩn. Các chuỗi có thể chấp nhận này xác
định các trạng thái của chuỗi Markov ẩn. Xác suất xuất hiện của các thuộc tính cho một
trạng thái cụ thể (tức là thực hiện quy trình làm việc) được xác định bởi cấu trúc chuyển
tiếp của trình tự có thể chấp nhận. Nếu các bản ghi sự kiện không được gắn nhãn, vấn đề
có thể được hiểu là phân tích một chuỗi Markov ẩn. Sự khác biệt chính là xác suất có điều
kiện của các thuộc tính được quan sát phụ thuộc vào sự xuất hiện trong trình tự quy trình
công việc, điều này cần một số điểm khác biệt trong bước đánh giá.
6.4.4 Summary: Analysis of Markov Chains
Chuỗi Markov là một mô hình xác suất với nhiều ứng dụng, miễn là dữ liệu ở chế độ xem
trạng thái (state view) với một số trạng thái hữu hạn. Các kỹ thuật phân tích cơ bản để
phân tích cấu trúc của chuỗi Markov đã được thảo luận. Hai câu hỏi quan trọng là ước
tính xác suất chuyển đổi và xác định phân phối ổn định của chuỗi Markov đồng nhất.
Phân phối này đặc trưng cho hành vi dài hạn của chuỗi Markov và là một công cụ cơ bản
để hiểu hành vi lướt Web (the Web surfing behavior).
Hơn nữa, hai ứng dụng của phân tích cụm cho chuỗi Markov đã được mô tả. Để tìm các
cụm trình tự trạng thái từ các trường hợp quy trình khác nhau, một thuật toán đã được
phác thảo. Một ứng dụng thứ hai của phân tích cụm là tìm một cấu trúc trong ma trận
chuyển tiếp.
Cuối cùng, chuỗi Markov ẩn đã được giới thiệu như một sự tổng quát hóa của mô hình cơ
bản. Mô hình này có nhiều ứng dụng trong các lĩnh vực chủ đề khác nhau. Các mục tiêu
phân tích cho chuỗi Markov ẩn đã được phác thảo.

Chapter 6-6.3-6.4

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chapter 6-6.3-6.4

Uploaded by

Copyright:

Available Formats

Chapter 6 Data Mining for Temporal Data

6.3 Time-to-Event Analysis

Template: Time to Event Analysis

Bảng cuộc sống của bệnh nhân mắc u ác tính trên da

Các loại trạng thái trong chuỗi Markov

Một chuỗi Markov hai trạng thái đơn giản

Algorithm 7: Markov chain clustering

Tổng các cột bằng 1.

You might also like