Tru Nen GMM

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 4

1.

Mô hình Gaussian hỗn hợp truyền thống:

Stauffer [1] đã đưa ra phương pháp trộn các mô hình nền lại để giải quyết vấn đề ánh sáng thay đổi, các
hành động lặp lại, sự lộn xộn từ khung cảnh thực tế. Mục đích là chứng minh một mô hình nền đơn thì
không thể xử lý được các khung hình liên tục trong một thời gian dài. Sử dụng phương pháp pha trộn
phân tán Gauss để biểu diễn mỗi điểm ảnh trên một mô hình. Theo luận điểm đó, thực hiện và tích hợp
phương pháp này vào trong hệ thống giám sát.

Trong mô hình này, coi các giá trị của điểm ảnh theo thời gian như là một tiến trình điểm. Tiến trình
điểm là một chuỗi giá trị điểm theo thời gian, tức là giá trị cấp xám hoặc là véc tơ đối với ảnh màu được
gán theo thứ tự thời gian. Trong khung hình quan sát ở thời điểm hiện tại t, thì điểm ảnh (x,y) được
quan sát ký hiệu là X t , ở thời điểm t-1 được ký hiệu là X t 1 . Như vậy từ trước đó, thời điểm bắt đầu
đến thời điểm t, ta được tập  X1 X 2 ,..., X t  là một tiến trình điểm. Đây là các yếu tố hướng dẫn cách
lựa chọn mô hình và các thủ tục cập nhật. Dãy { X t } được mô hình hoá bởi K phân bố Gauss. Hay nói
cách khác mỗi điểm ảnh sẽ được theo dõi bằng K Gauss. Xác suất quan sát của điểm ảnh hiện tại được
tính bởi công thức:
K
P( X t )   i ,t  X t , i ,t , i ,t 
i 1

Trong đó:

- i ,t là trọng số tương ứng với Gauss thứ i (i  K) của hỗn hợp Gauss tại thời điểm t
- i ,t là giá trị trung bình của các Gauss thứ i (i  K) của hỗn hợp Gauss tại thời điểm t
-  i ,t là ma trận hiệp phương sai của phân bố Gauss thứ i (i  K) của hỗn hợp Gauss tại thời gian t
-  là hàm mật độ xác xuất được xác định bởi công thức:
1
1   X t  t T 1  X t  t 
  X t | ,   e 2

 2 
n 1
2
 2

K phụ thuộc vào bộ nhớ và khả năng xử lý của máy tính, thường được chọn từ 3 đến 5. Để tiện cho tính
toán, ma trận hiệp phương sai được giả thiết theo dạng sau:

k ,t   k2 I

Trong đó, I là ma trận đơn vị.

Với giả thiết các giá trị màu R, G, B của các điểm ảnh là các thành phần độc lập và có cùng một phương
sai. Khi biểu diễn ảnh trong không gian màu RGB, các màu R, G, B được xây dựng trong không gian tọa độ
3 chiều và liên hệ với nhau trong một hình khối elip. Tuy nhiên để đơn giản có thể giả thiết khối này là
hình cầu, khi đó chúng có cùng một phương sai.

Thủ tục phát hiện các điểm tiền cảnh:

- Trước tiên các phân phối K-Gauss cho một điểm ảnh được khởi tạo với các giá trị trung bình, có
trọng số thấp như các công thức ở trên.
- Khi có một điểm ảnh mới trong chuỗi khung hình được quan sát, để xác định nhãn của nó thuộc
nền hay đối tượng chuyển động, vector RGB được kiểm tra lại với K-Gauss cho đến khi một truờng
hợp đúng được tìm ra. Sự phù hợp được xác định khi giá trị điểm ảnh trong vòng 2.5 độ lệch
chuẩn của một phân phối.
- Tiếp theo, xét K phân phối tại thời điểm t: i,t được cập nhật theo công thức:

k ,t  1    k ,t 1   M k ,t

với  là tỉ lệ học, M k ,t =1 đối với phân phối Gauss và M k ,t =0 đối với các phân phối khác.

- Sau khi bước trên kết thúc, các tham số μ và σ cho các phân phối chưa phù hợp vẫn như cũ. Các
tham số của phân phối mà phù hợp với các quan sát, trước tiên tính tham số  :
    X t | t , k 
Tiếp theo cập nhật các tham số μ và σ như sau:

 t  1    t 1   X t

 2
 t  1     t 1    X t  t   X t  t 
2 T

- Phân phối K-Gauss được sắp xếp bởi giá trị 
 . Theo danh sách này các điểm ảnh thuộc ảnh nền
sẽ tương ứng với xác xuất phân phối có trọng số lớn và ít biến đổi. Trong dãy phân phối K-Gauss
được sắp xếp chọn ra Gauss sao cho tổng các trọng số  là nhỏ hơn một ngưỡng T. Bằng cách
chọn T, có thể chọn phân phối tốt nhất để mô tả nền. Nếu giá trị của T là tương đối nhỏ, mô hình
nền thường là mô hình đơn. Nếu giá trị T là tương đối lớn, các mô hình nền có thể mô tả các tình
huống đã gây ra bởi những thay đổi lặp đi lặp lại của nền. Điều này sẽ tạo ra hiệu quả rõ ràng về
ước tính pixel cùng với hai hoặc nhiều màu sắc khác nhau trong nền. Các mô hình nền được xây
dựng theo sự phân bố Gauss đầu tiên phù hợp với X t với mỗi phân phối Gauss riêng rẽ theo thứ
tự mức độ ưu tiên. Nếu không có phân phối bất kỳ Gauss đó thể hiện sự phân bố nền phù hợp với
X t , điểm này được đánh giá là điểm đối tượng chuyển động, nếu không nó là điểm nền, và sau
đó chúng ta có thể hoàn thành việc phát hiện đối tượng theo mô hình nhiều Gauss thích ứng.

Từ đó phân phối B sẽ được chọn như là một mô hình xác định ảnh nền theo công thức:

b b

B  arg min b  i ,t |  i ,t  T 
 i 1 i 1 
Trong đó: T là giá trị nhỏ nhất của các ước tính nền.

Mô hình GMM cải thiện độ chính xác, phù hợp với các nền động, đặc biệt là các ứng dụng ngoài trời. Độ
phức tạp tính toán tăng lên, chi phí tính toán nhiều hơn so các các phương pháp khác. Phương pháp chọn
α và hoàn toàn có thể lựa chọn hoặc tính toán theo những mức khác nhau phù hợp hơn với sự thay đổi
của ánh sáng. Việc lựa chọn những giá trị này được phân tích trong mục tiếp theo và được gọi là mô hình
GMM thích nghi với ánh sáng thay đổi.

2. Mô hình Gaussian hỗn hợp thích nghi:


2.1 Mô hình GMM
Để thích nghi với những thay đổi trong điều kiện môi trường (độ sáng, nhiễu,…), tập training set cần phải
được thay đổi theo thời gian. Chúng ta chọn chu kỳ thay đổi T phù hợp. Tại thời điểm t, ta có
T   x (t ) ,..., x (t T )  . Mỗi một sample mới, chúng ta sẽ cập nhật training set T và ước lượng lại hàm
mật độ Gaussian mixture. Những mẫu này có thể chứa những giá trị mà thuộc về đối tượng foreground.
Vì thế, chúng ta nên kí hiệu mật độ đã ước lượng là pˆ  x | T , BG  FG  . Ta sẽ sử dụng một GMM với
M thành phần:

 
M
pˆ  x | T , BG  FG    ˆ m N x , ˆ m , ˆ m2 I
m 1

Trong đó, ˆ1 ,..., ˆ m là ước lượng trung bình và ˆ12 ,..., ˆ m2 là ước lượng của biến mà mô tả thành phần
Gaussian. Vì lí do tính toán, ma trận hiệp phương sai sẽ có dạng đẳng hướng. Ma trận đơn vị I có kích
thước phù hợp. Trọng số ước lượng mixing được kí hiệu là ˆ m là không âm và tổng là 1

2.2 Cập nhật thông số


(t )
Giả sử sample mới x ở thời điểm t, có các biểu thức cập nhật thông số là:

ˆ m  ˆ m    omt  ˆ m 

ˆ m  ˆ m  om(t )   ˆ   m
 m 

ˆ m2  ˆ m2  om(t )   ˆ   mT  m  ˆ m2 
 m 

Trong đó,  m  x (t )  ˆ m . Thay vì chu kỳ T đã đề cập ở trước, ỏ đây hằng số  sử dụng để giới hạn sự ảnh

hưởng của dữ liệu cũ (hay còn gọi là hệ số học = 1 ). Đối với một mẫu mới, om( t ) sẽ được set là 1 đối với
T
thành phần “close” có ˆ m lớn nhất, và 0 cho những thành phần Gauss khác. Ta định nghĩa một sample
“close” với một thành phần nếu khoảng cách Mahalanobis từ thành phần này, ví dụ, bé hơn 3. Khoảng
 mT  m
cách bình phương từ thành phần thứ m sẽ được tính là: Dm2 x (t )    ˆ m2
. Nếu không có thành phần

nào “close”, một thành phần mới được tạo ra với ˆM 1   , ˆ M 1  x (t ) , và ˆ m2  02 , trong đó  02 là một
phương sai nào đó thích hợp ban đầu. Nếu số lượng component đã bị tối đa, chúng ta sẽ bỏ qua thành
phần Gauss có ˆ m là bé nhất

Thuật toán trên trình bày một thuật toán phân cụm on-line. Thông thường, các đối tượng foreground sẽ
được represented bởi một vài cluster thêm vào có trong số ˆ m nhỏ. Do đó, chúng ta có thể ước lượng
mô hình nền bởi những cluster lớn B lớn nhất đầu tiên:

 
M
pˆ  x | T , BG  ~  ˆ m N x , ˆ m , ˆ m2 I
m 1
Nếu các thành phần được sắp xếp để có trọng số ˆ m giảm dần (thứ tự hơi khác nhau ban đầu được sử
dụng trong [1]), ta có:

b 
B  arg min b  ˆ m  1  c f 
 i 1 

Trong đó, c f là ngưỡng lớn nhất của dữ liệu có thể thuộc về các đối tượng nền trước mà không ảnh hưởng
đến mô hình nền. Ví dụ, nếu một đối tượng mới đi vào một cảnh và vẫn tĩnh trong một thời gian, nó sẽ
được trình bày tạm thời như một cluster bổ sung. Bởi vì background cũ được giữ nguyên, trong khi trọng
số  B 1 của cluster mới sẽ gia tăng liên tục. Nếu đối tượng tiếp tục tĩnh đủ lâu, trọng số của nó sẽ lớn hơn
c f và nó có thể được xem như là một phần của background. Theo [2], chúng ta có thể kết luận rằng đối
log 1  c f 
tượng nên tĩnh trong khoảng xấp xỉ frame. Ví dụ, cho c f  0.1 và   0.001 , ta
log 1   
có 105 frames, nếu object không di chuyển trong 105 frame này thì nó sẽ được xem như là background.

2.3 Chọn số lượng component

Trọng số  m là tỉ lệ của data point mà nó thuộc về thành phần thứ m của GMM. Có thể xem nó như xác
suất mà một sample được suy ra từ thành phần thứ m. Giả sử rằng ta có t mẫu dữ liệu, và mỗi một trong
số chúng thuộc về 1 thành phần của GMM. Giả sử rằng số lượng mẫu mà thuộc về thành phần thứ m là
t
nm   om( i ) , trong đó om( i ) đã được định nghĩa ở phần trước. Giả sử hàm phân phối đa thức cho nm cho
i 1
M
ta một hàm likelihood L  
m 1
nm
m . Trọng số mixing được ràng buộc bởi tổng tất cả là 1. Qua đó, ta sử

dụng nhân tử Lagrange  . Ước lượng Maximum likelihood từ

Sau khi loại bỏ  , ta có:

nm 1 t (i )
 m(t )    om
t t i 1

Ước lượng từ t mẫu được ký hiệu là

References

[1] S. C., "Adaptive background mixture models for real-time tracking," Adaptive background mixture
models for real-time tracking, Technical report (CVPR 1999), pp. 246-252, 1999.

You might also like