Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 16

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

BÁO CÁO

TÁI NHẬN DẠNG NGƯỜI KHÔNG GIÁM


SÁT THÔNG QUA HỆ THỐNG NHIỀU
CAMERA CÓ KHÔNG CHỒNG LẤP

LÊ DUY ANH DŨNG


Dung.lda198170@sis.hust.edu.vn

Giảng viên hướng dẫn: TS. Trần Đức Toàn


Bộ môn: An toàn và bảo mật thông tin
Viện: Công nghệ thông tin và Truyền thông
MỤC LỤC

I. Giới thiệu................................................................................................................................................2
1. Đặt vấn đề...........................................................................................................................................2
II. Các nghiên cứu liên quan.....................................................................................................................3
1. Unsupervised person Re-ID..............................................................................................................3
2. GAN (Generative Adversarial Networks)........................................................................................3
3. Domain adaptation............................................................................................................................4
III. Giải thuật đề xuất...............................................................................................................................4
1. Camera Style Transfer Model..........................................................................................................4
1.1. Mô hình starGAN.......................................................................................................................5
1.1.1. Generator.................................................................................................................................6
1.1.2. Discriminator...........................................................................................................................7
1.1.3 Công thức tính LOSS FUNCTION..........................................................................................8
2. Iterative Re-ID Framework..............................................................................................................8
2.1. Network with Repelled Loss.......................................................................................................9
2.2. Cluster Merging..........................................................................................................................9
2.3. Dynamic Network Updating....................................................................................................10
3. Clustering Strategy..........................................................................................................................11
3.1. Clustering constraint................................................................................................................11
3.2. Diversity Regularization...........................................................................................................12
IV. Kết quả thực nghiệm.........................................................................................................................12
1. Tập cơ sở dữ liệu..............................................................................................................................12
1.1. The Market1501 dataset...........................................................................................................13
1.2. The DuckMTMC-reID dataset................................................................................................13
1.3 The MSMT17 dataset................................................................................................................13
2. Cách thức thực hiện mô phỏng.......................................................................................................13
3. Kết quả mô phỏng............................................................................................................................14
V. KẾT LUẬN.........................................................................................................................................15
TÀI LIỆU THAM KHẢO.......................................................................................................................16
I. Giới thiệu
1. Đặt vấn đề
Hiện nay, CCTV hay còn gọi là camera an ninh đang được phủ sóng rộng rãi ở nhiều
khu vực trên thế giới nhằm đảm bảo an ninh cho người dân và thực thi pháp luật một
cách chính xác. Các camera trong hệ thống này giám sát hàng trăm địa điểm, hàng trăm
đến hàng nghìn người mỗi ngày nên việc xác định và tìm kiếm đối tượng cần truy vấn
một cách thủ công là hết sức khó khăn và tốn rất nhiều thời gian, công sức. Chính vì thế,
để đảm bảo sự chính xác, tiết kiệm thời gian và chi phí, bài toán tái nhận dạng các đối
tượng cần truy vấn thông qua một hệ thống AI hoàn toàn tự động ngày càng được chú
trọng. Tuy nhiên, đối mặt với đó là rất nhiều các thách thức: sự thay đổi về điều kiện ánh
sáng, điều kiện môi trường, góc quay của camera, hay sự tương đồng về hình dáng bên
ngoài, quần áo của các đối tượng … Vì vậy cần một giải pháp sao cho khắc phục được
các nhược điểm trên của camera dùng AI. Do đó, phương pháp tái nhận dạng người
không giám sát thông qua các camera với góc độ khác nhau ra đời.

II. Các nghiên cứu liên quan

Có rất nhiều nghiên cứu liên quan đến việc tái nhận dạng người trong hệ thống nhiều
camera giám sát, trong đó nổi bật gồm một số công bố sau:
1. Unsupervised person Re-ID
Để thực hiện việc tái nhận dạng người, hầu hết các nghiên cứu trước đây dựa trên
các thông tin toàn cục như thông tin về phân bố màu sắc, hướng tính như (B.Prosser et
al.,2010;Hizer Martin et al., 2011;W.Zheng, 2011;). Các phương pháp nhận dạng này
thường đạt hiệu quả cao khi góc nhìn không có sự thay đổi lớn và đặc điểm hình dáng
bên ngoài của các đối tượng là tương đối khác nhau. Tuy nhiên, khi góc nhìn thay đổi đủ
lớn, các đặc tính hình dáng có nhiều điểm tương đồng hoặc miền nền ánh sáng khá giống
nhau thì hiệu suất nhận dạng khá đáng kể. Gần đây, Lin et al. đề xuất một framework hợp
nhất làm tối ưu mạng lưới neuron tích hợp (CNN) và mối quan hệ giữa các mẫu cá thể.
Tuy nhiên, phong cách của một người có thể ảnh hưởng bởi nhiều camera. Chính vì vậy,
tôi đề xuất đến việc khai thác các hình ảnh khai thác camera với góc độ khác nhau với
mỗi nhân dạng và ứng dụng Camera Style transfer model vào phương pháp này.

2. GAN (Generative Adversarial Networks)

Hiểu đơn giản generative model nghĩa là mô hình có khả năng sinh ra dữ liệu. Hay
nói cách khác, GAN là mô hình có khả năng sinh ra dữ liệu mới. Ví dụ như những ảnh
mặt người ở dưới bạn thấy là do GAN sinh ra, không phải mặt người thật. Dữ liệu sinh ra
nhìn như thật nhưng không phải thật. GAN cấu tạo gồm 2 mạng là Generator và
Discriminator. Trong khi Generator sinh ra các dữ liệu giống như thật thì Discriminator
cố gắng phân biệt đâu là dữ liệu được sinh ra từ Generator và đâu là dữ liệu thật có.
Trong phương pháp được dùng ở bài này, chúng ta sẽ sử dụng StarGAN - một phiên bản
khác của GAN giúp ta có thể dễ dàng thay đổi phong cách của 1 đối tượng thông qua
nhiều domain khác nhau.

Hình 2: Ảnh được tạo ra bằng phương pháp StarGAN

3. Domain adaptation 

Là một mảng trong transfer learning khi phân bố (probability distribution) của dữ
liệu gốc (source domain) khác (nhưng có liên hệ) với miền dữ liệu cần transfer (target
domain). Ví dụ điển hình của domain adaptation là ứng dụng bộ lọc spam (Spam filtering
problem). Mô hình lọc spam được học từ user này (source distribution) sang một user
khác có sự khác biệt đáng kể về email nhận. Domain adaptation cũng được dùng để học
các nguồn dữ liệu không có mối liên hệ trực tiếp. Ngoài ra, domain adaptivation với
nghiên nguồn dữ liệu khác nhau còn gọi là multiple-source domain adaptation. Chúng ta
sẽ dùng phương pháp này để chuyển kiểu từ hình ảnh nguồn thành 1 hình ảnh mong
muốn với chất lượng ảnh sắc nét hơn.

III. Giải thuật đề xuất


1. Camera Style Transfer Model
Với mục tiêu cài đặt AI cho camera, ta có thể khai thác dữ liệu đã được huấn
luyện về sự giống nhau giữa các camera chéo nhau làm thông tin giám sát. Tuy
nhiên cùng 1 nhân dạng nhưng lại cho các hình ảnh khác nhau dưới các camera
khác nhau. Để khắc phục sai sót này, ta có thể ứng dụng Camera Style Transfer
Model để thay đổi phong cách của đối tượng nhưng đồng thời vẫn giữ các nét đặc
trưng của đối tượng. Trong đó, mô hình Deep Learning StarGAN là một trong
những phương án tối ưu nhất để làm việc này.
1.1. Mô hình starGAN

StarGAN thuộc bài toán unsupervised uni-model image to image translation. Thông


thường khi dùng cycleGAN có thể chuyển thuộc tính từ ngựa thường sang ngựa vằn và
ngược lại. Giả sử bài toán giờ là chuyển từ ảnh người tóc đen sang tóc vàng, nam sang
nữ, già sang trẻ, mặt trắng nhợt sang bình thường thì mình cần build 4 model cycleGAN
như vậy không hiệu quả đặc biệt khi số lượng domain mình tăng lên và giờ mình cần một
GAN model có thể học và chuyển đổi nhiều domain khác nhau như tóc, giới tính, tuổi,
da,… Và StarGAN sinh ra để giải quyết vấn đề đấy.

Hình 3.. Ảnh sinh ra từ StarGAN

Generator của StarGAN mang ý tưởng giống với conditional GAN (cGAN)
tức là ta sẽ generate ra ảnh với condition vào điều kiện nào đấy (ở đây là các thuộc
tính mình muốn chuyển đổi sang). Input sẽ là ảnh gốc và target domain mà mình
mong muốn chuyển thuộc tính sang, output sẽ là ảnh sinh ra với các target domain
tương ứng (b). Ảnh sinh ra ở (b) sẽ được truyền đến 2 nhánh ở (c) và (d).
Hình 4. Mô hình StarGAN

Sau đấy ảnh fake sinh ra sẽ kết hợp với các domain gốc ban đầu của ảnh được
cho qua generator với mục đích học lại ảnh ban đầu. Ví dụ: ảnh gốc tóc đen +
domain tóc vàng cho ảnh tóc vàng. Sau đó ảnh tóc vàng sinh ra + domain tóc đen
cho ảnh tóc đen. Ở đây sẽ có construction loss, tức là ảnh sinh ra ở (c) sẽ giống với
ảnh ban đầu input ở (b).

Đối với Discriminator thì input sẽ là 1 ảnh (ảnh fake do nhánh (b) sinh ra hoặc
ảnh thật trong dataset) và sẽ phân biệt đấy là ảnh thật hay ảnh fake. Bên cạnh đó
thì discriminator còn phân loại ảnh tới đúng domain của nó (bài toán multiple
classification) ví dụ input là ảnh tóc vàng và đeo kính thì discriminator sẽ phân
loại là tóc vàng và đeo kính.

Ta thấy StarGAN model gồm duy nhất 1 mạng Generator và 1 mạng


Discriminator. Có 2 điểm khác so với GAN bình thường. Thứ nhất là
reconstruction và thứ hai là classification các domain tương ứng của mỗi ảnh để
giúp StarGAN có thể học và chuyển đổi được nhiều domain.

1.1.1. Generator
Input generator sẽ là ảnh gốc (512*512*3) và 1 vector (5*1) dạng one-hot thể
hiện target domain mà mình mong muốn.
Vector 5*1 sẽ được lặp lại các giá trị thành tensor 3d kích thước 512*512*5
(cùng width và height với ảnh). Mọi người tưởng tượng như ở ma trận 512*512 thì
mỗi ô sẽ chứa giá trị vector 5*1 thì sẽ thành tensor 3d 512*512*5.

Sau đó ảnh gốc sẽ được nối với tensor 3d sinh ra từ vector domain thành tensor 3d kích
thước 512*512*(5+3) = 512*512*8

Sau đó tensor 3d này sẽ được cho vào mô hình generator và cho ra output ảnh màu kích
thước 512 * 512. Mô hình giống với pix2pix dạng U-net và có dùng residual block.

1.1.2. Discriminator
Discriminator input sẽ là 1 ảnh và có 2 output:

 Phân biệt ảnh thật với ảnh fake (binary classification)


 Phân loại ảnh đúng với các domain của nó (multiple classification)

Cấu trúc của Discriminator trong StarGAN giống như 1 Discriminator bình thường, tuy
nhiên ở layer gần cuối sẽ cho qua 2 convolutional layers riêng để cho ra 2 outputs.
1.1.3 Công thức tính LOSS FUNCTION
V (G, D, c, c0 ) = VGAN (D, G, c, c0 ) + λVcyc(G, c, c0 ),

2. Iterative Re-ID Framework

Kế tiếp quá trình Style-transfered, ta có thể thực hiện phương thức Iterative Re-ID
Framework để khai thác dữ liệu từ camera một cách dần dần và ổn định. Như trong hình
5 ta thấy:

Hình 5

Sau khi thực hiện Camera style transfer model, thực hiện quá trình Iterative Re-ID
FrameWork lặp đi lặp lại qua 2 giai đoạn:
- Tạo một Network with repelled loss ( mạng lưới từ chối tổn thất ) cho phép các dữ
liệu phân loại.
- Sau khi phân loại qua thuật toán CNN ,bằng cách khai thác đặc tính nhúng, lại hợp nhất
các dữ liệu lại với nhau.
2.1. Network with Repelled Loss.
Vì ta không có nhãn thực sự của các điểm trong test data, nên ta dán nhãn mỗi hình
ảnh vào cụm ban đầu khác nhau, tức là {yˆi = i | 1 ≤ i ≤ N} trong đó y^i là index for xi và
là thay đổi động. Lưu ý rằng, dù có nhiều hình ảnh được xử lý qua Camera Style Transfer
Model nhưng số lượng ảnh được trong mỗi giai đoạn không được tăng lên. Thay vào đó,
với mỗi hình ảnh được xử lý ban đầu không được dán nhãn, ta sẽ sử dụng ảnh người đi
bộ dưới mỗi camera chọn ngẫu nhiên, có thể là ảnh gốc hoặc ảnh đã được xử lý qua
StarGAN. Bằng cách này, trong quá trình khởi tạo, network học cách nhận ra từng ảnh
được xử lý trên camera thay vì nhân dạng của người đó và có được khả năng phân biệt
ban đầu. Trong những quá trình lặp lại sau đó, ta có thể dần dần kết hợp sự tương đồng
trong nhận dạng bằng cách nhóm các hình ảnh tương tự thành cụm . Cụm sau đó có thể
giảm thiểu phương sai trong cụm và tối đa hóa phương sai giữa các cụm. Công thức tính
xác suất hình ảnh x thuộc cụm thứ c là:

trong đó
2.2. Cluster Merging

Hình 6
Sau giai đoạn huấn luyện đầu tiên, các mẫu được huấn luyện trở nên xa cách nhau trong
không gian đặc tính đã học. Tuy nhiên, các hình ảnh được chuyển kiểu và các các hình
ảnh có cùng nhân dạng thường giống nhau về mặt hình ảnh hay còn gọi là tương đồng với
nhau. Do vậy, chúng ta áp dụng phương pháp được miêu tả qua hình 6 để đạt được mục
tiêu bằng cách hợp nhất các hình ảnh lại thành 1 class.
Trong đó mỗi vòng tròn biểu thị 1 hình ảnh cá nhân cần xử lí, K biểu thị số lượng cụm
trong mỗi lần lặp, sau mỗi lần xử lý lặp lại, ta hợp nhất cụm dựa trên đặc tính tương tự
giai đoạn hiện tại bằng cách hợp nhất cụm từ dưới lên dựa vào thuật toán tối ưu CNN .
Bằng cách này, các hình ảnh cùng 1 nhân dạng dưới cùng 1 camera có thể hợp nhất thành
1 cụm và các hình ảnh được xử lí qua quá trình Style-transfered cũng dễ dàng hợp nhất
thành hình ảnh gốc.
2.3. Dynamic Network Updating

Hình 7

Dynamic Network Updating là một Framework có tính lặp lại nhằm huấn luyện
network và hợp nhất các cụm. Kết quả của các cụm sau đó được cung cấp cho network để
cập nhật thêm. Toàn bộ quá trình cập nhật này được thể hiện trong thuật toán 1 ở hình
trên.
Như vậy, sự giống nhau giữa các camera sẽ được khai thác bởi các cụm, và network sẽ
dần dần được huấn luyện với nhiều sự giám sát hơn để có thể phân biệt được ảnh nhiều
hơn. Số lượng của cụm được khởi tạo bằng số lượng ảnh được huấn luyện. Sau mỗi lần
hợp nhất các cụm thì các nhãn của ảnh được huấn luyện ( the labels of the traning
images) sẽ được đánh lại bằng một ID mới của cụm. Các lớp bộ nhớ của trình tối ưu hóa
sẽ được tái khởi tạo thành vector 0 để tránh bị kẹt trong tiêu chuẩn tối ưu cục bộ. Ta sẽ
huấn luyện liên tục network cho đến khi quan sát thấy sự sụt giảm hiệu năng trên
valadition set (bộ dữ liệu để giám sát mô hình). Mô hình thử nghiệm tạo ra được kết quả
tốt nhất trên valadition set sẽ được chọn làm mô hình hoàn chỉnh.

3. Clustering Strategy

3.1. Clustering constraint


Để hợp nhất các cụm, khoảng cách giữa mỗi ảnh được tính toán như hình 5 được minh
họa dưới đây.

Hình 8

Tuy nhiên, với sự hỗ trợ của mô hình Style Transfer Model, tập dữ liệu đã được huấn
luyện được phóng to L lần với các hình ảnh fake được tạo ra bằng Style Transfer Model.
Khoảng cách giữa các hình ảnh sau đó có thể được chia thành 3 loại: “fake-fake”, “real-
fake” và “real-real”. Các biến thể camera có thể được giảm đi nhờ tích hợp liên kết “real-
fake” vào trong cụm. Tuy nhiên, việc hợp nhất 2 hình ảnh fake-fake sẽ đưa nhiễu vào
framework, cùng với đó thời gian tính toán giữa các hình ảnh fakes cũng mất rất nhiều
thời gian. Trong làm việc, ta phải áp dụng một rằng buộc giữa các cụm nhằm chỉ xem xét
mối quan hệ giữa các hình ảnh “real-fake” và “real-real” trong quá trình hợp nhất, bỏ qua
quá trình hợp nhất ảnh “fake-fake”. Như trên hình 8, nếu ta tính toán khoảng cách giữa 2
hình ảnh “fake-fake” thì theo a) và b) 2 vòng tròn màu xanh lục sẽ được hợp nhất trong 1
cụm bởi vì chúng gần nhau. Tuy nhiên, với rằng buộc hợp nhất (Clustering constraint) thì
theo c) chúng ta có thể hợp nhất được các vòng tròn màu xanh lam và vàng. Sự khác biệt
giữa 2 cụm D(A,B) có thể được tính toán theo công thức:

3.2. Diversity Regularization


Với các cụm đã được hợp nhất, số lượng class sẽ giảm dần, còn số lượng ảnh trong cụm
sẽ tăng lên. Mặc dù ta không thể biết được chính xác số lượng ảnh trong mỗi danh tính, ta
có thể đặt giả thiết rằng các ảnh đều được phân bố đồng đều trong các danh tính, và các
danh tính khác nhau nên được phân bố rải rác trong các cụm khác nhau. Điều này ngụ ý
rằng một cụm không nên chứa nhiều hình ảnh hơn các cụm khác. Để tránh các cụm dư
thừa và các cụm nhỏ hợp nhất được với nhau, ta nên kết hợp các Diversity Regularization
thành 1 tiêu chuẩn khoảng cách.

Ở đây, |A| được biểu thị như là số lượng mẫu thuộc về


nhóm A. Sau đó, sự không giống nhau cuối cùng được tính bằng:

Trong đó λ là tham số nhằm cân bằng tác động của khoảng cách và sự thay đổi. Lí do cần
thêm Diversity Regularization là do tồn tại một số hình ảnh nhân dạng giống nhau do
mặc cùng quần áo. Nếu không có Diversity Regularization, thuật toán có thể hợp nhất các
nhân dạng tương tự nhưng khác nhau này thành 1 cụm do bị nhầm lẫn.
Ta có xu hướng hợp nhất các cụm nhỏ lại với nhau, trừ khi khoảng cách giữa d(xa,xb) quá
nhỏ. Quy trình này được minh họa trong hình 8b) và 8c). Trong đó, hình 8b) cho thấy kết
quả hợp nhất mà thiếu Diversity Regularization: cụm màu vàng và xanh lam có khoảng
cách ngắn nhất (bỏ qua khoảng cách giữa 2 fakes images) và do đó hợp nhất các hình tròn
màu vàng và xanh lam thành 1 cụm màu vàng. Tuy nhiên 2 cụm này quá lớn nên không
nên để chúng hợp nhất với nhau. Thay vào đó, như hình 8c) chúng ta nên hợp nhất 2 cụm
màu xanh lam và màu xanh lá với nhau thay thế.
IV. Kết quả thực nghiệm

1. Tập cơ sở dữ liệu

Dưới đây là những cơ sở dữ liệu được sử dụng để làm cơ sở dữ liệu mô phỏng. Tất cả 3
cơ sở dữ liệu đều là những cơ sở dữ liệu với quy mô lớn được sử dụng phổ biến và rộng
rãi để kiểm tra sự hiệu quả của phương pháp tái nhận dạng đối tượng.
1.1. The Market1501 dataset
Là một benchmark dataset với quy mô lớn công khai. Nó bao gồm 1501 nhân dạng
với 6 camera có góc độ quay khác nhau, trong đó có 12.936 ảnh của 751 nhân dạng được
huấn luyện và 19.732 ảnh của 750 nhân dạng đang kiểm thử. Với style transfer model, 5
ảnh tương ứng với camera style cho mỗi dữ liệu được huấn luyện. Cuối cùng, ta thu được
một tập hợp dữ liệu gồm 77.616 ảnh.
1.2. The DuckMTMC-reID dataset
Là một tập cơ sở dữ liệu con của DukeMTMC dataset, nó lưu trữ khoảng 1812 nhân
dạng được chụp lại bởi 8 camera. Cứ mỗi 2 camera có hơn 1404 nhân dạng xuất hiện và
có 408 nhân dạng còn lại là hình ảnh để đánh lạc hướng. Bằng cách sử dụng giao thức
“Unlabeled samples generated by gan improve the person re-identification baseline in
vitro” của chính tác giả, cả 2 bộ thử nghiệm huấn luyện và kiểm thử đều có 702 nhân
dạng. Gồm có 2228 hình ảnh truy vấn, 16522 hình ảnh được huấn luyện và 17661 hình
ảnh thư viện. Với the style transfer model, 7 hình ảnh tương ứng với camera style được
tạo ra bởi mỗi ảnh được huấn luyện. Cuối cùng ta thu được một tập hợp gồm 132.176
hình ảnh.
1.3 The MSMT17 dataset
Là tập cơ sở dữ liệu lớn nhất về re-ID, lưu trữ khoảng 126.441 ảnh của 4101 nhân
dạng được chụp bởi 15 camera. Để thử nghiệm, 32.621 ảnh của 1041 nhân dạng đã được
huấn luyện và 93.820 ảnh của 3.060 nhân dạng. Với the style transfer model, 14 ảnh đã
được tạo ra trong thuật toán camera style tương ứng với mỗi ảnh được huấn luyện.

2. Cách thức thực hiện mô phỏng

Để tái nhận dạng, tác giả sử dụng đường cong Cumulative Matching Characteristic
(CMC) và MAP (Mean Average Precision). Đây là độ đo tổng hợp kết quả của nhiều
query, được sử dụng rất phổ biến dùng để đánh giá hiệu suất của từng phương pháp. Tác
giả áp dụng 2 phương pháp để do chất lượng của bộ phân lớp dựa vào Precision &
Recall: Precision & Recall curve và F-score. Đối với mỗi truy vấn, độ chính xác trung
bình của nó được tính toán bằng phương pháp đánh giá bằng chỉ số đường cong
“prescision & recall curve”. MAP được tính toán là độ chính xác trung bình của tất cả
các truy vấn. Tôi báo cáo điểm RANK-1, RANK-5, RANK-10 để tượng trưng cho đường
cong CMC. Các điểm CMC này phản ánh độ chính xác của precision và MAP thì phản
ánh việc Recall. Đối với phương pháp the style transfer model, tác giả sử dụng 3 tập cơ
sở dữ liệu là Market-1501, DukeMTMC-reID and MSMT17. Trong khi huấn luyện, tác
giả chọn ra những phép lật và sự cắt xén ngẫu nhiên. Tác giả đã huấn luyện genetor và
discrimator cho 200 epochs, trong đó điểm đánh giá là 0.0001 tại 100 epochs đầu tiên, và
giảm tuyến tính về 0 đối với 100 epochs còn lại. Cuối cùng, với mỗi ảnh được huấn luyện
thu được 5 ảnh cho Market-1501, 7 cho DukeMTMC-reID và 14 cho MSMT17.
Đối với re-ID network, tác giả sử dụng ResNet-50 làm xương sống của CNN. Khởi tạo
trước hết bằng ImageNet được huấn luyện trước đó với sự loại bỏ lớp phân loại cuối
cùng. Đối với tất cả thử nghiệm không được định rõ, tác giả đặt số lượng số lượng epochs
trong lần đầu tiên là 20, và huấn luyện các epochs trong những lần lặp sau đó là 2.

3. Kết quả mô phỏng

Bảng 1: So sánh kết quả tái nhận dạng người với các phương pháp khác nhau trên bộ cơ sở dữ liệu Market-
1501 và DukeMTMC-ReID

Bảng 2: So sánh kết quả tái nhận dạng người với các phương pháp khác nhau trên bộ cơ sở dữ liệu MSM17
Hình 9: Đường cong hiệu suất với các giá trị khác nhau của tham số điều chỉnh phân tập λ trên Market-1501.

Hình 9 biểu diễn kết quả các đường CMC của các giải thuật MAP. Nhìn vào đồ thị ta
có thể thấy so với giải thuật gốc ban đầu có cải tiến tương đối độ chính xác ở RANK-1.
Bảng 1 so sánh kết quả nhận dạng với các phương pháp khác nhau BOW(LIANG
ZHEN ) , OIM, UMDL, PUL, EUG, Progressive, SPGAN, TJ-AIDL và cho thấy kết quả
phương pháp của ta là phương pháp tối ưu nhất.

V. KẾT LUẬN
Trong báo cáo này, tôi đề xuất phương pháp giải quyết nhiệm vụ tái nhận dạng người
không giám sát thông qua hệ thống camera không chồng lấp bằng cách khai thác sự
tương đồng của mỗi camera khác nhau về một đối tượng. Cụ thể là, ta áp dụng một mô
hình chuyển đổi phong cách của từng đối tượng gọi là “ The style transfer model ” trên
các hình ảnh được huấn luyện để tạo ra hình ảnh chuyển đổi phong cách dưới các máy
ảnh khác nhau. Sau đó, đào tạo một mạng lưới cho phép các dữ liệu phân loại ra rồi sau
đó lại hợp vào thành từng cụm tương đồng nhau. Quá trình này lặp đi lặp lại làm giảm
các hình ảnh nhiễu cho đến khi nhận dạng được đối tượng mong muốn qua nhiều camera
khác nhau. Phương pháp này đạt hiệu suất cao nhất so với các phương pháp trước đó và
hoạt động thuận lợi trên các tập dữ liệu lớn được công bố. Đây là giải pháp cho nền cách
mạng AI 4.0 giúp nâng cao sự an toàn và tiện dụng cho cuộc sống sau này.
TÀI LIỆU THAM KHẢO

1. Z. Zheng, L. Zheng, and Y. Yang, “Unlabeled samples generated by gan improve the
person re-identification baseline in vitro,” in ICCV, 2015.
2. https://nttuan8.com/bai-9-stargan/ “StarGan là gì?”.
3. https://topdev.vn/blog/thuat-toan-cnn-convolutional-neural-network/ “Tìm hiểu về
convolutional-neural-network”.
4. https://www.upgrad.com/blog/how-does-unsupervised-machine-learning-work?
“Thuật toán học không giám sát được thực hiện như thế nào?”
5. Trần Thanh Toàn, 2015. Tái nhận dạng người trong các hệ thống nhiều camera
giám sát, Luận văn thạc sĩ ngành Kỹ thuật điện tử, TrườngĐại học Bách Khoa,Đại
học Quốc gia Tp HồChí Minh.
6. “Unsupervised Person Re-identification via Cross-camera Similarity Exploration”
Yutian Lin, Yu Wu, Chenggang Yan, Mingliang Xu, and Yi Yang

You might also like