Professional Documents
Culture Documents
Wang Yang1, Zheng Jiachun2: Nhận diện khuôn mặt thời gian thực dựa trên YOLO
Wang Yang1, Zheng Jiachun2: Nhận diện khuôn mặt thời gian thực dựa trên YOLO
Hội nghị Quốc tế IEEE lần thứ nhất về Sáng tạo và Đổi mới Tri thức 2018
Nhận diện khuôn mặt thời gian thực dựa trên YOLO
Vẫn trong một môi trường phức tạp có thể đảm bảo độ chính xác phát Object là viết tắt của việc có một đối tượng đích nào rơi vào ô này
hiện cao, đồng thời, tốc độ phát hiện có thể đáp ứng các yêu cầu hay không. Nếu có độ tin cậy, nó được định nghĩa là: ( Đối tượng C )
phát hiện thời gian thực Pr () * (Pr, Đối tượng IOU ed Sự thật ) (1)
Từ khóa: YOLO, phát hiện mục tiêu, phát hiện khuôn mặt, phân cụm
chiều
IOU là tỷ lệ trùng lặp của giới hạn ứng viên được tạo và ràng buộc
Thuật toán phát hiện mục tiêu phổ biến, chọn vùng quan tâm (ROI)
chân lý cơ bản, nghĩa là tỷ lệ giao nhau và liên kết của chúng.
trên một hình ảnh nhất định làm vùng ứng viên, trích xuất các đặc
điểm của vùng ứng viên, chẳng hạn như đặc tính nhị phân cục bộ [1]
(LBP) hoặc biểu đồ gradient định hướng [2] () ()
khu vực hộp khu vực hộp
IOU (Pr,
ed Truth )
sự thật trước
(2)
(HOG) và phân loại khu vực thông qua trình phân loại đào tạo. Tuy
() ()
khu vực hộp khu vực hộp
sự thật trước
nhiên, trong bối cảnh dữ liệu lớn, các phương pháp học máy dựa trên
Sau khi có được độ tin cậy của từng hộp dự đoán, hộp dự đoán điểm
các mô hình đặt trước đã không thể mô tả chính xác và đầy đủ các đặc
thấp sẽ bị loại bỏ bằng cách đặt giá trị ngưỡng và sau đó thực hiện
tính dữ liệu trong kịch bản ứng dụng.
triệt tiêu không tối đa trên hộp giới hạn còn lại.
Trong những năm gần đây, với sự phát triển mạnh mẽ của học sâu
dựa trên nghiên cứu sâu phát hiện mục tiêu đã có những bước phát
B. Phát hiện mạng
triển vượt bậc. Có hai loại phát hiện đối tượng dựa trên học sâu:
Kích thước của hình ảnh đầu vào là 416 * 416. Sau một loạt các
một là loạt R-CNN dựa trên phát hiện khu vực: Fast R-CNN [3], Faster
thao tác tích chập và chuẩn hóa hàng loạt trên hình ảnh đầu vào, hình
R-CNN [4] và loại kia là SSD hồi quy [5] và YOLO [6]. Dựa trên phương
ảnh đầu vào được lấy mẫu ba lần, 32 lần, 16 lần và 8 lần và thu được
pháp phát hiện mục tiêu theo vùng, nó chứa tất cả các loại bộ phận
bản đồ tính năng đa tỷ lệ.
tạo vùng tiềm năng và các lớp tính năng khác nhau, điều này làm cho
Sau 32 lần lấy mẫu xuống, bản đồ đối tượng địa lý quá nhỏ, do đó
chất lượng thời gian thực của thuật toán không được đảm bảo.
YOLO V3 sử dụng lấy mẫu tăng với kích thước bước là 2 để tăng gấp
đôi kích thước của bản đồ đối tượng địa lý thu được, trở thành 16
Từ thiết kế mạng, sự khác biệt giữa mạng dòng YOLO và RCNN như
lần lấy mẫu xuống. Tương tự, bản đồ đối tượng địa lý được lấy mẫu
sau: (1) đào tạo và phát hiện, trích xuất tính năng và phân loại hồi
trên 16 lần được lấy mẫu với độ dài bước là 2 và bản đồ đối tượng
quy của YOLO, tất cả được thực hiện trong một mạng duy nhất. Đó là
địa lý có kích thước lấy mẫu là 8 lần sẽ thu được, do đó đối tượng
một mạng end-to-end riêng biệt; (2) YOLO coi việc phát hiện đối tượng
địa lý sâu có thể được sử dụng để phát hiện.
như một vấn đề hồi quy Khi hình ảnh được đưa vào mạng, có thể thu
Việc phát hiện mục tiêu ở các quy mô khác nhau là một thách thức, đặc biệt
được vị trí của tất cả các đối tượng trong ảnh, danh mục của chúng
là đối với các mục tiêu nhỏ. Mạng kim tự tháp tính năng (FPN) [8] là một trình
và xác suất tin cậy tương ứng. kết quả phát hiện của chuỗi RCNN có
trích xuất tính năng được thiết kế để cải thiện độ chính xác và tốc độ. Nó
thể được chia thành hai phần: loại đối tượng (phân loại), vị trí đối
thay thế các công cụ trích xuất tính năng trong các bộ dò (chẳng hạn như Faster
tượng và hộp giới hạn (các bài toán hồi quy). Vào năm 2018, Redmon
R-CNN) và tạo ra các kim tự tháp đồ thị tính năng chất lượng cao hơn.
và cộng sự [7] đã đề xuất phương pháp phát hiện mục tiêu của YOLO
V3. Khi chúng tôi kiểm tra hình ảnh 320x320, YOLOv3 chạy trong 22 ms
ở 28,2 mAP, chính xác như SSD nhưng nhanh hơn ba lần!
Hội nghị Quốc tế IEEE lần thứ nhất về Sáng tạo và Đổi mới Tri thức 2018
bbox của đối tượng kích thước nhỏ lớn hơn sai số chiều rộng của
sai số chiều rộng của bbox của đối tượng kích thước nhỏ ở một mức độ nào đó.
VOC2012. Hai tập dữ liệu này rất phong phú về chủng loại và các
tôi 0 j 0
tham số của neo được xác định là phổ biến, nhưng không phù hợp
2
SB ^ ^
cho các nhiệm vụ phát hiện cụ thể. Do đó, các hoạt động phân cụm
+ phản đối
[( ww hh )
2
( )]
2
2
SB ^
Để tăng tốc độ hội tụ và cải thiện độ chính xác của nhận diện
CC
2
+ () (3)
phản đối
ij tôi tôi
khuôn mặt, phương pháp k-mean được sử dụng để phân cụm và thu
0 0j
được các tham số khung ứng viên ban đầu gần nhất với khung biên
tôi
2
SB ^
khuôn mặt trong ảnh.
CC
2
+ ()
phản đối
2
(()
pc pc ()) tiện k. Chức năng mục tiêu của phân cụm là: ( d box
phản đối
tôi tôi
tôi 0 Lớp C
,
centroid , )
) 1 ( IOU box centroid (4)
Trong quá trình truyền ngược của quá trình huấn luyện, giả
Thử nghiệm
thiết rằng hộp các vật thể lớn và nhỏ có cùng chiều rộng
Môi trường thử nghiệm: bộ vi xử lý là Inter Core i7-7770, CPU
đệ
P t là 3.60GHZ * 8, bộ nhớ 7.7GB, GPU là GTX 1080. Hệ điều hành là
tỷ lệ lỗi
, ( wp là giá trị dự đoán và wt là Ubuntu16.04, 64-bit. Khung học sâu là darknet
w
P
Hội nghị Quốc tế IEEE lần thứ nhất về Sáng tạo và Đổi mới Tri thức 2018
tổng số lần lặp lại trong quá trình đào tạo. Tỷ lệ học tập là 0,001
và tỷ lệ học tập giảm xuống ở mức 5000 và 20000 lần.
B. Kết quả
Tương ứng trong ba tập dữ liệu: Celeb Faces [9], FDDB [10], WIDER
FACE [8] chọn một số hình ảnh trên kết quả kiểm tra xác minh. (a) và
(b) từ tập dữ liệu Celeb Faces, (c) và (d) từ tập dữ liệu FDDB, (e)
và (f) được đo trên MẶT NẠ RỘNG.
(e)
(một) (b)
(f)
20 hình ảnh được chọn từ ba tập dữ liệu và kích thước hình ảnh
được điều chỉnh tương ứng để có được thời gian phát hiện trung bình,
như được thể hiện trong bảng 1.
BẢNG I
THỜI GIAN PHÁT HIỆN HÀNG KHÔNG 178
Sự kết luận
So với thuật toán truyền thống, phương pháp nhận diện khuôn mặt
dựa trên yolo v3 có thời gian phát hiện ngắn hơn và độ bền cao hơn,
có thể giảm tỷ lệ bỏ lỡ và tỷ lệ lỗi. Nó vẫn có thể đảm bảo tốc độ
kiểm tra cao trong môi trường phức tạp và tốc độ phát hiện có thể đáp
ứng yêu cầu thời gian thực và đạt được hiệu quả tốt.
Nhìn nhận
(d) Công việc này được hỗ trợ tài chính bởi khoa học và
nền tảng khoa học tự nhiên của tỉnh Phúc Kiến (2013J01203), Các tác
giả xin một lần nữa xin cảm ơn.
Tham khảo
[1] Li L, Feng X, Xia Z, et al., Phát hiện giả mạo khuôn mặt với mạng
mẫu nhị phân cục bộ, ấn bản lần thứ 54, Tạp chí giao tiếp trực
quan và biểu diễn hình ảnh, 2018, trang 182-192.
[2] Kim S, Cho K, Đánh đổi giữa độ chính xác và tốc độ để phát hiện
người đi bộ bằng tính năng HOG, IEEE, Berlin,
Hội nghị Quốc tế IEEE lần thứ nhất về Sáng tạo và Đổi mới Tri thức 2018
[4] Ren S, He K, Girshick R, et al., Faster R-CNN: Hướng tới phát hiện đối tượng thời
gian thực với mạng đề xuất vùng, Những tiến bộ trong hệ thống xử lý thông tin
[5] Liu W, Anguelov D, Erhan D, et al., Ssd: Máy dò multibox bắn một lần. Xuất bản
[6] Redmon J, Divvala S, Girshick R, và cộng sự, Bạn chỉ nhìn một lần: Phát hiện đối
tượng hợp nhất, thời gian thực, IEEE CVPR, 2016, trang 779-788.
[7] Redmon J và các cộng sự, bạn chỉ nhìn một lần: Đối tượng hợp nhất, thời gian thực
[8] Yang S, Luo P, Loy CC, et al., Khuôn mặt rộng hơn: Điểm chuẩn nhận diện khuôn
[9] Yang S, Luo P, Loy CC, et al., Từ phản ứng của các bộ phận trên khuôn mặt đến
nhận diện khuôn mặt: Phương pháp học sâu, IEEE ICCV, 2015, trang 3676-3684.
[10] Jain V, Learned-Miller E, Fddb: Một điểm chuẩn để nhận diện khuôn mặt trong các
cài đặt không bị giới hạn. Báo cáo kỹ thuật UM-CS-2010-009, Đại học Massachusetts,
Amherst, 2010.