Download as pdf or txt
Download as pdf or txt
You are on page 1of 4

Machine Translated by Google

Hội nghị Quốc tế IEEE lần thứ nhất về Sáng tạo và Đổi mới Tri thức 2018

Nhận diện khuôn mặt thời gian thực dựa trên YOLO

Wang Yang1 , Zheng Jiachun2


(1.Navigation Institute, Jimei University, Xiamen, Fujian, China 2.In
Information Engineering Institute, Jimei University, Xiamen, Fujian, China Số 185
Đường Yinjiang, Quận Jimei, Hạ Môn, Phúc Kiến, Trung Quốc 1.86-18860031081
và 1510109901 @ qq. com 2.86-13806073677 và 415203705@qq.com)

trừu tượng Làm việc liên quan


Là một hệ thống phát hiện mục tiêu, YOLO có tốc độ phát hiện nhanh
và thích hợp để phát hiện mục tiêu trong môi trường thời gian thực. A. Nguyên tắc phát hiện của YOLO
So với các hệ thống phát hiện mục tiêu tương tự khác, nó có độ chính Hình ảnh đầu vào được chia thành lưới đồng nhất S S * , và mỗi ô
xác phát hiện tốt hơn và thời gian phát hiện nhanh hơn. Bài báo này bao gồm (,,,) x ywh và giới
Đối tượng
diện
phát trustC
chosovị
hiện (với
).
trílưới.
Các
củatọa
tâmđộcủa
(,) (,)
wh hộp
là xy ranh
đại
chiều
rộng
dựa trên mạng YOLO và được áp dụng để nhận diện khuôn mặt. Trong bài
và chiều cao của hộp ranh giới phát hiện. Mỗi lưới dự đoán xác suất
báo này, hệ thống phát hiện mục tiêu YOLO được áp dụng để nhận diện
của C loại. Điểm tin cậy phản ánh xác suất của mô hình bao gồm đối
khuôn mặt. Kết quả thử nghiệm cho thấy phương pháp nhận diện khuôn
mặt dựa trên YOLO có độ mạnh mẽ hơn và tốc độ nhận diện nhanh hơn. tượng mục tiêu và độ chính xác của hộp phát hiện dự đoán. Pr ()

Vẫn trong một môi trường phức tạp có thể đảm bảo độ chính xác phát Object là viết tắt của việc có một đối tượng đích nào rơi vào ô này

hiện cao, đồng thời, tốc độ phát hiện có thể đáp ứng các yêu cầu hay không. Nếu có độ tin cậy, nó được định nghĩa là: ( Đối tượng C )

phát hiện thời gian thực Pr () * (Pr, Đối tượng IOU ed Sự thật ) (1)

Từ khóa: YOLO, phát hiện mục tiêu, phát hiện khuôn mặt, phân cụm
chiều

Nếu nó được xác định rằng ô không có đối tượng đích,


Giới thiệu
điểm tin cậy phải bằng không C Đối tượng () 0

IOU là tỷ lệ trùng lặp của giới hạn ứng viên được tạo và ràng buộc
Thuật toán phát hiện mục tiêu phổ biến, chọn vùng quan tâm (ROI)
chân lý cơ bản, nghĩa là tỷ lệ giao nhau và liên kết của chúng.
trên một hình ảnh nhất định làm vùng ứng viên, trích xuất các đặc
điểm của vùng ứng viên, chẳng hạn như đặc tính nhị phân cục bộ [1]
(LBP) hoặc biểu đồ gradient định hướng [2] () ()
khu vực hộp khu vực hộp
IOU (Pr,
ed Truth )
sự thật trước
(2)
(HOG) và phân loại khu vực thông qua trình phân loại đào tạo. Tuy
() ()
khu vực hộp khu vực hộp
sự thật trước
nhiên, trong bối cảnh dữ liệu lớn, các phương pháp học máy dựa trên
Sau khi có được độ tin cậy của từng hộp dự đoán, hộp dự đoán điểm
các mô hình đặt trước đã không thể mô tả chính xác và đầy đủ các đặc
thấp sẽ bị loại bỏ bằng cách đặt giá trị ngưỡng và sau đó thực hiện
tính dữ liệu trong kịch bản ứng dụng.
triệt tiêu không tối đa trên hộp giới hạn còn lại.

Trong những năm gần đây, với sự phát triển mạnh mẽ của học sâu
dựa trên nghiên cứu sâu phát hiện mục tiêu đã có những bước phát
B. Phát hiện mạng
triển vượt bậc. Có hai loại phát hiện đối tượng dựa trên học sâu:
Kích thước của hình ảnh đầu vào là 416 * 416. Sau một loạt các
một là loạt R-CNN dựa trên phát hiện khu vực: Fast R-CNN [3], Faster
thao tác tích chập và chuẩn hóa hàng loạt trên hình ảnh đầu vào, hình
R-CNN [4] và loại kia là SSD hồi quy [5] và YOLO [6]. Dựa trên phương
ảnh đầu vào được lấy mẫu ba lần, 32 lần, 16 lần và 8 lần và thu được
pháp phát hiện mục tiêu theo vùng, nó chứa tất cả các loại bộ phận
bản đồ tính năng đa tỷ lệ.
tạo vùng tiềm năng và các lớp tính năng khác nhau, điều này làm cho
Sau 32 lần lấy mẫu xuống, bản đồ đối tượng địa lý quá nhỏ, do đó
chất lượng thời gian thực của thuật toán không được đảm bảo.
YOLO V3 sử dụng lấy mẫu tăng với kích thước bước là 2 để tăng gấp
đôi kích thước của bản đồ đối tượng địa lý thu được, trở thành 16
Từ thiết kế mạng, sự khác biệt giữa mạng dòng YOLO và RCNN như
lần lấy mẫu xuống. Tương tự, bản đồ đối tượng địa lý được lấy mẫu
sau: (1) đào tạo và phát hiện, trích xuất tính năng và phân loại hồi
trên 16 lần được lấy mẫu với độ dài bước là 2 và bản đồ đối tượng
quy của YOLO, tất cả được thực hiện trong một mạng duy nhất. Đó là
địa lý có kích thước lấy mẫu là 8 lần sẽ thu được, do đó đối tượng
một mạng end-to-end riêng biệt; (2) YOLO coi việc phát hiện đối tượng
địa lý sâu có thể được sử dụng để phát hiện.
như một vấn đề hồi quy Khi hình ảnh được đưa vào mạng, có thể thu
Việc phát hiện mục tiêu ở các quy mô khác nhau là một thách thức, đặc biệt
được vị trí của tất cả các đối tượng trong ảnh, danh mục của chúng
là đối với các mục tiêu nhỏ. Mạng kim tự tháp tính năng (FPN) [8] là một trình
và xác suất tin cậy tương ứng. kết quả phát hiện của chuỗi RCNN có
trích xuất tính năng được thiết kế để cải thiện độ chính xác và tốc độ. Nó
thể được chia thành hai phần: loại đối tượng (phân loại), vị trí đối
thay thế các công cụ trích xuất tính năng trong các bộ dò (chẳng hạn như Faster
tượng và hộp giới hạn (các bài toán hồi quy). Vào năm 2018, Redmon
R-CNN) và tạo ra các kim tự tháp đồ thị tính năng chất lượng cao hơn.
và cộng sự [7] đã đề xuất phương pháp phát hiện mục tiêu của YOLO
V3. Khi chúng tôi kiểm tra hình ảnh 320x320, YOLOv3 chạy trong 22 ms
ở 28,2 mAP, chính xác như SSD nhưng nhanh hơn ba lần!

ISBN: 978-1-5386-5267-1 221


Machine Translated by Google

Hội nghị Quốc tế IEEE lần thứ nhất về Sáng tạo và Đổi mới Tri thức 2018

đối tượng thấp. Để cải thiện hiện tượng này,

wh,được sử dụng thay vì w h , . Như trong hình 2, cho

cùng chiều rộng lỗi ww , lỗi chiều rộng ww sau đó


P t P t

bbox của đối tượng kích thước nhỏ lớn hơn sai số chiều rộng của

ww tp kích thước lớn hơn, do đó tăng cường ảnh hưởng của

sai số chiều rộng của bbox của đối tượng kích thước nhỏ ở một mức độ nào đó.

Sai số chiều cao cũng vậy.

Hình 1 Một mô-đun nhiệt hạch tính năng


Cấu trúc kết nối mạng bao gồm hai tuyến: tuyến dưới lên, tuyến

dừng và kết nối ngang.


Quá trình từ dưới lên thực chất là quá trình chuyển tiếp của
mạng. Trích xuất các tính năng đầu ra của lớp cuối cùng của mỗi
giai đoạn để tạo thành kim tự tháp tính năng. Quá trình từ trên
xuống được thực hiện bằng cách lấy mẫu lên. Trong khi kết nối
ngang là để hợp nhất các kết quả của lấy mẫu lên và bản đồ đối
tượng địa lý có cùng kích thước được tạo từ dưới lên.
Chức năng chính của nhân chập 1 * 1 là giảm số lượng nhân chập
Hình 2 Biểu đồ lỗi bình phương chiều rộng đối tượng
mà không làm thay đổi kích thước của bản đồ đối tượng. Điều này
cho phép có thêm thông tin về đối tượng địa lý có giá trị từ lớp
D. Phân cụm thứ nguyên
lấy mẫu lên và các đối tượng địa lý chi tiết từ bản đồ đối tượng
Mặc dù YOLO V3 đã đạt được kết quả phát hiện tốt, nhưng nó
địa lý trước đó. Các tính năng hàng đầu hợp nhất với tính năng
không hoàn toàn phù hợp cho các nhiệm vụ định vị hình ảnh. Do
lấy mẫu lên và lấy mẫu xuống, và mỗi lớp được dự đoán độc lập.
đó, các cải tiến tương ứng đối với YOLO V3 được thực hiện cho
các vấn đề cụ thể.
C. Mất chức
Khi đào tạo mạng, đặc điểm kỹ thuật ban đầu và số lượng khung
năng Chức năng mất mát của bộ điều hợp YOLO V3 có nghĩa là
ứng viên là bắt buộc. Với số lần lặp lại mạng ngày càng tăng,
lỗi bình phương, bao gồm ba phần: lỗi tọa độ, lỗi IOU và lỗi mạng học các đặc điểm khuôn mặt và các thông số của hộp dự đoán
phân loại.
được điều chỉnh liên tục đến gần hộp thực cuối cùng. Mỏ neo của
2
SB ^ ^
YOLO V3 được xác định bởi các lớp tổng hợp dữ liệu VOC2007 và
) ( )]
2 2
[( xx yy
phản đối

coord ij tôi tôi tôi tôi

VOC2012. Hai tập dữ liệu này rất phong phú về chủng loại và các
tôi 0 j 0
tham số của neo được xác định là phổ biến, nhưng không phù hợp
2
SB ^ ^
cho các nhiệm vụ phát hiện cụ thể. Do đó, các hoạt động phân cụm
+ phản đối

[( ww hh )
2
( )]
2

coord ij tôi tôi tôi tôi


cần được thực hiện lại trong tập dữ liệu phát hiện.
tôi 0 0j

2
SB ^
Để tăng tốc độ hội tụ và cải thiện độ chính xác của nhận diện
CC
2
+ () (3)
phản đối

ij tôi tôi
khuôn mặt, phương pháp k-mean được sử dụng để phân cụm và thu
0 0j
được các tham số khung ứng viên ban đầu gần nhất với khung biên
tôi

2
SB ^
khuôn mặt trong ảnh.
CC
2
+ ()
phản đối

noobj ij tôi tôi


Nói chung, phân cụm k-mean sử dụng khoảng cách Euclidean
0 ij 0
để đo khoảng cách giữa hai điểm. Trong bài báo này, IOU
được sử dụng để thay thế khoảng cách Euclide theo phương
2
S ^

2
(()
pc pc ()) tiện k. Chức năng mục tiêu của phân cụm là: ( d box
phản đối

tôi tôi

tôi 0 Lớp C
,
centroid , )
) 1 ( IOU box centroid (4)

Trong quá trình truyền ngược của quá trình huấn luyện, giả
Thử nghiệm
thiết rằng hộp các vật thể lớn và nhỏ có cùng chiều rộng
Môi trường thử nghiệm: bộ vi xử lý là Inter Core i7-7770, CPU
đệ
P t là 3.60GHZ * 8, bộ nhớ 7.7GB, GPU là GTX 1080. Hệ điều hành là
tỷ lệ lỗi
, ( wp là giá trị dự đoán và wt là Ubuntu16.04, 64-bit. Khung học sâu là darknet
w
P

giá trị thực). Lỗi chiều rộng wwP t


bbox kích thước lớn sẽ là
A.Data Set
nhỏ hơn đáng kể so với lỗi chiều rộng ww có kích thước nhỏ,
P t
Thử nghiệm này sử dụng tập dữ liệu WIDER FACE. Trong quá trình
dẫn đến tỷ lệ chính xác của dự đoán chiều rộng bbox là nhỏ đào tạo, thuật toán SGD được thông qua. Có 30.200

222 ISBN: 978-1-5386-5267-1


Machine Translated by Google

Hội nghị Quốc tế IEEE lần thứ nhất về Sáng tạo và Đổi mới Tri thức 2018

tổng số lần lặp lại trong quá trình đào tạo. Tỷ lệ học tập là 0,001
và tỷ lệ học tập giảm xuống ở mức 5000 và 20000 lần.
B. Kết quả

Tương ứng trong ba tập dữ liệu: Celeb Faces [9], FDDB [10], WIDER
FACE [8] chọn một số hình ảnh trên kết quả kiểm tra xác minh. (a) và
(b) từ tập dữ liệu Celeb Faces, (c) và (d) từ tập dữ liệu FDDB, (e)
và (f) được đo trên MẶT NẠ RỘNG.

(e)

(một) (b)

(f)

Hình 3 Kết quả thử nghiệm

20 hình ảnh được chọn từ ba tập dữ liệu và kích thước hình ảnh
được điều chỉnh tương ứng để có được thời gian phát hiện trung bình,
như được thể hiện trong bảng 1.
BẢNG I
THỜI GIAN PHÁT HIỆN HÀNG KHÔNG 178

Kích cỡ hình * 218 450 * 320 2014 * 680


(c)
(Các) thời 0,027199 0,027246 0,029455

gian phát hiện

Sự kết luận

So với thuật toán truyền thống, phương pháp nhận diện khuôn mặt
dựa trên yolo v3 có thời gian phát hiện ngắn hơn và độ bền cao hơn,
có thể giảm tỷ lệ bỏ lỡ và tỷ lệ lỗi. Nó vẫn có thể đảm bảo tốc độ
kiểm tra cao trong môi trường phức tạp và tốc độ phát hiện có thể đáp
ứng yêu cầu thời gian thực và đạt được hiệu quả tốt.

Nhìn nhận

(d) Công việc này được hỗ trợ tài chính bởi khoa học và

dự án công nghệ trọng điểm tỉnh Phúc Kiến 2017H0028

nền tảng khoa học tự nhiên của tỉnh Phúc Kiến (2013J01203), Các tác
giả xin một lần nữa xin cảm ơn.

Tham khảo

[1] Li L, Feng X, Xia Z, et al., Phát hiện giả mạo khuôn mặt với mạng
mẫu nhị phân cục bộ, ấn bản lần thứ 54, Tạp chí giao tiếp trực
quan và biểu diễn hình ảnh, 2018, trang 182-192.
[2] Kim S, Cho K, Đánh đổi giữa độ chính xác và tốc độ để phát hiện
người đi bộ bằng tính năng HOG, IEEE, Berlin,

ISBN: 978-1-5386-5267-1 223


Machine Translated by Google

Hội nghị Quốc tế IEEE lần thứ nhất về Sáng tạo và Đổi mới Tri thức 2018

Đức, trang 207-209, tháng 9 năm 2013.

[3] Girshick R, Fast R-CNN, IEEE ICCV. trang 1440-1448, 2015.

[4] Ren S, He K, Girshick R, et al., Faster R-CNN: Hướng tới phát hiện đối tượng thời

gian thực với mạng đề xuất vùng, Những tiến bộ trong hệ thống xử lý thông tin

thần kinh. trang 91-99, 2015.

[5] Liu W, Anguelov D, Erhan D, et al., Ssd: Máy dò multibox bắn một lần. Xuất bản

lần thứ 9905, IEEE ECCV, 2016, trang 21-37.

[6] Redmon J, Divvala S, Girshick R, và cộng sự, Bạn chỉ nhìn một lần: Phát hiện đối

tượng hợp nhất, thời gian thực, IEEE CVPR, 2016, trang 779-788.

[7] Redmon J và các cộng sự, bạn chỉ nhìn một lần: Đối tượng hợp nhất, thời gian thực

phát hiện, chưa được công bố.

[8] Yang S, Luo P, Loy CC, et al., Khuôn mặt rộng hơn: Điểm chuẩn nhận diện khuôn

mặt, IEEE CVPR, 2016, trang 5525-5533.

[9] Yang S, Luo P, Loy CC, et al., Từ phản ứng của các bộ phận trên khuôn mặt đến

nhận diện khuôn mặt: Phương pháp học sâu, IEEE ICCV, 2015, trang 3676-3684.

[10] Jain V, Learned-Miller E, Fddb: Một điểm chuẩn để nhận diện khuôn mặt trong các

cài đặt không bị giới hạn. Báo cáo kỹ thuật UM-CS-2010-009, Đại học Massachusetts,

Amherst, 2010.

224 ISBN: 978-1-5386-5267-1

You might also like