Learning Meta Pattern For Face Anti-Spoofing

Machine Translated by Google
HÀNH TRÌNH CỦA CÁC LỚP LATEX, VOL. 14, KHÔNG. 8, THÁNG 8 NĂM 2015 1
Học Meta Pattern để chống giả mạo trên khuôn mặt

Rizhao Cai, Zhi Li, Renjie Wan, Haoliang Li , Yongjian Hu và Alex C. Kot, Fellow, IEEE
Tóm tắt — Chống giả mạo khuôn mặt (FAS) là điều cần thiết để bảo
Mô hình của các phương pháp lai
mật hệ thống nhận dạng khuôn mặt và đã được nghiên cứu rộng rãi RGB
trong những năm gần đây. Mặc dù mạng nơ ron sâu (DNN) cho nhiệm vụ
FAS đã đạt được kết quả đầy hứa hẹn trong các thử nghiệm nội bộ dữ Thành thật?
liệu với các phân phối dữ liệu thử nghiệm và đào tạo tương tự, khả
Thần kinh
năng tổng quát hóa của các DNN bị hạn chế trong các kịch bản miền (ví dụ: LBP)
Mạng
chéo với các phân phối dữ liệu đào tạo và thử nghiệm khác nhau . Để Khai thác
Lừa đảo?
cải thiện khả năng tổng quát hóa, các phương pháp kết hợp gần đây tính năng
thủ công
đã được khám phá để trích xuất các tính năng thủ công nhận biết
nhiệm vụ (ví dụ: Mẫu nhị phân cục bộ) làm thông tin phân biệt cho
đầu vào của các DNN. Tuy nhiên, việc trích xuất đối tượng địa lý
RGB
thủ công dựa trên kiến thức miền của các chuyên gia và cách chọn Phương pháp của chúng tôi
đối tượng địa lý thủ công thích hợp chưa được khám phá. Vì vậy,
chúng tôi đề xuất một mạng có thể học được để trích xuất Meta
Thành thật?
Pattern (MP) trong khung học để học của chúng tôi. Bằng cách thay
Thần kinh
Mô hình meta
thế các tính năng thủ công bằng MP, thông tin phân biệt từ MP có
Mạng
khả năng học một mô hình tổng quát hơn. Hơn nữa, chúng tôi thiết
Mô hình meta Lừa đảo?
lập một mạng hai luồng để kết hợp phân cấp hình ảnh RGB đầu vào và Vắt
MP được trích xuất bằng cách sử dụng Mô-đun kết hợp phân cấp (HFM)
được đề xuất của chúng tôi. Chúng tôi tiến hành các thử nghiệm toàn
diện và cho thấy rằng MP của chúng tôi hoạt động tốt hơn các tính
năng thủ công được so sánh. Ngoài ra, phương pháp được đề xuất
Hình 1. Sơ đồ trên cho thấy mô hình của các phương pháp lai điển hình, trong đó
của chúng tôi với HFM và MP có thể đạt được hiệu suất hiện đại trên trích xuất thủ công các tính năng thủ công và kết hợp các tính năng thủ công (ví
hai tiêu chuẩn đánh giá tổng quát miền khác nhau. dụ: LBP [1]) với mạng nơ-ron. Sơ đồ dưới cùng minh họa phương pháp Meta Pattern
được đề xuất của chúng tôi. Chúng tôi đào tạo một Meta Pattern Extractor để trích
xuất Meta Pattern để thay thế các tính năng thủ công.
I. GIỚI THIỆU
các cuộc tấn công, các khuôn mặt giả mạo có xu hướng hiển thị chất lượng
Các kỹous
thuật
các nhận
kịch dạng F ACE
bản xác đã danh
thực đượctính
sử dụng trong
và ngày cáctrở nên phổ biến
càng
hình ảnh thấp hơn do Dots Per Inch (DPI) thấp và sự suy giảm màu sắc [3].
trong những năm gần đây. Mặc dù dễ sử dụng, các hệ thống nhận dạng khuôn
Dựa trên những quan sát và phân tích kiến thức miền, các nhà nghiên
mặt rất dễ bị tấn công bằng Trình bày (PA), còn gọi là Tấn công giả mạo,
cứu trước đó [2], [4] - [9] thiết kế nhiều loại đặc điểm thủ công khác
trong đó kẻ tấn công có thể tạo giả mạo khuôn mặt như ảnh in, màn hình kỹ
nhau để mô tả sự khác biệt giữa khuôn mặt thật và giả mạo, đồng thời tận
thuật số, mặt nạ và tiếp tục khởi động các cuộc tấn công giả mạo bằng cách
dụng các đặc điểm thủ công để phát hiện các cuộc tấn công giả mạo. Các
trình bày đồ giả mạo cho cảm biến camera của hệ thống nhận dạng khuôn mặt.
tính năng thủ công khác nhau thường được tạo ra dựa trên các ý nghĩa vật
lý cụ thể khác nhau.

Để đảm bảo an toàn cho các hệ thống nhận dạng khuôn mặt, cả ngành công
Ví dụ: các bộ mô tả hình ảnh thủ công như Mẫu nhị phân cục bộ (LBP) [9]
nghiệp và giới học thuật đang ngày càng chú ý đến vấn đề Phát hiện tấn
và Tính năng mạnh mẽ được tăng tốc (SURF) [7] được sử dụng để mô tả sự
công bằng khuôn mặt (Face PAD), hay còn gọi là Chống giả mạo khuôn mặt
khác biệt về kết cấu giữa mặt thật và mặt giả. Bên cạnh đó, các tính năng
(FAS), nhằm mục đích phân biệt các cuộc tấn công giả mạo từ các nỗ lực
thủ công dựa trên chất lượng hình ảnh đã được đề xuất để phát hiện các
thực sự của chính hãng người dùng.
cuộc tấn công giả mạo bằng cách phân tích chất lượng hình ảnh (ví dụ: làm
Cộng đồng nghiên cứu của FAS tin rằng có sự khác biệt nội tại giữa hình
mờ)
ảnh khuôn mặt được chụp từ các nỗ lực giả mạo (viết tắt là khuôn mặt
[3]. Ngoài phân tích một khung hình đơn lẻ, các tính năng thủ công từ
thật) và các cuộc tấn công giả mạo (viết tắt là khuôn mặt giả mạo) [2].
các khung hình tuần tự cũng đã được đề xuất để phân tích sự khác biệt
Ví dụ, màn hình kỹ thuật số được làm bằng thủy tinh và có hiệu suất phản
chuyển động giữa các khuôn mặt giả mạo từ các khuôn mặt chính hãng trong
chiếu cao, một số mẫu kết cấu như phản chiếu có thể được quan sát thấy
miền thời gian [8], [10], [11]. Mặc dù có khả năng diễn giải trang nhã,
trong các khuôn mặt giả mạo của các cuộc tấn công phát lại. Ngoài ra, đối
nhưng các tính năng thủ công chủ yếu dựa vào kiến thức miền của các
với ảnh in
chuyên gia cũ. Các tính năng này được tạo ra trên cơ sở một số cân nhắc
Rizhao Cai, Renjie Wan, Alex C. Kot đang làm việc tại Phòng thí nghiệm cụ thể và rất ít trong số chúng có thể đối phó với các kiểu tấn công đa
ROSE, Trường EEE, Đại học Công nghệ Nanyang (email: {rzcai; rjwan; dạng.
eackot}@ntu.edu.sg).
Gần đây, mạng nơron sâu cũng đã được sử dụng để tìm hiểu các biểu
Zhi Li đang học tại Trường Kỹ thuật Khoa học Máy tính, Nanyang
Đại học Công nghệ (email: zhi003@e.ntu.edu.sg). diễn tính năng phân biệt theo hướng dữ liệu cho bài toán FAS [12] - [18].
Haoliang Li (* tác giả tương ứng) thuộc Khoa Điện, Đại học Thành phố Các phương pháp dựa trên học tập sâu đã vượt trội hơn các phương pháp
Hồng Kông (email: haoliang.li@cityu.edu.hk).
truyền thống, đạt được hiệu suất mong muốn trong các thử nghiệm nội bộ.
Yongjian Hu đến từ Đại học Công nghệ Nam Trung Quốc, Quảng Châu,
Trung Quốc (email: eeyjhu@scut.edu.cn). Tuy nhiên,
đào tạo mạng nơ-ron sâu chỉ với hình ảnh RGB làm đầu vào và nhãn nhị phân phương pháp đề xuất của chúng tôi có thể đạt được hiệu quả tiên
đơn giản làm giám sát dễ dàng làm cho các mô hình trở nên quá phù hợp với tiến nhất trong các tiêu chuẩn tổng quát hóa miền chéo.
các thuộc tính của dữ liệu đào tạo miền nguồn. Điều này dẫn đến hiệu suất Phần còn lại của bài báo như sau. Phần II sẽ trích dẫn các tài liệu
tổng quát hóa kém trong các thử nghiệm miền chéo trong đó có sự thay đổi liên quan đến công việc của chúng tôi để cung cấp thông tin cơ bản. Phần
miền giữa dữ liệu đào tạo và kiểm tra, bao gồm nhưng không giới hạn ở các III minh họa phương pháp học MP của chúng tôi và trình bày các chi tiết
mức độ chiếu sáng môi trường, thông số kỹ thuật của máy ảnh và vật liệu của HFN. Phần IV trình bày các thí nghiệm về nghiên cứu sơ bộ và nghiên
của phương tiện tấn công giả mạo [12], [19]. cứu cắt bỏ. Trong Phần V, chúng tôi kết luận bài báo này.
Trong số các kỹ thuật khác nhau nhằm mục đích giảm thiểu vấn đề chuyển
đổi miền và cải thiện hiệu suất tổng quát hóa, một hướng nghiên cứu đầy II. CÔNG TRÌNH LIÊN QUAN
hứa hẹn là kết hợp các tính năng thủ công nhận biết nhiệm vụ và mạng nơ
Các phương pháp FAS đa biến dựa trên hình ảnh RGB đã được đề xuất
ron sâu, và các phương pháp này được tóm tắt là phương pháp lai [20].
trong thập kỷ qua và đã trở thành xu hướng chủ đạo của nghiên cứu FAS.
Như được minh họa trong sơ đồ trên cùng của Hình 1, một số phương pháp
Trong phần này, trước hết, chúng tôi xem xét sự phát triển của các
kết hợp cung cấp thông tin phân biệt bằng cách trích xuất các tính năng
phương pháp FAS, từ các phương pháp truyền thống dựa trên các tính năng
thủ công từ hình ảnh RGB (ví dụ: sử dụng LBP [1]) hoặc chuyển đổi hình
thủ công đến các phương pháp gần đây dựa trên học sâu. Bên cạnh đó, chúng
ảnh trong không gian RGB sang không gian khác (ví dụ: không gian HSV [16],
tôi cũng xem xét tiến độ gần đây của các phương pháp tổng quát hóa miền
[21], [22]) làm đầu vào cho mô hình mạng nơron.
cho FAS, những phương pháp phù hợp nhất với công việc của chúng tôi.
Mặc dù chiến lược kết hợp có thể cải thiện hiệu suất tổng quát hóa của
các mô hình ở một mức độ nào đó, các tính năng thủ công được trích xuất
có thể không đủ đại diện và khái quát trong các tình huống phức tạp do các A. Các phương pháp truyền thống để chống giả mạo khuôn
yếu tố đa dạng của vấn đề chuyển đổi miền (ví dụ: các máy ảnh, ánh sáng,
mặt Vì việc giả mạo khuôn mặt của các cuộc tấn công ảnh in và phát lại
phương tiện tấn công khác nhau) . Do đó, làm thế nào để trích xuất và sử
tại các lần truy cập đã trải qua nhiều quá trình chụp, một số khác biệt
dụng các tính năng để cải thiện khả năng tổng quát hóa của các mô hình đặt
về kết cấu như làm mờ, mô hình và nhiễu in có thể được quan sát thấy
ra một thách thức riêng cho bài toán FAS.
trên khuôn mặt giả mạo do ảnh biến dạng chất lượng trong quá trình thu
lại [3], [23]. Các phương pháp truyền thống sử dụng các bộ mô tả hình
Trong công việc này, chúng tôi giải quyết thách thức trên trong một
ảnh như Mô hình nhị phân cục bộ (LBP), Biến đổi đối tượng bất biến theo
khuôn khổ học để học. Chúng tôi tạo ra một mạng nơ-ron có thể học được Φ
tỷ lệ (SIFT), Tăng tốc tính năng mạnh mẽ (SURF), Biểu đồ của các đường
để trích xuất Mẫu Meta (MP). MP thay thế các tính năng thủ công để cung
nét Gradi định hướng (HOG) và Sự khác biệt của Gaussians (DoG) để trích
cấp thông tin phân biệt hoặc phụ trợ cho mạng phân biệt mục tiêu Θ để phân
xuất thủ công các tính năng về thông tin kết cấu [6], [7], [9], [24],
biệt các cuộc tấn công giả mạo (xem phần cuối của Hình 1). Chúng tôi hy
[25]. Xem xét sự biến dạng màu sắc của khuôn mặt giả mạo, Boulkenafet et
vọng mạng có thể học được Φ có thể trích xuất Mẫu Meta đại diện, điều này
al. [2] sử dụng thông tin màu sắc và đề xuất trích xuất các đặc điểm kết
có lợi cho khả năng tổng quát hóa của mạng phân biệt Θ. Cụ thể, một bài
cấu màu sắc từ các thành phần độ chói và độ chói (các kênh hình ảnh tương
toán tối ưu hóa hai mức được đặt ra, trong đó mức tối ưu của Φ và Θ lần ứng trong không gian màu YCrCb hoặc HSV). Các phân tích kết cấu cụ thể cho
lượt ở mức tối ưu bên trong và bên ngoài. Vì việc giải quyết vấn đề tối
các mẫu moire cũng đã được nghiên cứu [4], [26]. Wen và cộng sự. [3] lập
ưu hóa hai cấp là không hề nhỏ, chúng tôi đơn giản hóa tối ưu hóa bằng
luận rằng các đặc điểm kết cấu chứa thông tin về nhận dạng cá nhân, là
một phương pháp xấp xỉ hiệu quả và gọn gàng, có thể dễ dàng giải quyết
thông tin thừa để chống giả mạo và có thể dẫn đến hiệu suất tổng quát hóa
thông qua truyền ngược không đồng bộ (xem Phần III) và không cần mô hình
kém. Do đó, một số công trình đề xuất các tính năng thủ công dựa trên chất
thay thế. Hơn nữa, chúng tôi tạo ra Mạng kết hợp phân cấp hai luồng (HFN)
lượng hình ảnh và phân tích độ méo cho nhiệm vụ FAS [3], [5], [27]. Bên
để kết hợp thông tin gốc từ hình ảnh RGB và thông tin phân biệt từ MP bằng
cạnh đó, một số phương pháp [8], [10], [11] trích xuất các đặc điểm kết
cách sử dụng Mô-đun kết hợp phân cấp (HFM) được đề xuất của chúng tôi.
cấu động từ nhiều khung hình để phân tích thông tin chuyển động trong miền
Các minh họa về HFN và HFM của chúng tôi được hiển thị trong Hình 2.
thời gian khác với miền không gian.
Chúng tôi tóm tắt những đóng góp của mình như sau:
B. Phương pháp học sâu để chống giả mạo khuôn mặt

• Chúng tôi thúc đẩy phương pháp kết hợp tiến thêm một bước nữa để trở
thành phương pháp hướng dữ liệu end-to-end bằng cách học cách trích Mạng nơron sâu cho thấy khả năng học tập tính năng mạnh mẽ và đã được
xuất MP từ dữ liệu, thay vì trích xuất các tính năng thủ công theo cách sử dụng rộng rãi trong các phương pháp FAS gần đây. Yang và cộng sự.
thủ công. [28] là những người đầu tiên đề xuất phương pháp sử dụng VGG-Net [29]
• Chúng tôi tạo ra Mạng kết hợp phân cấp để hợp nhất làm bộ trích xuất tính năng cho nhiệm vụ FAS. Trước tiên, họ trích xuất
hình thành từ nhiều phân cấp tính năng với Mô-đun kết hợp phân cấp các tính năng sâu từ lớp được kết nối đầy đủ của VGG-Net, sau đó đào tạo
của chúng tôi. một bộ phân loại Máy vectơ hỗ trợ (SVM) với các tính năng sâu để phân
• Chúng tôi tiến hành các thí nghiệm rộng rãi để xác minh tính hiệu quả biệt khuôn mặt thật và giả mạo. Được thúc đẩy bởi sự thành công lớn của
của phương pháp được đề xuất. Kết quả thử nghiệm cho thấy rằng MP đã các kỹ thuật học sâu, nhiều phương pháp FAS dựa trên học sâu đã được đề
học của chúng tôi nói chung có thể đạt được hiệu suất tốt hơn so với xuất. Cai và cộng sự. [13] giải quyết vấn đề FAS theo
các tính năng thủ công được so sánh và

một khung học tập củng cố. Từ quan điểm của phát hiện bất thường và học số kỹ thuật tổng quát hóa đã được nghiên cứu rộng rãi trong những năm gần đây
liệu, Li et al. đưa ra một hàm suy hao để tối ưu hóa mạng phân biệt [16]. [12], [32], [39] - [41]. Meta-learning như một cách hiệu quả để giải quyết
vấn đề tổng quát hóa miền chung đã được đưa vào nhiệm vụ chống giả mạo khuôn
Một số phương pháp được đề xuất sử dụng nhãn theo chiều pixel (bản vá) để mặt. Shao và cộng sự. sử dụng meta-learning để điều chỉnh độ dốc được tính
giám sát quá trình đào tạo mạng [17], [21], [30], [31]. Yu và cộng sự. thiết toán từ giám sát bản đồ pixel [39]. Yu và cộng sự. [32] sử dụng meta learning
kế cấu trúc tích chập nhận biết giả mạo để học tập tính năng chi tiết [14], và Neural Architecture Search để tìm kiếm kiến trúc mạng có thể được tổng
[32]. quát hóa cho các miền dữ liệu không nhìn thấy.
Tuy nhiên, việc học mô hình sâu chỉ có hình ảnh RGB làm đầu vào sẽ dễ dàng
làm cho mô hình trang bị quá nhiều dữ liệu đào tạo do đó không thể tổng quát Yu và cộng sự. [40] đề xuất Meta-Teacher tìm hiểu một mạng giáo viên có thể
hóa tốt cho dữ liệu thử nghiệm nếu có sự thay đổi miền giữa miền dữ liệu đào cung cấp các nhãn dành riêng cho dữ liệu để giám sát trong khuôn khổ giáo viên-
tạo và kiểm tra. học sinh. Khác với các phương pháp hiện có, trong bài báo này, chúng tôi đề
Gần đây, một số phương pháp lai kết hợp các tính năng thủ công và mạng nơ- xuất một phương pháp mới để tìm hiểu một mô hình tổng quát hóa miền bằng
ron đã được đề xuất để cải thiện hiệu suất tổng quát hóa của mô hình sâu. Ví cách học cách trích xuất MP từ Meta Pattern Extractor để cung cấp thông tin
dụ, Chen et al. [33] chuyển đổi hình ảnh từ không gian RGB sang không gian phân biệt trong mô hình meta-learning của chúng tôi.
retinex đa tỷ lệ chiếu sáng bất biến (MSR) và đào tạo mạng hai luồng dựa trên
sự chú ý với RGB và MSR. Yu và cộng sự. xây dựng bản đồ chụp cắt lớp nhân tạo
từ xa theo không gian-thời gian (rPPG) để biểu thị tín hiệu nhịp tim và đào
III. PHƯƠNG PHÁP NGHIÊN CỨU
tạo một máy biến áp thị giác để phát hiện các cuộc tấn công bằng mặt nạ 3D.
Trong phần này, chúng tôi hình thành cách học của Φ và Θ như một bài toán
Li và cộng sự. [34] đề xuất phân tích độ mờ chuyển động từ các cuộc tấn công
tối ưu hóa hai cấp và mô tả cách chúng tôi giải bài toán tối ưu hóa bằng
phát lại bằng cách kết hợp các tính năng được trích xuất bởi 1D CNN và Mô
cách sử dụng một phương pháp gần đúng gọn gàng nhưng hiệu quả. Sau đó, chúng
hình Tương tự Cục bộ (LSP). Pinto và cộng sự. [35] cho rằng phương tiện tấn
tôi giới thiệu chi tiết khởi tạo lần lượt về Meta Pattern Extractor Φ và mạng
công và da người là khác nhau. Như vậy, Pinto et al. [35] sử dụng thuật toán
phân biệt Θ (Hierarchical Fusion Network).
Shape-from-Shading (SfS) để trích xuất bản đồ albedo, độ sâu và độ phản xạ làm
đầu vào của SfSNet được đề xuất để phân tích sự khác biệt vật chất giữa mặt
thật và mặt giả. Một số phương pháp lai khác tận dụng các tính năng thủ công
(ví dụ, LBP, HOG) và mạng nơ-ron cũng đã được nghiên cứu [36], [37]. A. Học cách trích xuất Meta Pattern
1) Công thức hóa vấn đề: Vấn đề FAS có thể được coi là một bài toán phân
loại nhị phân: chính hãng hay giả mạo.
Nói chung, mạng nơ-ron Θ có thể được đào tạo để phân loại chính hãng / giả
mạo và việc tối ưu hóa Θ có thể được giải quyết bằng Giảm thiểu rủi ro theo
Mặc dù các phương pháp lai này cải thiện hiệu suất tổng quát hóa của mạng kinh nghiệm (ERM) trên dữ liệu đào tạo, có thể được biểu thị như sau:
nơron sâu, nhưng tính năng thủ công được sử dụng trong mỗi phương pháp lai
dựa trên những cân nhắc đặc biệt.
Do các yếu tố khác nhau của sự thay đổi tên miền, thật khó để xem xét tất cả cãi tối thiểu Ví dụ: y DS L [Θ (x), y], (1)
Θ
các thông tin giả mạo có thể có bằng một loại tính năng thủ công. Hạn chế này
có thể hạn chế các phương pháp kết hợp vì sẽ khó chọn được các tính năng trong đó x là hình ảnh RGB đầu vào, y là nhãn đích, DS biểu thị dữ liệu miền
thủ công mong muốn khi được cung cấp dữ liệu nguồn khác nhau. Do đó, chúng nguồn, Θ (x) biểu thị đầu ra mạng cho đầu vào x và L là hàm mất mát (ví dụ:
tôi đẩy các phương pháp kết hợp tiến thêm một bước tới các phương pháp mất Entropy chéo). Để đơn giản, sau đây, chúng tôi viết lại phép tính hàm tổn
hướng dữ liệu end-to-end bằng cách học cách trích xuất Meta Pattern trong thất L [Θ (x), y] được sử dụng trong Eq. 1 như:
công việc này.
L (x, y | Θ): = L [Θ (x), y]. (2)
C. Phương pháp tổng quát hóa miền để chống giả mạo khuôn mặt
Phương trình 1 có thể được giải bằng Stochastic Gradient Descent chuẩn
Các điều kiện thu thập dữ liệu của dữ liệu đào tạo và thử nghiệm có thể (SGD, không có động lượng). Ở lần lặp thứ t, đã cho một lô dữ liệu {x
t
khác nhau, bao gồm nhưng không giới hạn ở các biến thể của thông số kỹ thuật , yt}, cập nhật của Θ có thể được biểu thị bằng
máy ảnh, ánh sáng môi trường và phương tiện đo lường trước. Các biến thể
t
Θt = Θt 1 - α ΘL (x , yt | Θt 1 ), (3)
như vậy của điều kiện chụp dẫn đến sự thay đổi giữa miền dữ liệu huấn luyện
và thử nghiệm và ngăn cản độ tin cậy của mô hình được triển khai trong các
trong đó α là tốc độ học tập. Để cải thiện khả năng tổng quát hóa, các phương
tình huống thực tế [19]. Để giải quyết vấn đề này, các phương pháp điều
pháp kết hợp hiện có trích xuất các tính năng thủ công nhận biết nhiệm vụ làm
chỉnh miền [19], [38] sử dụng một số dữ liệu miền đích không được gắn nhãn
đầu vào cho mạng nơ-ron. Nếu f biểu thị phương pháp (không thể học được)
để điều chỉnh mô hình được đào tạo với miền nguồn nhằm cải thiện hiệu suất
được sử dụng để trích xuất các tính năng thủ công f (x) trong các phương
trong miền đích. Tuy nhiên, các phương pháp thích ứng miền yêu cầu sử dụng
pháp kết hợp, thì mục tiêu tối ưu hóa có thể được biểu thị
một số dữ liệu miền đích, điều này rất tốn kém để thu thập trong các ứng dụng bằng
trong thế giới thực. Ngược lại, vì tổng quát hóa miền nhằm mục đích tìm hiểu
cãi tối thiểu Ví dụ: y DS L (x, y | Θ, f), (4)
một mô hình có thể được tổng quát hóa hơn cho các miền dữ liệu không nhìn Θ
thấy mà không sử dụng dữ liệu miền đích [12], các phương pháp FAS sử dụng
và gradient cho bản cập nhật trong Eq. 3 có thể được viết lại thành
miền
t
Θt = Θt 1 - α ΘL (x , yt | Θt 1 , f). (5)
HFM
RGB
RM RM RM UpSample
Nhị phân
32x32 Véc tơ
Meta
Mẫu HFM HFM HFM
F
Vắt Bản đồ pixel
C
Mức trung bình theo yếu tố
Các lớp chuyển đổi 3X3

RM RM RM
Lớp được kết nối đầy đủ
Lớp gộp trung bình

Mô hình meta
Mô-đun dư RM
Hình 2. Hình minh họa của Mạng kết hợp phân cấp hai luồng. “RM” đại diện cho mô-đun còn lại từ ResNet [42], “HFM” đại diện cho Mô-đun kết hợp phân cấp của
chúng tôi. Hình ảnh RGB đầu vào được chuyển tiếp đến Trình trích xuất mẫu để tạo ra Mẫu Meta. Sau đó, hình ảnh RGB và Mẫu Meta lần lượt được chuyển tiếp
đến luồng trên cùng và luồng dưới cùng. Các tính năng từ các phân cấp khác nhau của hai luồng được hợp nhất thông qua HFM. Mất Entropy phân loại nhị phân
(LBCE) được áp dụng cho vectơ nhị phân đầu ra từ lớp được kết nối đầy đủ và mất mát sai số trung bình trung bình theo pixel (LMSE) được áp dụng cho bản
đồ pixel đầu ra từ HFM cuối cùng. Đường đứt nét trong biểu đồ của HFM có nghĩa là không có đặc điểm đầu vào nào từ cấu trúc phân cấp 0 (m0) trước đó.
Tuy nhiên, việc tạo f theo cách thủ công có thể rất phức tạp do sự
RGB Mô hình meta
phức tạp của dữ liệu đào tạo nguồn. Do đó, chúng tôi đề xuất sử dụng
mô hình learning-to-learning để thay thế f bằng một Meta Pattern
Extractor Φ có thể học được, được thực hiện bởi một mạng nơ ron
phức hợp, để trích xuất Meta Pattern (MP). Trong mô hình này, chúng
tôi hy vọng rằng MP được trích xuất có thể giúp Θ được khái quát
hơn. Do đó, mục tiêu tối ưu hóa của Φ là cải thiện khả năng tổng
quát hóa của Θ đối với các miền dữ liệu không nhìn thấy được. Dựa
trên Eq. 5, một vấn đề tối ưu hóa hai cấp được tạo ra:
Hình 3. Cấu trúc của Meta Pattern Extractor hai lớp. “Conv” có nghĩa là một
phép toán tích hợp 3 × 3 vani, với cả kích thước phần đệm và khoảng cách là
1. “BN” đại diện cho lớp Chuẩn hóa hàng loạt. “ReLU” và “Sigmoid” lần lượt
Θ = arg minΘ Ví dụ, y DS L (x, y | Θ, Φ ), đại diện cho Đơn vị tuyến tính chỉnh lưu và chức năng kích hoạt Sigmoid.
(6)
st Φ = arg minΦ Ex, y DT L (x, y | Θ, Φ),
trong đó DT đại diện cho dữ liệu miền không nhìn thấy. Trong Eq. 6, Do đó, chúng ta nới lỏng ràng buộc của bài toán ban đầu được định
Φ ở cấp bên trong thay vì cấp trên vì Φ được đào tạo để cung cấp MP nghĩa trong Phương trình 6 và gradient để cập nhật Θ có thể được
làm thông tin phân biệt và phụ trợ, trong khi Θ là mô hình mục tiêu tính gần đúng như sau:
được tối ưu hóa cho việc chống giả mạo khuôn mặt. Do đó, Θ là mục
tiêu tối ưu hóa ở cấp độ trên trong khi Φ là mục tiêu tối ưu hóa ở ΘL (x, y | Θ, Φ ) ≈ ΘL (x, y | Θ, Φˆ). (số 8)
cấp độ bên trong.

2) Giải bài toán tối ưu hóa hai cấp bằng cách tính gần đúng: Bằng cách sử dụng phép tính gần đúng này, chúng tôi tránh được phép
Eq. . tính bậc cao phức tạp của bài toán hai cấp ban đầu.
Trong Thuật toán 1, chúng tôi mô tả lợi ích tối ưu hóa tổng thể
cho Φ và Θ dựa trên phương trình.7 và phương trình.8. Như được
Để giải quyết vấn đề tối ưu hóa hai cấp ban đầu, chúng tôi chuyên
mô tả trong Thuật toán 1, có hai vòng lặp được lồng vào nhau. Trong
nghiệp đưa ra một giải pháp gọn gàng và hiệu quả bằng cách tính gần
vòng ngoài, dữ liệu nguồn từ nhiều miền DS được chia thành Dφ và Dθ
đúng Φ với một cực, tiểu cục bộ
số bước lanΦˆtruyền
có thểngược.
được thực hiện với một
và không có miền nào bị chồng chéo giữa Dφ và Dθ.
Do đó, Dφ là "không nhìn thấy" thành Θ để mô phỏng DT là dữ liệu từ
Trong thực tế, Φˆ có thể nhận được bằng một số bước truyền lùi.
các miền không nhìn thấy trong mỗi vòng lặp bên ngoài. Hơn nữa, quy
Nếu chúng ta chỉ xem xét một bước, giá trị gần đúng của Φ được
trình tối ưu hóa tổng thể rất gọn gàng và hoàn toàn từ đầu đến cuối
viết là
(một giai đoạn). Tính toán gradient bậc cao phức tạp được tránh.
Φ ≈ Φˆ = Φ - ΦL (x, y | Θ, Φ). (7) Hơn nữa, Meta Pattern Extractor Φ có thể

Thuật toán 1: Học cách trích xuất Meta Pattern được sử dụng trong phân loại hình ảnh, làm xương sống cho mỗi luồng.
Các tính năng từ cuối của hai luồng được hợp nhất thành một lớp được kết
1 1. Số lần lặp lại huấn luyện tối đa T, tính gần đúng
nối đầy đủ để thu được một vectơ nhị phân để phân loại. Hơn nữa, chúng tôi
bước K 2
cải thiện hiệu suất tổng hợp bằng cách kết hợp thông tin kỹ lưỡng hơn từ
2. Tốc độ học tập α 3 2. Dữ
các phân cấp tính năng khác nhau. Như thể hiện trong Hình 2, các tính năng
liệu huấn luyện của nhiều miền dữ liệu DS
4 3. Khởi tạo Φ và Θ 5 cho từ các phân cấp tính năng khác nhau được hợp nhất dần dần thông qua Mô-đun
t = 1 để T làm kết hợp phân cấp (HFM) được đề xuất của chúng tôi. HFM được lấy cảm hứng từ
Mạng Kim tự tháp đặc trưng (FPN). Trong khi FPN xây dựng dần dần kim tự tháp
6 Chia ngẫu nhiên DS thành Dφ và Dθ cho phép luyện Φ và Θ tương
tính năng từ các phân cấp khác nhau để cải thiện khả năng phát hiện các đối
ứng. 7 Φ0 Φ
tượng nhỏ [43], chúng tôi tích hợp thông tin từ các phân cấp khác nhau một
cách dần dần để cải thiện sự hợp nhất.

số 8 // Cập nhật Φ với K-shot dữ liệu cho k = 1
9 đến K làm Dữ liệu lô nhỏ mẫu {x

k
10
φ , ykφ }
k Tại phân cấp i của HFN, một hợp nhất HFM Fi hợp nhất các bản đồ tính năng
11 Φk = Φk 1 - α ΦL (x
φ , ykφ |ΦkΘ, 1 )
từ luồng trên cùng (RGB) và biểu thức mb của luồng
thể được
(MP)viết
dướidưới
cùngdạng
của mi có
tôi ,
12 kết thúc
tôi , và kết quả hợp nhất của phân cấp trước đó mi-1. Các
13 // Tính gần đúng Φ theo Φˆ = ΦK Φˆ ΦK
14
15 Mẫu {xθ, yθ} từ Dθ mi = Fi (tấn tôi , mb i , mi 1)

16 Cập nhật Θ theo gradient của Θ L (xθ, yθ | Θ, Φˆ)
= C (mt ) )+ +U C[C
(mb
(mi 1)], i = 1, 2, 3, m0 = 0, (9) trong đó C
17
tôi tôi
Cập nhật Φ bởi ΦK đại

18 kết thúc
diện cho một lớp tích chập được sử dụng để căn chỉnh số các kênh của bản đồ
19 Đầu ra: Φ và Θ được tối ưu hóa đối tượng từ các hệ thống phân cấp ent khác nhau và U là hàm nội suy gần
nhất cho phép ví dụ mi-1 có cùng kích thước với C (mb ) và C (mt ) để có thể
tiến hành phép cộng theo phần tử. tôi
được đào tạo khi đang bay mà không sử dụng mô hình thay thế của Θ và không
tôi
cần đào tạo lại mô hình mục tiêu Θ. Một sơ đồ hợp nhất tương tự cũng kết hợp thông tin từ nhiều phân cấp tính
Để khởi tạo Meta Pattern Extractor Φ, chúng tôi đề xuất tham số hóa Φ bằng
năng cho vấn đề chống giả mạo khuôn mặt là DC-CDN [44]. Sự khác biệt giữa hợp
một mạng nơron tích chập vì các nhân chập có thể hoạt động như các bộ lọc nhất trong HFN của chúng tôi và hợp nhất trong DC-CDN là DC-CDN chỉ trực tiếp
có thể học được được sử dụng để trích xuất các tính năng. Cấu trúc của Φ có
nối các bản đồ đối tượng từ nhiều cấp dọc theo trục kênh [44], điều này đơn
thể được nhìn thấy trong Hình 3, là một mạng nông bao gồm hai lớp chập.
giản nhưng có thể thô, trong khi HFN của chúng tôi hợp nhất thông tin tăng
Chúng tôi không xem xét một mạng sâu bởi vì một mạng sâu thường có nhiều
dần.
tham số hơn và cần nhiều dữ liệu hơn để phù hợp. Trong khi đó, trong giải
pháp gần đúng của chúng tôi, lượng dữ liệu cho phép gần đúng là nhỏ.
Trong phần thí nghiệm, chúng tôi tiến hành nghiên cứu cắt bỏ để so sánh sự
hợp nhất của HFM và sự hợp nhất của nối.
Trong phân cấp hợp nhất cuối cùng, bản đồ đối tượng hợp nhất được sử
Nếu Φ sâu, ước tính có thể không đủ vì lượng dữ liệu nhỏ. Do đó, chúng ta
dụng để dự đoán bản đồ 32 × 32 pixel để tận dụng khả năng giám sát khôn ngoan
tham số hóa Φ bằng một mạng chập của hai lớp chập vani với các hạt nhân chập
của pixel [17], [21], [30], [31]. Do đó, cả giám sát phân loại nhị phân và
3 × 3. Chức năng kích hoạt sigmoid được sử dụng ở cuối để giới hạn phạm vi
giám sát pixel khôn ngoan đều được sử dụng để tối ưu hóa HFN được đề xuất
đầu ra từ 0 đến 1.
của chúng tôi. Chúng tôi áp dụng Binary Cross Entropy mất LBCE cho đầu ra
vectơ nhị phân từ lớp FC, trong đó các mặt giả mạo được gắn nhãn là “0” và
Bên cạnh đó, MP đầu ra có cùng kích thước với hình ảnh RGB đầu vào, theo sau
các mặt chính hãng được dán nhãn là “1”. Chúng tôi áp dụng LMSE mất điểm ảnh
[33], [35]. Trong phần thử nghiệm, chúng ta sẽ thảo luận về các ảnh hưởng
trung bình sai lệch trung bình (MSE) cho các bản đồ pixel đầu ra từ HFN.
của các phép mô tả khác của Φ bằng cách xem xét tích chập chênh lệch trung
Trong tính năng giám sát pixel khôn ngoan, mỗi khuôn mặt giả mạo hoặc khuôn
tâm [14].
mặt thật được gán một bản đồ 32 × 32 pixel mục tiêu với tất cả các phần tử
tương ứng là “0” hoặc “1”. Như vậy, mất mát cuối cùng cho việc tối ưu hóa
B. Mạng kết hợp phân cấp
là
MP được trích xuất cung cấp khả năng phân biệt nhận biết tác vụ được
hình thành cho FAS, trong khi hình ảnh RGB ban đầu chứa thông tin đầy đủ và
chi tiết. Để sử dụng hiệu quả cả thông tin chi tiết và thông tin phân biệt,
L = LBCE + LMSE. (10)
chúng tôi thiết lập một mạng kết hợp phân cấp hai luồng (HFN) Θ để kết hợp
hình ảnh RGB đầu vào và MP trích xuất cho FAS. Như trong Hình 2, luồng trên
cùng của HFN là luồng RGB xử lý thông tin từ ảnh RGB và luồng dưới cùng là
C. Thử nghiệm
luồng MP xử lý thông tin từ MP. Các luồng RGB và MP giống hệt nhau. Đối với
việc cố vấn triển khai, chúng tôi sử dụng ResNet-50 [42], thường là Trong giai đoạn thử nghiệm, chúng tôi kết hợp vector nhị phân đầu ra và
bản đồ pixel để lấy điểm và sử dụng điểm để phân loại. Đối với vectơ nhị
phân đầu ra s = [s0, s1], trong đó s0 [0, 1], s1 [0, 1] và s0 + s1 = 1,
và một đầu ra
Khuôn mặt chân thực Giả mạo khuôn mặt đơn giản, chúng tôi đề xuất gọi cài đặt này là MICY. Chúng tôi cũng
sử dụng MICY để cung cấp một đánh giá rộng rãi hơn. Tiếp theo,
chúng tôi sẽ giới thiệu ngắn gọn 5 bộ dữ liệu này.

CASIA
FASD CASIA-FASD [45] chứa các mặt chính hãng và giả mạo
từ 50 đối tượng chính hãng. Máy ảnh thấp, bình thường và
(b) (C) (d) độ phân giải hình ảnh cao được sử dụng để chụp ảnh khuôn mặt.
(Một)
Do đó, mỗi đối tượng có 3 loại khuôn mặt trực tiếp được chụp
dưới ba độ phân giải khác nhau. Ngoài ra, CASIA-FASD bao gồm
MSU
MFSD của ba loại tấn công 2D, tấn công ảnh cong, ảnh cắt
tấn công và tấn công video. Như vậy, có 3 × 3 = 9 loại
(e) (f) (g) (h) những khuôn mặt giả mạo. Có các phương án chiếu sáng nhưng các phương sai
không được chú thích.
IDIAP IDIAP REPLAY-ATTACK [9] chụp tất cả các sản phẩm chính hãng và
PHÁT LẠI
giả mạo khuôn mặt từ 50 đối tượng chính hiệu. Năm cách cư xử
TẤN CÔNG
bao gồm bốn loại mặt phát lại và một loại mặt in
(tôi) (j) (k) (l) khuôn mặt được sử dụng để sản xuất khuôn mặt giả mạo. Dữ liệu được thu thập
dưới hai điều kiện ánh sáng khác nhau: ánh sáng bình thường và
OULU ánh sáng bất lợi.

NPU MSU-MFSD [3] chứa các khuôn mặt chính hãng và giả mạo từ
35 đối tượng chân thực được chụp bởi hai máy ảnh. Sản phẩm
(m) (n) (o) (P) khuôn mặt giả mạo là từ hai màn hình kỹ thuật số cho các cuộc tấn công phát lại
và từ một máy in để tấn công ảnh. Chỉ có trong nhà
HOA HỒNG
điều kiện ánh sáng để thu thập dữ liệu.
YOUTU OULU-NPU [46] là một tập dữ liệu quy mô lớn với 55 đối tượng.
Hình ảnh khuôn mặt được chụp có chất lượng hình ảnh cao vì
(q) (r) (S) (t)
tập dữ liệu OULU-NPU thu thập dữ liệu về khuôn mặt chính hãng và
giả mạo khuôn mặt bằng sáu camera có độ phân giải cao. Sự giả mạo
Hình 4. Các ví dụ về khuôn mặt chính hãng và khuôn mặt giả mạo từ CASIA-FASD các khuôn mặt bao gồm hai loại khuôn mặt giả mạo được in và hai
tập dữ liệu [45] (hàng 1), tập dữ liệu MSU-MFSD [27] (hàng 2), IDIAP
các loại khuôn mặt giả mạo được phát lại. Dữ liệu được thu thập theo
Tập dữ liệu REPLAY-ATTACK [23] (hàng thứ 3), tập dữ liệu OULU-NPU [46] (thứ 4
ba phiên môi trường.
hàng) và tập dữ liệu ROSE-YOUTU [19] (hàng thứ 5).
ROSE-YOUTU (Phát hiện trực tiếp khuôn mặt ROSE-YOUTU
Cơ sở dữ liệu) [19] là một tập dữ liệu quy mô lớn gần đây của ngành.
ánh xạ pixel m {R + 32 × 32 | m (i, j) [0, 1]}. Điểm số được sử dụng cho Nó thu thập dữ liệu từ 20 đối tượng. Đối với mỗi chủ đề, có
sự phân loại được tính bằng
25 video chính hãng và 150 đến 200 khuôn mặt giả mạo, được quay bởi
s1 + trung bình (m) năm loại mô-đun máy ảnh, máy ảnh mặt trước của Hasee
S = . (11)
2 điện thoại, điện thoại Huawei, điện thoại ZTE, iPad và iPhone 5s, chẳng hạn như
rằng độ phân giải nằm trong khoảng từ 640 × 480 đến 1280 × 720.
Điểm S [0, 1] thể hiện xác suất của đầu vào
Ngoài các cuộc tấn công bằng ảnh và các cuộc tấn công phát lại video, bộ
là "chính hãng".
dữ liệu ROSE YOUTU liên quan đến các cuộc tấn công mặt nạ giấy khác nhau.
Hơn thế nữa, ROSE-YOUTU bao phủ đa dạng 5 loại ánh sáng khác nhau
IV. THÍ NGHIỆM
điều kiện. Một số ví dụ về khuôn mặt từ năm tập dữ liệu này là
A. Tập dữ liệu
được hiển thị trong Hình 4 và chúng ta có thể quan sát thấy sự chênh lệch khác nhau
Để đánh giá, chúng tôi xem xét tình hình phức tạp có thể xuất hiện trong các bộ dữ liệu khác nhau. Ví dụ, Hình 4 (d) cho thấy
dữ liệu miền nguồn và sử dụng cài đặt tổng hợp hóa miền đa nguồn được các cạnh cắt. Sự biến dạng màu sắc xuất hiện trong Hình 4 (d),
giới thiệu trong [41], đã được Hình 4 (h) và Hình 4 (o). Hình 4 (o) cho thấy các mô hình moire.
FAS điểm chuẩn tên miền chéo được sử dụng bởi các phương pháp gần đây Hình 4 cho thấy các mẫu phản xạ.
[32], [39], [40], [47]. Trong cài đặt này, bốn tập dữ liệu điểm chuẩn,
MSU-MFSD [3] (M), IDIAP REPLAY-ATTACK (I) [9],

B. Triển khai
Bộ dữ liệu CASIA -FASD [45] (C) và OULU-NPU [46] (O)
được sử dụng, trong đó bất kỳ ba trong số bốn tập dữ liệu được sử dụng Đối với xử lý dữ liệu, chúng tôi sử dụng MTCNN [49] để nắm bắt
để đào tạo và cái bên trái là để thử nghiệm. Vì đơn giản, và cắt hình ảnh khuôn mặt từ khung video. Khuôn mặt được chụp
chúng tôi đề xuất gọi cài đặt này là MICO (với các chữ cái đầu tiên hình ảnh được thay đổi kích thước thành 256 × 256 làm đầu vào mạng. Huấn luyện
từ bốn tập dữ liệu). Chúng tôi cũng coi ROSE-YOUTU mạng, chúng tôi sử dụng PyTorch [50] để triển khai các mạng để
dataset [19], một tập dữ liệu cho các nhu cầu công nghiệp. Tương tự như tiến hành thí nghiệm. Chúng tôi đặt tỷ lệ học tập α = 0,001. chúng tôi
MICO, ROSE-YOUTU (Y) được sử dụng để tiến hành các hoạt động khác sử dụng trình tối ưu hóa Stochastic Gradient Descent (SGD) với
thử nghiệm miền chéo trong [48], nơi MSU-MFSD [3], giá trị động lượng 0,9. Trừ khi được chỉ định khác, chúng tôi đặt
IDIAP REPLAY-ATTACK (I) [9] và CASIA-FASD [45] (C) các bước xấp xỉ K = 4 (được sử dụng trong Thuật toán 1) cho
cũng được sử dụng trong cài đặt thử nghiệm được giới thiệu trong [48]. Vì sự gần đúng. Trong mỗi lô nhỏ, chúng tôi đặt kích thước lô là
Màu RGB Albedo Chiều sâu Sự phản ánh MP
Thành thật
Giả mạo
Hình 5. So sánh trực quan giữa bản đồ ColorLBP, bản đồ Albedo, bản đồ Độ sâu, bản đồ phản xạ và Mẫu Meta (MP) của chúng tôi. MP được trích xuất bởi
Meta Pattern Trích xuất được đào tạo trong thử nghiệm “O & M & I to C”. Các ví dụ về khuôn mặt chính hãng và giả mạo là từ bộ dữ liệu CASIA-MFSD [45].
BẢNG I
SO SÁNH GIỮA HFN KHÁC NHAU VỚI MP VÀ VỚI BẢN ĐỒ ĐẶC ĐIỂM ĐƯỢC XỬ LÝ TRÊN TỔNG HỢP MIỀN MICO
BENCHMARK. CÁC PHƯƠNG PHÁP HIỆU SUẤT LÀ HTER (%) VÀ AUC (%). “ ” CÓ NGHĨA LÀ THẤP HƠN TỐT HƠN VÀ “ ” CÓ NGHĨA LÀ CAO HƠN
TỐT HƠN.
C & I & O thành M O & M & I đến C O & C & M cho tôi I & C & M sang O
Phương pháp
HTER AUC HTER AUC HTER AUC HTER AUC
HFN + MàuLBP 8,31 96,77 18.44 88,72 20,55 77,58 15,92 90,98
HFN + Albedo 8,70 96,46 20,89 87,69 21,55 76.44 16,78 88,58
HFN + Độ sâu 7,36 96,90 18,67 89,60 18,50 80,40 15,95 89,99
HFN + Phản ánh 5,65 97,62 18,22 88,57 20,90 77,23 17,16 88,98
HFN + MP (Của chúng ta) 5,24 97,28 9,11 96.09 15,35 90,67 12,40 94,26
4 cho khuôn mặt chính hãng / giả mạo và cho mỗi miền tập dữ liệu để quan sát sự khác biệt từ những bản đồ này giữa bản đồ chính hãng
cân bằng mẫu giữa mỗi miền tập dữ liệu và số dư và các ví dụ giả mạo. Như các tính năng thủ công khác
tỷ lệ giữa mặt thật và mặt giả. Như vậy, đã được chứng minh là cung cấp thông tin phân biệt đối xử cho
sẽ có lô 24 (4 × 2 × 3) nếu có 3 nguồn giả mạo [20], rất khó để so sánh và xếp hạng các bản đồ này với
bộ dữ liệu miền. Để đánh giá và so sánh hiệu suất, trạng thái đại diện hơn từ khía cạnh hình ảnh. Cái này
chúng tôi theo dõi [32], [39], [40], [47] để báo cáo Tổng tỷ lệ lỗi một nửa khó khăn tương ứng với câu hỏi thúc đẩy công việc của chúng tôi:
(HTER) và Khu vực Dưới đặc tính hoạt động dễ tiếp thu “Cách chọn các tính năng thủ công mong muốn để tạo ra
Đường cong (AUC) làm số liệu hiệu suất. phương pháp lai tổng quát cho vấn đề chống giả mạo khuôn mặt ”.
Do đó, chúng tôi giải quyết câu hỏi này bằng cách sử dụng end-to-end
phương pháp hướng dữ liệu: học cách trích xuất MP. Để so sánh
C. So sánh với các tính năng thủ công
và phân tích định lượng, chúng tôi đào tạo HFN được đề xuất của chúng tôi với
Trong phần này, chúng tôi so sánh MP với các tính năng thủ công MP dựa trên Thuật toán 1 (“HFN + MP”). Để so sánh
khác. Chúng tôi làm theo [2] để trích xuất ColorLBP với tính năng thủ công khác, chúng tôi thay thế MP bằng
ánh xạ từ các kênh R, G và B tương ứng, sử dụng các bản đồ ColorLBP, Albedo, Độ sâu và Độ phản chiếu tương ứng để
tham số của số pixel lân cận P = 8 và huấn luyện các HFN khác, được ký hiệu là “HFN + ColorLBP”,
Bán kính R = 1. Chúng tôi giữ lại cấu trúc không gian 2D trong “HFN + Albedo”, “HFN + Depth” và “HFN + Reflectance”. Kết quả thử
bản đồ LBP thay vì thu thập biểu đồ để xây dựng nghiệm trên thiết lập MICO có thể
Các vectơ đặc trưng của LBP. Bên cạnh đó, chúng tôi trích xuất Albedo, Độ sâu, được nhìn thấy từ BẢNG I. Khi chúng tôi so sánh các sản phẩm được làm thủ công
và Bản đồ phản chiếu bằng cách sử dụng thuật toán tạo bóng Bản đồ ColorLBP, Reflectance, Albedo và Depth trong BẢNG I
1.
[35] với mã chính thức (loại trừ MP), chúng ta có thể thấy rằng mỗi bản đồ đều có
ColorLBP, Albedo, Depth, Reflectance, và thuận lợi và khó khăn trong các thí nghiệm khác nhau. Đối với rất
Bản đồ MP được so sánh trực quan trong Hình 5. Hàng đầu tiên và nhiều, “HFN + Reflectance” đạt được HTER và AUC tốt nhất
hàng thứ hai là các ví dụ về khuôn mặt chính hãng và giả mạo từ trong “C & I & O to M”; “Độ sâu HFN +” đạt được HTER tốt nhất
tập dữ liệu CASIA FASD [45]. Đối với tất cả các bản đồ này, chúng tôi có thể và AUC trong “O & C & M to I”; “HFN + ColorLBP” đạt được
HTER và AUC tốt nhất trong “I & C & O to M”. Quan sát này
1https: //github.com/allansp84/shape-from-shading-for-face-pad
HÀNH TRÌNH CỦA CÁC LỚP LATEX, VOL. 14, KHÔNG. 8, THÁNG 8 NĂM 2015 số 8
BẢNG II
KẾT QUẢ THÍ NGHIỆM VỀ BENCHMARKS TỔNG HỢP TRONG NƯỚC (MICO). PHƯƠNG PHÁP ĐỀ XUẤT CỦA CHÚNG TÔI ĐƯỢC SO SÁNH VỚI
CÁC PHƯƠNG PHÁP NGHỆ THUẬT TIỂU SỬ TRONG ĐIỀU KHOẢN CỦA HTER (%) VÀ AUC (%). “ ” CÓ NGHĨA LÀ THẤP HƠN TỐT HƠN VÀ “ ” CÓ NGHĨA LÀ CAO HƠN TỐT HƠN.
Phương pháp
MMD-AAE [51] 27.08 83,19 44,59 58,29 31,58 75,18 40,98 63.08
MADDG [41] 17,69 88,06 24,5 84,51 22,19 84,99 27,98 80.02
RFMetaFAS [39] 13,89 93,98 20,27 88,16 17,30 90,48 16,45 91,16
NAS-Baesline w / D-Meta [32] 11,62 95,85 16,96 89,73 16,82 91,68 18,64 88,45
NAS w / D-Meta [32] 16,85 90,42 15,21 92,64 11,63 96,98 13,16 94,18
NAS-FAS [32] 19,53 88,63 16,54 90,18 14,51 93,84 13,80 93.43
SSDG-M [47] 16,67 90,47 23.11 85,45 18,21 94,61 25,17 81,83
SSDG-R [47] 7,38 97,17 10,44 95,94 11,71 96,59 15,61 91,54
FAS-DR-BC (MT) [40] 11,67 93,09 18,44 89,67 11,93 94,95 16,23 91,18
HFN + MP (Của chúng ta) 5,24 97,28 9,11 96.09 15,35 90,67 12,40 94,26
BẢNG III
KẾT QUẢ THÍ NGHIỆM TRÊN MICY BENCHMARK MIỀN CHÉO. PHƯƠNG PHÁP ĐỀ XUẤT ĐƯỢC SO SÁNH VỚI CÁC PHƯƠNG PHÁP KHÁC TRONG ĐIỀU KHOẢN CỦA
HTER (%) VÀ AUC (%). “-” CÓ NGHĨA LÀ KHÔNG CÓ KẾT QUẢ. “ ” CÓ NGHĨA LÀ THẤP HƠN TỐT HƠN VÀ “ ” CÓ NGHĨA LÀ CAO HƠN
TỐT HƠN.
M & C & Y cho tôi I & C & Y sang M I & M & Y đến C I & C & M đến Y
Phương pháp
35,40 - 34,20 - 33,40 - 36,30
ADDA [52]
37,20 - 33,90 - 31,40 - 35,70 -
DRCN [53]
38,10 - 33,70 - 26,90 - 33,40 -
DupGAN [54]
6,3 - 12,7 - 37,8 - 31,0 -
ADA [55]
3,4 - 10,2 - 20,4 - 29,7 -
DR-UDA [48]
HFN + MP (Của chúng ta) 10.42 95,58 7,31 96,79 9,44 96.05 17,24 89,76
BẢNG IV D. So sánh với các phương pháp tối tân

KẾT QUẢ THÍ NGHIỆM VỀ SỰ BIẾN ĐỔI CỦA TỔNG HỢP TRONG NƯỚC
BENCHMARKS (MICO), CHỈ CÓ HAI DỮ LIỆU NGUỒN ĐƯỢC SỬ DỤNG 1) So sánh về tổng thể miền MICO
CHO TẬP HUẤN. PHƯƠNG PHÁP ĐỀ XUẤT ĐƯỢC SO SÁNH VỚI
điểm chuẩn: Các phương pháp FAS gần đây về tổng quát hóa miền
CÁC PHƯƠNG PHÁP NGHỆ THUẬT TIỂU SỬ TRONG ĐIỀU KHOẢN CỦA HTER (%) VÀ AUC (%).
“ ” CÓ NGHĨA LÀ THẤP HƠN TỐT HƠN VÀ “ ” CÓ NGHĨA LÀ CAO HƠN

đang sử dụng điểm chuẩn MICO để đánh giá [32], [39],
TỐT HƠN.
[40], [47]. Chúng tôi cũng theo dõi tiêu chuẩn MICO để so sánh
phương pháp của chúng tôi với các phương pháp hiện đại. Kết quả là
M&I đến C M&I đến O
Phương pháp
được hiển thị trong BẢNG II. Trong “C & I & O to M”, “O & M & I to C”,
HTER AUC HTER AUC
MS-LBP [23] 51,16 52,09 43,63 58.07 và cài đặt “C & I & M to O”, phương pháp HFN + MP của chúng tôi đạt được
IDA [3] 45,16 58,80 54,52 42,17 kết quả HTER và AUC tốt nhất. Tóm lại, phương pháp của chúng tôi có thể
ColorTexture [2] 55,17 46,89 53,31 45,16
thường đạt được hiệu suất hiện đại.
LBP-ĐẦU [8] 45,27 54,88 47,26 50,21
2) So sánh trong thử nghiệm miền chéo MICY: Để
MADDG [41] 41,02 64,33 39,35 65,10
đánh giá thêm phương pháp được đề xuất, chúng tôi làm theo [48] để sử dụng
SSDG-M [47] 31,89 71,29 36.01 66,88
Cài đặt MICY để tiến hành các thí nghiệm tổng quát hóa miền.
HFN + MP (Của chúng ta) 30,89 72.48 20,94 86,71
Kết quả thí nghiệm có thể tham khảo trong BẢNG III. Ở trong
BẢNG III, các phương pháp được liệt kê dựa trên sự thích ứng miền
(DA), sử dụng dữ liệu miền đích, nhưng phương pháp của chúng tôi
không sử dụng dữ liệu miền đích. Ngay cả khi so sánh với những
Phương pháp DA, “HFN + MP” của chúng tôi có thể đạt được mức thấp hơn đáng kể
HTER hơn các phương pháp khác trong “I & C & Y to M”, “I & M & Y
cho thấy rằng khả năng đại diện của các sang C ”và cài đặt“ I & C & M to Y ”. Kết quả cho thấy
các tính năng khác nhau trong dữ liệu tên miền nguồn khác nhau, điều này hiệu quả của MP của chúng tôi. Mặc dù kết quả AUC của
tạo động lực cho chúng tôi rằng việc trích xuất thủ công là không tầm thường các phương pháp được liệt kê khác không khả dụng, chúng tôi vẫn cung cấp
các tính năng thủ công để cải thiện khả năng tổng quát hóa của mô hình Kết quả AUC của phương pháp của chúng tôi để độc giả tham khảo nếu họ
dưới dữ liệu miền nguồn phức tạp khác nhau. Như vậy, chúng tôi quan tâm để thực hiện so sánh.
đề xuất tìm hiểu một mô hình tổng quát hóa bằng cách học cách trích xuất 3) Các miền nguồn hạn chế: Chúng tôi cũng đánh giá đề xuất của chúng tôi
Nghị sĩ. Từ BẢNG I, chúng ta có thể thấy rằng “HFN + MP” của chúng ta có thể khi số lượng miền dữ liệu nguồn bị giới hạn.
đạt được kết quả AUC tốt nhất trong “O & M & I to C”, “O & C & M Chúng tôi theo dõi [47] để đánh giá phương pháp được đề xuất của chúng tôi với
cho tôi ”, và“ I & C & M cho O ”và kết quả HTER tốt nhất trong tất cả biến thể của điểm chuẩn MICO, trong đó hai tập dữ liệu
bốn thí nghiệm. Tóm lại, kết quả thử nghiệm là được sử dụng làm dữ liệu đào tạo nguồn. Như thể hiện trong BẢNG IV,
BẢNG Tôi biện minh cho động lực làm việc của chúng tôi và thể hiện phương pháp đề xuất đạt được HTER và AUC tốt nhất so với
hiệu quả của nghị sĩ đề xuất của chúng tôi. với các phương pháp hiện đại. Hơn nữa, trong “M&I to O”
So sánh HTER (%) giữa các phương pháp nhiệt hạch khác nhau
30,00%
25,00%
20,00%
HTER
(%)
15,00%
10,00%
5,00%
0,00%
HFN
MP
+ HFN
MP
+ HFN
MP
+ HFN
MP
+
sâu
HFN
Độ
+ sâu
HFN
Độ
+ sâu
HFN
Độ
+ sâu
HFN
Độ
+
Albedo
HFN
+ Albedo
HFN
+ Albedo
HFN
+ Albedo
HFN
+
MàuLBP
HFN
+ MàuLBP
HFN
+ MàuLBP
HFN
+ MàuLBP
HFN
+
Phản
ánh
HFN
+ Phản
ánh
HFN
+ Phản
ánh
HFN
+ Phản
ánh
HFN
+
Hợp nhất bằng cách ghép Fusion bởi HFM (của chúng tôi)
Hình 6. So sánh hiệu suất giữa các phương pháp kết hợp các tính năng khác nhau từ các hệ thống phân cấp khác nhau trong HFN bằng cách sử dụng cài đặt thử nghiệm MICO (được xem tốt
nhất bằng màu sắc). Các thanh màu tím (bên trái trong mỗi cặp) hiển thị kết quả HTER (%) của việc ghép các bản đồ đối tượng cho phản ứng tổng hợp và các thanh màu vàng (bên phải
trong từng cặp) hiển thị kết quả của việc sử dụng HFM của chúng tôi để tổng hợp. Thanh càng thấp, hiệu suất càng tốt.
với HFM trong HFN. Chúng tôi cũng nghiên cứu tính hiệu quả của giải pháp
So sánh giữa các phương pháp tối ưu hóa khác nhau
xấp xỉ được mô tả trong Thuật toán 1 bằng cách so sánh nó với một chiến
25,00%
20,55% lược đào tạo end-to-end và thử các bước K khác nhau để tính gần đúng. Bên
20,00% cạnh đó, chúng tôi thực hiện các khởi tạo khác nhau của Meta Pattern
16,33% 16,97%
15,35% Extractor để quan sát kết quả. Chúng tôi tiến hành các thí nghiệm cắt bỏ
� 15,00%
12,40%
bằng cách sử dụng điểm chuẩn MICO và báo cáo kết quả HTER để so sánh
9,29%
� 10,00% 9,11%
�
5,24% Con trai.
5,00%
1) Hiệu quả của Mô-đun kết hợp phân cấp được đề xuất: Trong HFN của
0,00% chúng tôi, chúng tôi áp dụng Mô-đun kết hợp phân cấp để kết hợp dần dần
C & I & O đến M O & M & I đến C O & C & M đến I I & C & M đến 0 các hình ảnh RGB và MP được trích xuất từ nhiều cấu trúc phân cấp tính
năng. Mạng hai luồng DC-CDN [44] cho FAS cũng kết hợp thông tin từ nhiều
cấu trúc phân cấp tính năng từ hai luồng. Trong DC-CDN, các bản đồ đối
■ Không có KTMT do chúng tôi đề xuất ■ Với KTMT do chúng tôi đề xuất
tượng địa lý từ các cấu trúc phân cấp khác nhau được nối trực tiếp dọc
theo trục kênh, điều này đơn giản nhưng có thể thô.
Hình 7. So sánh hiệu suất giữa các thuật toán tối ưu hóa khác nhau cho Φ và Θ trên các
điểm chuẩn MICO (được xem tốt nhất bằng màu sắc). Các thanh màu xanh lục (bên trái trong
mỗi cặp) hiển thị kết quả HTER (%) của việc đào tạo Φ và Θ cùng nhau bằng cách sử dụng
Chúng tôi cải thiện quá trình hợp nhất bằng cách sử dụng HFM để hợp nhất
ERM, mà không sử dụng Thuật toán tối ưu hóa (OA) được đề xuất của chúng tôi. Các thanh dần dần các tính năng. Trong thử nghiệm cắt bỏ này, chúng tôi vẫn sử dụng
màu hồng (ngay trong mỗi cặp) hiển thị kết quả luyện tập Φ và Θ với OA đề xuất của chúng
cấu trúc hai dòng của HFN, nhưng chúng tôi loại bỏ HFM và ghép các bản đồ
tôi.
đặc trưng dọc theo trục kênh để thực hiện quá trình hợp nhất. Kết quả
HTER của các phương pháp tổng hợp khác nhau được so sánh trong Hình 6.
thử nghiệm, phương pháp đề xuất của chúng tôi cho thấy HTER thấp hơn 10% Chúng ta có thể thấy rằng HFM của chúng tôi đạt được hiệu suất HTER thấp
so với các phương pháp khác. Do đó, phương pháp được đề xuất của chúng hơn so với kết hợp ở 18 trong số 20 cặp thí nghiệm. Không chỉ HFM được
tôi vẫn có hiệu quả khi có sẵn ít miền dữ liệu nguồn hơn. đề xuất của chúng tôi có thể mang lại lợi ích cho MP mà còn có thể hữu ích
cho các tính năng thủ công khác
Nhìn chung, thông qua các so sánh sâu rộng với các phương pháp hiện
đại trong các thí nghiệm tổng quát hóa miền đa nguồn, chúng tôi cho thấy bản đồ.
2) Hiệu quả của thuật toán tối ưu hóa đề xuất: Theo Thuật toán 1,
hiệu quả của ý tưởng mới lạ về đào tạo mô hình sâu bằng cách học cách
chúng ta tối ưu hóa Φ và Θ riêng biệt.
trích xuất Meta Pattern cho bài toán FAS. Điều này cung cấp một tài liệu
Nếu chúng ta coi Φ và Θ như một tổng thể mà Θˆ = [Θ, Φ], thì Θˆ có thể
tham khảo hữu ích cho các công trình trong tương lai về việc phát triển
được huấn luyện trực tiếp theo cách end-to-end theo Eq. 1 và Eq. 3. Trong
các phương pháp tổng quát hơn cho nhiệm vụ chống giả mạo khuôn mặt và có
thử nghiệm cắt bỏ này, chúng tôi nghiên cứu tính hiệu quả của Thuật toán
thể là các nhiệm vụ khác.
tối ưu hóa (OA) được đề xuất của chúng tôi.
Kết quả thí nghiệm cắt bỏ được trình bày trong Hình 7. Chúng ta có thể
E. Nghiên cứu cắt bỏ thấy rằng bệnh viêm khớp của chúng ta có thể đạt được kết quả HTER thấp hơn
Trong phần này, chúng tôi tiến hành nghiên cứu cắt bỏ để trình bày mỗi đào tạo trực tiếp từ đầu đến cuối của Θˆ mà không có OA của chúng tôi
thành phần của phương pháp đề xuất của chúng tôi có thể có những ảnh trong bốn thử nghiệm một cách nhất quán. Do đó, kết quả thực nghiệm trong
Hình 7 có thể cho thấy hiệu quả của KTMT do chúng tôi đề xuất.
hưởng như thế nào đến hiệu suất. Chúng tôi nghiên cứu hiệu quả của sự hợp nhất
So sánh HTER (%) giữa các phiên bản khác nhau của Meta Pattern Extractor
20,00%
18,00%
16,00%
14,00%
12,00%
10,00%
8,00%
6,00%
4,00%
2,00%
0,00%
Ch.đổi CDC Ch.đổi CDC Ch.đổi CDC Ch.đổi CDC
1 lớp 2 lớp 3 lớp
Hình 8. So sánh hiệu suất giữa các phiên bản khác nhau của Meta Pattern Extractors (Φ) bằng cách sử dụng cài đặt MICO (được xem tốt nhất bằng màu sắc). “Chuyển đổi 1 lớp”
có nghĩa là ΦCONV 1 “CDC 2 lớp” có ,nghĩa
“Chuyển
là đổi 2 lớp” có nghĩa là ΦCONV 2 ,
ΦCDC2 , Vân vân.
ΦCONV 1 trong một lớp chập và một mạng ΦCONV 3

trong ba lớp chập làm Bộ trích mẫu Meta để so sánh
với ΦCONV 2 . Chúng tôi cũng khámchênhphá tích
lệch chập
trung
tâm (CDC) [14], được thiết kế tinh vi cho vấn đề
chống giả mạo khuôn mặt. Chúng tôi thay thế các
phức hợp vani bằng CDC trong ΦCONV 1 ΦCONV, 2 ΦCONV
và 3 ,
ΦCDC3 tương ứng và thu được ΦCDC1 Như , ΦCDC2 , và
. thể hiện trong Hình 8, các cách tạo Φ khác nhau có thể
có hiệu suất khác nhau. Ví dụ: trong thử nghiệm “C & I & O to M”,
ΦCONV 2 có cùng số lớp với ΦCDC2
hơnnhưng
ΦCONVΦCDC2
2 đạt được HTER thấp
, .
Tuy nhiên, ΦCDC1 và ΦCDC3 đạt được HTER cao hơn ΦCONV 1 và ΦCONV
3 tương ứng. Thực
cáchnghiệm
viết khác
chúngnhau
ta có
củathể
Φ có
quan
thểsát
ảnhthấy
hưởng
rằng
đến
các
nhưng một phân tích lý thuyết về ảnh hưởng cần nhiều nỗ lực hơn
để thực hiện trong tương lai. Ngoài ra, thiết kế của Φ là một vấn
đề mở ngoài phạm vi của bài báo này, và chúng tôi sẽ để nó cho
Hình 9. So sánh hiệu suất giữa các bước K khác nhau cho khoảng cách ap. Kết quả
nghiên cứu trong tương lai của chúng tôi.
HTER (%) của K = 1, 2, 4, 8 được báo cáo trong điểm chuẩn MICO.
V. KẾT LUẬN VÀ CÔNG VIỆC TƯƠNG LAI
3) Ảnh hưởng của các bước K khác nhau đối với tính gần đúng: Trong bài báo này, chúng tôi trình bày một phương pháp mới cho
miền FAS tổng quát bằng cách học cách trích xuất Mẫu Meta. Phương
Trong thuật toán tối ưu hóa được đề xuất của chúng tôi (Thuật toán
pháp của chúng tôi đẩy phương pháp hybrid lên một bước nữa để trở
1), chúng tôi tính gần đúng cực tiểu cục bộ Φˆ bằng cách thực hiện K
thành một phương pháp hoàn chỉnh từ đầu đến cuối bằng cách học cách
bước của gradient giảm dần. Chất lượng của ước lượng Φˆ là điều
trích xuất Mẫu Meta, mà không cần trích xuất các tính năng được làm
cần thiết cho kết quả tối ưu hóa cuối cùng. Trong thí nghiệm cắt bỏ
thủ công theo cách thủ công. Bên cạnh đó, chúng tôi phát minh ra
này, chúng tôi nghiên cứu cách K có thể ảnh hưởng đến hiệu suất tổng
Mạng kết hợp phân cấp hai luồng mới với Mô-đun kết hợp phân cấp được
quát hóa. Các kết quả HTER của K khác nhau (1, 2, 4, 8) được vẽ trong Hình 9.
đề xuất của chúng tôi để kết hợp thông tin từ hình ảnh RGB và MP.
Chúng ta có thể thấy từ Hình 9 rằng khi K tăng từ 1 đến 4, hiệu
Hơn nữa, phương pháp của chúng tôi có thể đạt được hiệu suất hiện
suất nói chung sẽ tăng. Chúng tôi phỏng đoán rằng khi K nhỏ, thì
đại trong các tiêu chuẩn tổng quát hóa miền MICO và MICY.
sự gần đúng là không đủ. Chúng tôi quan sát thấy rằng khi K tăng
từ 4 lên 8, hiệu suất có thể giảm xuống. Chúng tôi phỏng đoán lý Trong tương lai, chúng tôi sẽ khám phá để phát triển các
do là khi K tăng lên một số lớn, cực tiểu cục bộ gần đúng có thể phương pháp hiệu quả hơn dựa trên ý tưởng về Meta Pattern, chẳng
rơi vào bẫy "quá mức" và có thể dẫn đến hiệu suất kém hơn. hạn như cải tiến Meta Pattern Extractor và thuật toán tối ưu hóa.
Chúng ta cũng có thể khám phá việc di chuyển ý tưởng về Meta Pattern sang
các lĩnh vực khác, chẳng hạn như phát hiện giả sâu.
4) Ảnh hưởng của các bộ tách mẫu Meta khác nhau: Trong phương
pháp được đề xuất của chúng tôi, chúng tôi tham số hóa Φ bằng một
. cắt bỏ
mạng gồm hai lớp chập, được ký hiệu là ΦCONV 2 Trong thínày,
nghiệm
chúng NGƯỜI GIỚI THIỆU
tôi nghiên cứu ảnh hưởng của các cách diễn đạt khác nhau của Φ
[1] S. Hashemifard và M. Akbari, “Một mô hình học sâu nhỏ gọn để phát hiện giả mạo
bằng cách thêm hoặc bớt một lớp để có được một mạng khuôn mặt,” arXiv preprint arXiv: 2101.04756, 2021.
¨
[2] Z. Boulkenafet, J. Komulainen và A. Hadid, “Phát hiện giả mạo khuôn mặt bằng [24] J. Komulainen, A. Hadid và M. Pietikainen, “Chống giả mạo khuôn mặt dựa trên ngữ
cách sử dụng phân tích kết cấu màu”, Giao dịch IEEE về pháp y và bảo mật thông cảnh” trong Hội nghị quốc tế lần thứ sáu IEEE về Sinh trắc học: Lý thuyết, Ứng
tin, tập. 11, trang 1818–1830, tháng 8 năm 2016. dụng và Hệ thống (BTAS), trang 1–8, 2013 .
[3] D. Wen, H. Han, và AK Jain, “Phát hiện giả mạo khuôn mặt với phân tích biến dạng [25] R. Cai và C. Chen, “Tìm hiểu rừng sâu với các tính năng mô hình nhị phân lo cal
hình ảnh,” Giao dịch IEEE về pháp y và bảo mật thông tin, tập. 10, trang 746– đa tỷ lệ để chống giả mạo khuôn mặt,” arXiv preprint arXiv: 1910.03850, 2019.
761, tháng 4 năm 2015.
[4] DC Garcia và RL de Queiroz, “Phát hiện 2D giả mạo khuôn mặt dựa trên phân tích [26] K. Patel, H. Han, AK Jain và G. Ott, “Video khuôn mặt trực tiếp so với video
´ ´
mô hình Moire,” Giao dịch IEEE về Pháp y và Bảo mật khuôn mặt giả mạo: Sử dụng các mẫu moire để phát hiện các cuộc tấn công video
Thông tin, tập. 10, không. 4, trang 778–786, 2015. phát lại,” trong Hội nghị Quốc tế về Sinh trắc học (ICB) năm 2015, trang 98–105, 2015.
[5] J. Galbally và S. Marcel, “Chống giả mạo khuôn mặt dựa trên đánh giá chất lượng [27] H. Li, S. Wang, và AC Kot, “Phát hiện giả mạo khuôn mặt với hồi quy chất lượng
hình ảnh chung” trong Hội nghị quốc tế lần thứ 22 năm 2014 về nhận dạng mẫu, hình ảnh,” trong Hội nghị quốc tế lần thứ sáu về lý thuyết, công cụ và ứng dụng
trang 1173–1178, tháng 8 năm 2014. xử lý hình ảnh (IPTA), trang 1–6, 2016.
[6] X. Tan, Y. Li, J. Liu và L. Jiang, “Phát hiện trực tiếp khuôn mặt từ một hình [28] J. Yang, Z. Lei, và SZ Li, “Tìm hiểu mạng nơ-ron hợp pháp để chống giả mạo trên
ảnh đơn lẻ với mô hình phân biệt song tuyến có thứ hạng thấp thưa thớt,” trong khuôn mặt,” Khoa học máy tính, tập. 9218, trang 373–384, 2014.
Hội nghị Châu Âu về Thị giác Máy tính, trang 504–517, Năm 2010. [29] K. Simonyan và A. Zisserman, “Các mạng tích tụ rất sâu để nhận dạng hình ảnh quy
[7] Z. Boulkenafet, J. Komulainen và A. Hadid, “Face Antispoofing sử dụng các tính mô lớn,” trong Hội nghị Quốc tế lần thứ 3 về Đại diện Học tập, ICLR 2015, San
năng mạnh mẽ được tăng tốc và mã hóa véc tơ Fisher,” IEEE Signal Processing Diego, CA, Hoa Kỳ, ngày 7-9 tháng 5 năm 2015, Hội nghị Theo dõi Kỷ yếu (Y.
Letters, vol. 24, không. 2, trang 141–145, năm 2017. Bengio và Y. LeCun, chủ biên.), 2015.
[8] T. de Freitas Pereira, J. Komulainen, A. Anjos, J.M De Martino, A. Hadid, M.
¨
Pietikainen và S. Marcel, “Nhận diện khuôn mặt bằng cách sử dụng kết cấu động”, [30] A. George và S. Marcel, “Giám sát nhị phân sâu sắc theo pixel để phát hiện tấn
Tạp chí EURASIP về Xử lý hình ảnh và video , quyển sách. 2014, không. 1, tr. 2 công khi trình bày khuôn mặt,” trong Hội nghị quốc tế về sinh trắc học năm 2019
năm 2014. (ICB), trang 1–8, 2019.
[9] I. Chingovska, A. Anjos và S. Marcel, “Về hiệu quả của các mẫu nhị phân cục bộ [31] Z. Yu, X. Li, J. Shi, Z. Xia và G. Zhao, “Kiểm tra lại tính năng giám sát Pixel-
trong việc chống giả mạo khuôn mặt,” trong BIOSIG 2012 - Kỷ yếu của Hội nghị Wise để chống giả mạo trên khuôn mặt,” Giao dịch IEEE về Sinh trắc học, Hành vi
Quốc tế về Nhóm quan tâm Đặc biệt về Sinh trắc học (BIOSIG), pp . 1–7, tháng 9 và Khoa học nhận dạng, tập. 3, không. 3, trang 285–295, năm 2021.
năm 2012. [32] Z. Yu, J. Wan, Y. Qin, X. Li, SZ Li và G. Zhao, “NAS-FAS: Mạng tìm kiếm sự khác
[10] A. Anjos và S. Marcel, “Các biện pháp chống lại các cuộc tấn công bằng ảnh trong biệt trung tâm động tĩnh để chống giả mạo khuôn mặt,”
nhận dạng khuôn mặt: Cơ sở dữ liệu công khai và đường cơ sở,” trong Hội nghị Giao dịch IEEE về Phân tích Mẫu và Trí tuệ Máy móc, vol. 43, không. 9, trang
chung quốc tế về sinh trắc học năm 2011 (IJCB), trang 1–7, 2011. 3005–3023, năm 2021.
¨
[11] J. Komulainen, A. Hadid, M. Pietikainen, A. Anjos và S. Marcel, “Các biện pháp [33] H. Chen, G. Hu, Z. Lei, Y. Chen, NM Robertson, và SZ
đối phó bổ sung để phát hiện các cuộc tấn công giả mạo khuôn mặt đẹp,” trong Li, “Mạng hai luồng dựa trên sự chú ý để phát hiện giả mạo khuôn mặt,” Giao dịch
Hội nghị Quốc tế về Sinh trắc học năm 2013 (ICB), trang 1–7 , Tháng 6 năm 2013. IEEE về pháp y và bảo mật thông tin, tập. 15, trang 578–593, năm 2020.
[12] H. Li, P. He, S. Wang, A. Rocha, X. Jiang, và AC Kot, “Học đại diện tính năng sâu [34] L. Li, Z. Xia, A. Hadid, X. Jiang, H. Zhang và X. Feng, “Phát hiện lại cuộc tấn
tổng quát để chống giả mạo khuôn mặt,” Giao dịch IEEE về pháp y và bảo mật thông công bằng video dựa trên phân tích làm mờ chuyển động,” IEEE Trans hành động về
tin, vol. 13, trang 2639– 2652, tháng 10 năm 2018. pháp lý thông tin và bảo mật, vol . 14, không. 9, trang 2246–2261, 2019.
[13] R. Cai, H. Li, S. Wang, C. Chen, và AC Kot, “DRL-FAS: Một khuôn khổ tiểu thuyết [35] A. Pinto, S. Goldenstein, A. Ferreira, T. Carvalho, H. Pedrini và A. Rocha, “Tận
dựa trên Học tập củng cố sâu để chống giả mạo khuôn mặt,” Giao dịch IEEE về pháp dụng hình dạng, phản xạ và Albedo từ bóng để phát hiện tấn công khi trình bày
y và bảo mật thông tin, vol. 16, trang 937–951, 2020. khuôn mặt,” Giao dịch IEEE về pháp y thông tin và An ninh, tập. 15, trang 3347–
3358, năm 2020.
[14] Z. Yu, C. Zhao, Z. Wang, Y. Qin, Z. Su, X. Li, F. Zhou và G. Zhao, “Tìm kiếm mạng [36] M. Asim, Z. Ming và MY Javed, “Trích xuất đặc điểm không gian-thời gian dựa trên
lưới hợp pháp về sự khác biệt trung tâm để chống giả mạo khuôn mặt” vào năm CNN để chống giả mạo khuôn mặt,” trong Hội nghị quốc tế lần thứ 2 về Hình ảnh,
2020 Hội nghị IEEE / CVF về Nhận dạng Mẫu và Thị giác Máy tính (CVPR), trang Tầm nhìn và Máy tính (ICIVC) năm 2017, trang 234–238 , Năm 2017.
5294–5304, 2020. [37] YAU Rehman, L.-M. Po, M. Liu, Z. Zou, và W. Ou, “Perturbing Convolutions Feature
[15] Z. Sun, L. Sun và Q. Li, “Điều tra trong lĩnh vực không gian-thời gian để phát Maps with Oriented Gradients for Face Liveness Detection,” trong Hội nghị chung
hiện giả mạo khuôn mặt,” trong Hội nghị quốc tế IEEE 2018 về xử lý tín hiệu, âm quốc tế: Hội nghị quốc tế lần thứ 12 về Trí tuệ tính toán trong Bảo mật cho Hệ
thanh và giọng nói (ICASSP), trang 1538–1542 , 2018. thống Thông tin (CISIS 2019 ) và Hội nghị quốc tế lần thứ 10 về Giáo dục xuyên
quốc gia EUropean (ICEUTE 2019), trang 3–13, Springer, 2019.
[16] Z. Li, H. Li, K.-Y. Lam, và AC Kot, “Phát hiện tấn công bằng khuôn mặt không nhìn
thấy với mất sóng siêu âm,” trong Hội nghị quốc tế IEEE về Âm học, Lời nói và
Xử lý tín hiệu (ICASSP), trang 2852–2856, 2020 của ICASSP 2020 - 2020. [38] H. Li, S. Wang, P. He và A. Rocha, “Chống giả mạo khuôn mặt với sự chắt lọc mạng
nơ ron sâu,” Tạp chí IEEE về Các chủ đề được chọn lọc trong Xử lý tín hiệu,
[17] W. Sun, Y. Song, C. Chen, J. Huang, và AC Kot, “Phát hiện giả mạo khuôn mặt dựa tập. 14, không. 5, trang 933–946, năm 2020.
trên giám sát nhãn cục bộ bậc ba trong mạng hiến pháp hoàn toàn Convo,” Giao [39] R. Shao, X. Lan, và PC Yuen, “Chống giả mạo khuôn mặt hạt mịn được quy định
dịch IEEE về pháp y và bảo mật thông tin, vol. 15, trang 3181–3196, 2020. hóa”, Kỷ yếu của Hội nghị AAAI về Trí tuệ nhân tạo, tập. 34, trang 11974–11981,
tháng 4 năm 2020.
[18] B. Chen, W. Yang, H. Li, S. Wang và S. Kwong, “Học tập tính năng bất biến của [40] Y. Qin, Z. Yu, L. Yan, Z. Wang, C. Zhao, và Z. Lei, “Meta-teacher for Face Anti-
camera để chống giả mạo khuôn mặt tổng quát,” IEEE Trans Transaction on Spoofing,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.
Information Forensics and Security, vol. 16, trang 2477–2492, năm 2021. Truy cập sớm, trang 1–1, 2021.
[19] H. Li, W. Li, H. Cao, S. Wang, F. Huang, và AC Kot, “Điều chỉnh miền không giám [41] R. Shao, X. Lan, J. Li và PC Yuen, “Tổng quát hóa miền sâu đa đối thủ để phát
sát để chống giả mạo khuôn mặt,” Giao dịch IEEE về pháp y và bảo mật thông tin, hiện tấn công khi trình bày khuôn mặt,” vào Hội nghị IEEE / CVF năm 2019 về thị
tập. 13, trang 1794–1809, tháng 7 năm 2018. giác máy tính và nhận dạng mẫu (CVPR) , trang 10015–10023, 2019.
[20] Z. Yu, Y. Qin, X. Li, C. Zhao, Z. Lei và G. Zhao, “Deep Learning for Face Anti-
Spoofing: A Survey,” arXiv preprint arXiv: 2106.14948, 2021. [42] K. He, X. Zhang, S. Ren, và J. Sun, “Học sâu còn sót lại để nhận dạng hình ảnh,”
trong Kỷ yếu của Hội nghị IEEE về Thị giác Máy tính và Nhận dạng Mẫu, trang 770–
[21] Y. Liu, A. Jourabloo và X. Liu, “Học các mô hình sâu để chống giả mạo khuôn mặt: 778, 2016.
´
Giám sát nhị phân hoặc phụ trợ,” trong Kỷ yếu của Hội nghị IEEE về Thị giác máy [43] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan và S. Belongie, “Mạng kim
tính và Nhận dạng mẫu, (Thành phố Salt Lake, UT), trang 389–398, 2018. tự tháp tính năng để phát hiện đối tượng,” vào năm 2017 IEEE Confer ence on
Computer Vision and Pattern Recognition (CVPR), trang 936 –944, năm 2017.
[22] Y. Liu, J. Stehouwer, A. Jourabloo và X. Liu, “Deep Tree Learning for Zero-Shot
Face Anti-Spoofing,” trong Hội nghị IEEE / CVF 2019 về Thị giác Máy tính và Nhận [44] Z. Yu, Y. Qin, H. Zhao, X. Li và G. Zhao, “Mạng lưới sự khác biệt trung tâm kép
dạng Mẫu (CVPR), trang 4675–4684, 2019. về chống giả mạo khuôn mặt”, Hội nghị chung quốc tế về trí tuệ nhân tạo (IJCAI)
năm 2021, Năm 2021.
¨ ¨
[23] J. Ma¨att ¨ a, A. Hadid và M. Pietik ainen, “Phát hiện giả mạo khuôn mặt từ các [45] Z. Zhang, J. Yan, S. Liu, Z. Lei, D. Yi, và SZ Li, “Một cơ sở dữ liệu chống giả
hình ảnh đơn lẻ bằng cách sử dụng phân tích kết cấu vi mô,” trong Hội nghị chung mạo khuôn mặt với các cuộc tấn công đa dạng,” trong Hội nghị Quốc tế IAPR về Sinh
quốc tế về sinh trắc học năm 2011 (IJCB), trang 1– 7 năm 2011. trắc học, trang 26– Ngày 31 năm 2012.
[46] Z. Boulkenafet, J. Komulainen, L. Li, X. Feng, và A. Hadid, “OULU NPU: Cơ sở

dữ liệu tấn công bản trình bày khuôn mặt di động với các biến thể trong thế
giới thực,” trong Hội nghị quốc tế IEEE về khuôn mặt và cử chỉ tự động Ghi
nhận, tháng 5 năm 2017.
[47] Y. Jia, J. Zhang, S. Shan và X. Chen, “Tổng thể hóa tên miền một bên cho tính
năng chống giả mạo khuôn mặt”, Hội nghị IEEE / CVF năm 2020 về nhận dạng mẫu
và thị giác máy tính (CVPR), trang 8481–8490, năm 2020.
[48] G. Wang, H. Han, S. Shan và X. Chen, “Thích ứng miền đối phương không giám
sát đối với phát hiện tấn công trình bày khuôn mặt xuyên miền,” IEEE Trans
Transaction on Information Forensics and Security, vol. 16, trang 56–69, năm
2021.
[49] K. Zhang, Z. Zhang, Z. Li và Y. Qiao, “Nhận diện và căn chỉnh khuôn mặt chung
bằng cách sử dụng mạng kết nối nhiều tầng có nhiều nhiệm vụ,” IEEE Signal
Processing Letters, vol. 23, không. 10, trang 1499–1503, 2016.
[50] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen,
Z. Lin, N. Gimelshein, L. Antiga, A. Desmaison, A. Kopf , E. Yang, Z. DeVito,
M. Raison, A. Tejani, S. Chilamkurthy, B. Steiner, L. Fang, J. Bai và S.
Chintala, “Pytorch: Phong cách mệnh lệnh, thư viện học sâu hiệu suất cao ,
”Trong Những tiến bộ trong hệ thống xử lý thông tin thần kinh 32 (H. Wallach,
H. Larochelle, A. Beygelzimer, F. d'Alche-Buc, E. Fox và R. Garnett, eds.),
´
Trang 8024–8035, Curran Associates, Inc., 2019.
[51] H. Li, S.J. Pan, S. Wang, và AC Kot, “Tổng quát hóa tên miền với học tập tính
năng đối nghịch,” trong Kỷ yếu của Hội nghị IEEE về Thị giác máy tính và Nhận
dạng mẫu, trang 5400–5409, 2018.
[52] E. Tzeng, J. Hoffman, K. Saenko và T. Darrell, “Thích ứng miền không phân biệt
đối xử theo hướng bất lợi,” trong Kỷ yếu của Hội nghị IEEE về Thị giác Máy
tính và Nhận dạng Mẫu, trang 7167–7176, 2017.
[53] M. Ghifary, WB Kleijn, M. Zhang, D. Balduzzi, và W. Li, “Các mạng phân loại-tái
cấu trúc sâu cho tation thích ứng miền không giám sát,” trong Hội nghị Châu
Âu về Thị giác Máy tính, trang 597–613, Springer , Năm 2016.
[54] L. Hu, M. Kan, S. Shan và X. Chen, “Mạng đối phương song công để thích ứng
miền không có giám sát,” trong Kỷ yếu của Hội nghị IEEE về Thị giác Máy tính
và Nhận dạng Mẫu, trang 1498–1507 , 2018.
[55] G. Wang, H. Han, S. Shan và X. Chen, “Cải thiện khả năng phát hiện tấn công
bản trình bày khuôn mặt trên cơ sở dữ liệu chéo thông qua thích ứng miền đối
nghịch,” trong Hội nghị quốc tế về sinh trắc học năm 2019 (ICB), trang 1–8 ,
IEEE, 2019.

Learning Meta Pattern For Face Anti-Spoofing

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Learning Meta Pattern For Face Anti-Spoofing

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Học Meta Pattern để chống giả mạo trên khuôn mặt

lý cụ thể khác nhau.

B. Phương pháp học sâu để chống giả mạo khuôn mặt

các tính năng thủ công được so sánh và

loại nhị phân: chính hãng hay giả mạo.

dựa trên những cân nhắc đặc biệt.

công việc này.

L (x, y | Θ): = L [Θ (x), y]. (2)

Mức trung bình theo yếu tố

Các lớp chuyển đổi 3X3

Lớp gộp trung bình

st Φ = arg minΦ Ex, y DT L (x, y | Θ, Φ),

cấp độ bên trong.

Φ ≈ Φˆ = Φ - ΦL (x, y | Θ, Φ). (7) Hơn nữa, Meta Pattern Extractor Φ có thể

cách dần dần để cải thiện sự hợp nhất.

9 đến K làm Dữ liệu lô nhỏ mẫu {x

15 Mẫu {xθ, yθ} từ Dθ mi = Fi (tấn tôi , mb i , mi 1)

Cập nhật Φ bởi ΦK đại

tiến hành phép cộng theo phần tử. tôi

hợp nhất của HFM và sự hợp nhất của nối.

phân đầu ra s = [s0, s1], trong đó s0 [0, 1], s1 [0, 1] và s0 + s1 = 1,

chúng tôi sẽ giới thiệu ngắn gọn 5 bộ dữ liệu này.

từ 50 đối tượng chính hãng. Máy ảnh thấp, bình thường và

tấn công và tấn công video. Như vậy, có 3 × 3 = 9 loại

OULU ánh sáng bất lợi.

và từ một máy in để tấn công ảnh. Chỉ có trong nhà

MSU-MFSD [3] (M), IDIAP REPLAY-ATTACK (I) [9],

Màu RGB Albedo Chiều sâu Sự phản ánh MP

BẢNG IV D. So sánh với các phương pháp tối tân

“ ” CÓ NGHĨA LÀ THẤP HƠN TỐT HƠN VÀ “ ” CÓ NGHĨA LÀ CAO HƠN

1 lớp 2 lớp 3 lớp

ΦCONV 1 trong một lớp chập và một mạng ΦCONV 3

V. KẾT LUẬN VÀ CÔNG VIỆC TƯƠNG LAI

[46] Z. Boulkenafet, J. Komulainen, L. Li, X. Feng, và A. Hadid, “OULU NPU: Cơ sở

You might also like