Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 33

Phát hiện bất thường với các mô hình khuếch tán khử nhiễu có điều kiện

Arian Mousakhan1 Thomas Brox1 Hàm Tayyub2


1Đại học 2Endress+Hauser
của Freiburg
{Mousakha,Brox }@cs.uni-freiburg.de
jawad.tayyub@endress.com
arXiv:2305.15956v2 [cs.CV] 3 Dec 2023

Trừu tượng Các phương pháp dựa trên biểu diễn [6, 7, 9, 16, 36, 47]
dựa vào các tính năng được trích xuất từ các mạng thần
Các phương pháp dựa trên tái tạo truyền thống đã cố kinh được đào tạo trước để xác định số liệu tương tự cho
gắng để đạt được hiệu suất cạnh tranh trong việc giải mã các mẫu danh nghĩa và
dị thường. Trong bài báo này, chúng tôi giới thiệu Phát
hiện bất thường khuếch tán nhiễu (DDAD), một quy trình
khử nhiễu mới để tái tạo hình ảnh có điều kiện trên hình
ảnh mục tiêu. Điều này đảm bảo phục hồi mạch lạc gần
giống với hình ảnh mục tiêu. Khung phát hiện bất thường
của chúng tôi sử dụng cơ chế điều hòa, trong đó hình ảnh
mục tiêu được đặt làm hình ảnh đầu vào để hướng dẫn
quá trình khử nhiễu, dẫn đến tái tạo không có khuyết tật
trong khi vẫn duy trì các vỗ nhẹ danh nghĩa. Sự bất
thường sau đó được bản địa hóa thông qua so sánh pixel-
wise và tính năng khôn ngoan của đầu vào và tuổi được
tái tạo. Cuối cùng, để nâng cao hiệu quả của việc so sánh
tính năng khôn ngoan, chúng tôi giới thiệu một phương
pháp điều chỉnh miền sử dụng các ví dụ được tạo gần như
giống hệt nhau từ quy trình khử nhiễu gia vị của chúng tôi
để tinh chỉnh trình trích xuất tính năng được đào tạo
trước. Tính xác thực của DDAD được thể hiện trên các bộ
dữ liệu khác nhau bao gồm điểm chuẩn MVTec và VisA,
achiev-
kết quả hiện đại 99.8% và 98.9% AUROC cấp độ hình ảnh
tương ứng. Mã nguồn có sẵn tại GitHub.

1. Giới thiệu
Phát hiện bất thường liên quan đến việc xác định và
khoanh vùng các trường hợp trong dữ liệu không phù hợp
với các quan sát danh nghĩa. Phát hiện dữ liệu ngoài phân
phối là một nhiệm vụ quan trọng trong nhiều lĩnh vực công
nghiệp [4, 55], y học [23, 54] và giám sát video [27]. Trong
môi trường được giám sát, một mô hình được đào tạo trên
một tập dữ liệu với các ví dụ bình thường và bất thường.
Tuy nhiên, sự bất thường thường không lường trước được
và những mod-els này thường gặp khó khăn trong quá
trình suy luận. Ngược lại, các phương pháp không giám
sát mô hình hóa sự phân bố chỉ các sam- ple danh nghĩa để
phát hiện các dị thường dưới dạng các mẫu lệch khỏi phân
phối danh nghĩa. Do đó, chúng không bị giới hạn trong
một tập hợp dị thường hữu hạn.
1
Tiếp cận vấn đề trên một chiến lược láng giềng gần nhất.
Các phương pháp dựa trên tái thiết [1, 8, 26] chỉ học một
mô hình tổng quát từ các ví dụ đào tạo danh nghĩa. Các
mô hình như vậy tìm hiểu toàn bộ sự phân bố của các
mẫu danh nghĩa nhưng không có khả năng tạo ra các mẫu
đi chệch khỏi sự phân phối này. Điều này cho phép phát
hiện sự bất thường bằng cách so sánh đầu vào bất thường
với việc tái cấu trúc không có dị thường được dự đoán
của nó. Tuy nhiên, các phương pháp trong quá khứ đã bị
ảnh hưởng bởi chất lượng tái tạo trong ferior hoặc không
đủ độ bao phủ của phân phối danh nghĩa, cả hai đều dẫn
đến so sánh sai giữa tái tạo và hình ảnh đầu vào.
Gần đây, các mô hình khuếch tán [21, 41] đã đạt được
sự phổ biến như các mô hình phát sinh sâu sung mãn. Bài
báo này xem xét lại khung phát hiện bất thường dựa trên
tái tạo, khai thác tiềm năng của các mô hình khuếch tán
để tạo ra một sự tái tạo ấn tượng của các hình ảnh dị
thường, xem Hình 1. Trong bài báo này, chúng tôi chỉ ra
rằng các mô hình khuếch tán đơn giản không thể áp dụng
cho nhiệm vụ phát hiện bất thường. Vì vậy, chúng tôi
thực hiện những đóng góp sau đây. Đầu tiên, chúng tôi đề
xuất một cơ chế điều chỉnh hướng dẫn quá trình khử
nhiễu để sửa đổi từng hình ảnh bị nhiễu cho đến khi nó
gần đúng với hình ảnh mục tiêu. Cơ chế điều hòa này làm
tăng hình ảnh AU-
ROC từ 85.7% đến 92.4% và từ 87.0% đến 94.1% trên
MVTec [4] và VisA [55], tương ứng. Thứ hai, chúng tôi
dis-
Che đậy rằng sự kết hợp giữa so sánh pixel-wise và tính
năng khôn ngoan của việc tái tạo và hình ảnh đầu vào làm
tăng độ chính xác phát hiện và bản địa hóa. Thứ ba,
chúng tôi giới thiệu một kỹ thuật thích ứng miền không
giám sát để chuyển miền của trình trích xuất tính năng
được đào tạo trước sang vấn đề hiện tại. Vì mục đích này,
một hình ảnh tương tự như hình ảnh mục tiêu được tạo ra
bởi quy trình khử nhiễu của chúng tôi. Trình trích xuất
fea-ture được đào tạo trước sau đó được tinh chỉnh bằng
cách giảm thiểu khoảng cách của các tính năng được trích
xuất từ hai hình ảnh. Để tránh thảm họa quên mạng được
đào tạo trước, chúng tôi bổ sung thêm tổn thất chưng cất
từ máy kéo tính năng đông lạnh. Kỹ thuật thích ứng miền
của chúng tôi thấm nhuần sự bất biến đối với những thay
đổi danh nghĩa trong quá trình tái thiết trong khi vẫn duy
trì tính tổng quát và học hỏi miền mới. So sánh tính năng
được điều chỉnh theo miền này tiếp tục nâng kết quả lên
Hình ảnh
AUROC của 99.8% và 98.9% trên MVTec và VisA, sur-

2
Hình ảnh đầu vào GT Tái thiết Bản đồ nhiệt Hình ảnh đầu vào GT Tái thiết Bản đồ nhiệt

Hình 1. Cách tiếp cận của chúng tôi đạt được tái tạo không có khuyết tật của hình ảnh đầu vào không có sự bất thường. Một bản đồ nhiệt
phát hiện bất thường chính xác được tính toán. Lưu ý rằng việc tái tạo tương tự như xấp xỉ danh nghĩa dự kiến của đầu vào. Trong danh
mục cáp, cáp màu xanh lá cây được đặt không chính xác đã được người mẫu sửa thành cáp màu xanh lam. Những hình ảnh được sửa
chữa như vậy có thể mang lại lợi ích hơn nữa cho ngành công nghiệp trong việc sửa chữa các khiếm khuyết hoặc đào tạo công nhân.

không chỉ thông qua các phương pháp dựa trên tái thiết mà trước mà không có bất kỳ sự thích ứng nào với do- main
cả các mô hình dựa trên biểu diễn hiện đại (SOTA). của vấn đề hiện tại. Các mô hình này có thể thất bại khi một
Chúng tôi cũng giới thiệu một phiên bản nén của DDAD,
ký hiệu là DDAD-S, được thiết kế riêng cho các ứng dụng
bị hạn chế bởi tài nguyên hạn chế.

2. Công việc liên quan


Phương pháp dựa trên biểu diễn Học tự giám sát đã
được sử dụng trong quá khứ để tìm hiểu các đặc điểm hình
ảnh [13, 31, 33], thường bằng cách giải quyết các nhiệm
vụ phụ trợ. Trong phát hiện bất thường, [14, 18] đã chứng
minh rằng các fea-tures chất lượng cao tạo điều kiện thuận
lợi cho việc phát hiện các mẫu bất thường. DN2
[2] đã sử dụng thành công ResNets đơn giản [17], được
đào tạo trước trên Imagenet [38], để trích xuất các tính
năng thông tin. Các phương pháp tiếp cận gần đây như
SPADE [6] sử dụng ngân hàng bộ nhớ gồm các tính năng
được trích xuất danh nghĩa, PaDiM [7] sử dụng túi tính
năng hạn chế lo-cally, PatchCore [36] sử dụng ngân hàng
bộ nhớ và fea- tures cấp bản vá nhận biết vùng lân cận,
CFLOW và FastFlow [16, 47] sử dụng luồng chuẩn hóa
[11, 25] và Hoa Kỳ và RD4AD [5, 9] Sử dụng phương
pháp chưng cất kiến thức [19] để phát hiện bất thường. Tất
cả đều dựa vào các trình trích xuất tính năng được đào tạo

3
Trình trích xuất tính năng được đào tạo trước không thể
cung cấp fea- tures thông tin. Trong công việc này, chúng
tôi sử dụng các tính năng vá lỗi nhận thức cục bộ, như
được đề xuất bởi [36], để cải thiện việc so sánh hình ảnh
đưa vào và tái tạo của nó tại thời điểm suy luận. Chúng
tôi đề xuất một phương pháp để chuyển giao kiến thức về
lĩnh vực hiện tại của các trình trích xuất tính năng được
sử dụng trong các mô hình nói trên, đạt được hiệu suất
vượt trội.

Các khuôn khổ ban đầu để phát hiện bất thường được
phát triển dựa trên khái niệm sáng lập rằng một mô hình
phát sinh, được đào tạo trên các mẫu danh nghĩa, học
cách tái tạo chính xác dữ liệu danh nghĩa trong khi không
tái tạo lại sự bất thường. Dữ liệu bất thường thường lệch
đáng kể so với các mẫu đã học dẫn đến việc tái tạo kém
các dị thường tại thời điểm suy luận. Một công trình ban
đầu [30] đã áp dụng Bộ mã hóa tự động biến đổi (VAE)
[26] để phát hiện sự bất thường trong hình ảnh bệnh
ngoài da. Tuy nhiên, các cấu trúc lại bị mờ và các dị
thường không được di chuyển đầy đủ. Các kỹ thuật khác
nhau đã được đề xuất, [3] sử dụng sự mất nhận thức dựa
trên sự tương đồng về cấu trúc (SSIM) để cải thiện việc
học. [39] Triển khai một mô hình tạo ra như một máy dò
mới được kết nối từ đầu đến cuối với mạng thứ hai, tăng
cường các mẫu inlier và các ngoại lệ bị bóp méo. [34] Sử
dụng bộ mã hóa tự động đối nghịch để tính toán hiệu quả
khả năng-

4
mui xe của một mẫu được tạo ra bởi phân phối inlier. Dù
Sau khi xác định quá trình sinh p(t) (xt−1|xt) =θ
thế nào, các phương pháp này chỉ có khả năng phân loại (t)
một lớp và không khoanh vùng các dị thường. Ganomaly QΣ(XT−1|XT, θf (Xt)), theo đó thông qua
[1] sử dụng GAN có điều kiện [15, 32], vượt trội so với √αt−1f
GAN trước đó xt−1 = θ
(t)
(xt)+q1 − αt−1 −t σ2.ε θ
(t)
(xt)
state-of-the-art models. [35, 50] use a discriminative end- (3)
+σtεt,
Mô hình dị thường bề mặt có thể huấn luyện để phát hiện Trong đó σt xác định tính ngẫu nhiên của pro-cess lấy
và khoanh vùng các dị thường. Những mô hình này dựa mẫu, người ta có thể tạo ra các mẫu mới.
vào dị thường tổng hợp để đào tạo. Gần đây, các mô hình Kết nối giữa các mô hình khuếch tán và khớp điểm [43]
khuếch tán khử nhiễu đã trở nên phổ biến cho hình ảnh và được giới thiệu bởi [44] và suy ra một hàm dựa trên điểm
tạo ra âm thanh [21, 41]. Trong lĩnh vực y tế, các mô hình số để ước tính độ lệch sẽ xảy ra ở mỗi bước thời gian để
khuếch tán khử nhiễu đã được sử dụng để phát hiện khối u tạo ra hình ảnh ít nhiễu hơn. Nó có thể được viết- mười
não [45]. AnoD- DPM [46] cho thấy các mô hình này hoạt như:
động tốt hơn GAN để phát hiện bất thường trong lĩnh vực
y tế. 1 (t)

3. Nền ∇XT nhật trình pθ(Xt) = −√1 (Xt), (4)


Các mô hình khuếch tán khử nhiễu [21, 41] là các mod-el − αϵθ
mà [10] đã sử dụng thuộc tính này để giới thiệu cơ chế
phát sinh, lấy cảm hứng từ nhiệt động lực học không cân hướng dẫn phân loại. Tương tự, chúng tôi tận dụng chức
bằng, nhằm mục đích năng dựa trên điểm số để giới thiệu quy trình khử nhiễu có
Để tìm hiểu một bản phân phối pθ(x) gần giống với phân điều kiện của chúng tôi trong phần sau. Lưu ý rằng, trong
phối dữ liệu q(x). Các mô hình khuếch tán tạo ra các biến
ồn ào tiềm ẩn x1, ..., Xt , có cùng kích thước với dữ liệu bài báo này, chúng tôi gọi x là hình ảnh đầu vào và x0 là
nhập x q(x), bằng cách dần dần thêm tiếng ồn ε (0, Tôi) tái tạo của nó.
ở mỗi bước~thời gian t. Điều này dẫn đến Xt là ∼tiếng ồn
hoàn toàn 4. Phương pháp
N
thường phân bố với giá trị trung bình 0 và phương sai 1.
Cho một lịch trình phương sai được xác định trước β1 < Trong phần này, chúng tôi trình bày chi tiết khung DDAD
β2 < ... < βT trong đó βt (0, 1), quá trình chuyển tiếp của chúng tôi. Trước tiên, chúng tôi trình bày cơ chế điều
qua∈một loạt các bước T được định nghĩa như sau: hòa được đề xuất của chúng tôi để tái cấu trúc. Sau đó,
Y
chúng tôi giải thích cách nó được sử dụng để loại bỏ sự bất
q(x1:T |x) = q(xt|xt−1),
thường trong khi vẫn giữ được thông tin danh nghĩa. Sau
đó, chúng tôi trình bày một cách tiếp cận mạnh mẽ để so
sánh tuổi im- được tái tạo với đầu vào, dẫn đến một địa
phương bất thường chính xác-
(t 1)
≥ (1) sation. Tổng quan về DDAD được trình bày trong Hình 2.
√1
q(xt|xt−1) = N (xt; − βtxt−1, βtI). 4.1. Quy trình khử nhiễu có điều kiện để tái cấu
trúc
Với tính chất cộng, hợp nhất nhiều Gaussia
dẫn đến một phân phối Gaussian. Do đó , xt được tính Với hình ảnh mục tiêu y và hình ảnh xt bị nhiễu, mục tiêu
trực tiếp tại bất kỳ bước thời gian tùy ý nào t bằng cách của chúng tôi là khử nhiễu xt từng bước để tạo ra một hình
làm nhiễu loạn trong- ảnh hoàn toàn giống với y. Để đạt được điều này, chúng
√αtx tôi đặt điều kiện cho hàm điểm trên hình ảnh mục tiêu để
Qt x là q(xt|x) = N (xt;
đặt hình , (1 − αt)I), trong đó
đạt được chức năng điểm sau
αt = (1 − βi). Mặc dù dễ dàng với tiếng ồn
i=1
Được giới thiệu với một hình ảnh, việc hoàn tác sự nhiễu nhật ký xt pθ(xt y). Tuy nhiên, việc tính toán trực tiếp
∇ điểm pos-terior này là một thách thức, vì xt và y thì
hàm
loạn này vốn đã là một thách thức. Điều này được gọi là không
quá trình đảo ngược hoặc khử nhiễu trong DDPM [20] |
bao gồm cùng một tỷ lệ tín hiệu trên nhiễu. Để giải quyết
được xác định bởi một hàm tham số vấn đề này, chúng tôi dựa vào giả định rằng nếu hình ảnh
pθ(xt−1|xt) = N (xt−1; μθ(xt, t), βtI), trong đó giá trị được tái tạo x0 tương tự như y, do đó, thêm cùng một
trung bình tiếng ồn
được suy ra bằng cách sử dụng hàm học được ε(t)(x ).
DDPM θ t
như Xt bao gồm, đến y, sẽ dẫn đến Xt ∼ Yt. Này
gợi ý mục tiêu đào tạo ε(t)(Xt) ε||2 để đào tạo
− mô
|| hình. Denoising Diffusion Implicit Models (DDIM) [42] tăng
θ

5
tốc theo DDPM bằng cách sử dụng quy trình sam-pling giúp hướng XT về phía YT ở mỗi bước khử nhiễu.
không phải Markovian. DDIM sử dụng mô hình mật độ Để tính toán Yt, chúng tôi thêmθ ε(t)(Xt) được quyết
ngầm thay vì mô hình rõ ràng được sử dụng trong DDPM. định trước bởi mô hình khuếch tán được đào tạo, để y. Sau
DDIM gợi ý một sam- đó, điều kiện được sửa đổi bằng cách thay thế y bằng cách
Quá trình pling q (x |x , x) bằng cách định nghĩa phương
sai mới Yt, dẫn đến Xt nhật trình pθ(XT Yt) để hướng dẫn quá
t
∇ khử nhiễu. Dựa trên
trình
|
Quy tắc Bayes, điều này phân hủy như sau:
σ t−1
√ √
lịch. Dựa trên Xt = αtx + 1 − αtε, người ta có thể trước- ∇XT nhật trình pθ(xt|yt) = ∇XT nhật trình pθ(Xt) +
∇XT nhật trình pθ(yt|xt).
ra lệnh quan sát không ồn ào x0 cụ thể như sau: (5)
√ (t) √ Thuật ngữ điểm vô điều kiện ∇xt log pθ (xt) có thể là di-
(t)
fθ (xt) := (xt − 1 − αt.εθ (Xt))/ αt. (2) được tính toán trực tiếp từ Eq. 4. Trong nhiều trường hợp
tính toán

6
Training Nominal Input Image Training Inference Comparison
Denoising U-Net
Diffusion Process

Diffusion Process
Nominal Target Image

Feature Extractor
Tính năng Điểm ảnh

Feature Extractor
Domain-Adapted
khôn ngoan khôn ngoan
sự so sánh sự so sánh
Fine-tuning
Reconstruction Reconstruction

Reconstruction

Hình 2. Khung DDAD . Sau khi U-Net khử nhiễu đã được đào tạo, trình trích xuất tính năng được điều chỉnh cho phù hợp với miền vấn
đề bằng cách giảm thiểu khoảng cách giữa các tính năng được trích xuất của hình ảnh mục tiêu và hình ảnh được tạo giống với hình ảnh
mục tiêu. Tại thời điểm suy luận, sau khi làm nhiễu hình ảnh đầu vào, quá trình khử nhiễu được điều chỉnh trên cùng một hình ảnh đầu
vào để tạo ra sự tái tạo không có sự bất thường. Cuối cùng, hình ảnh được tái tạo được so sánh với đầu vào thông qua cả pixel và tính
năng phù hợp để tạo ra bản địa hóa bất thường chính xác.

Điểm số có điều kiện (hoặc khả năng) Xt nhật trình pθ(YT


∇Yt cho phép
Xt) là khó chữa. Tuy nhiên, đã tính toán 4.2. Tái tạo để phát hiện bất thường
trực tiếp tính toán khả năng này. Theo |trực giác, khả năng- Đối với các tác vụ phát hiện bất thường, hình ảnh đích y
mui xe∇ Xt nhật trình pθ(YT Xt) có thể được xem như một
điểm hiệu chỉnh cho độ lệch xảy ra trong Xt từ Yt ở mỗi được đặt làm hình ảnh đầu vào x. Điều này cho phép quá
bước |khử nhiễu. Biết rằng cả hai Xt và Yt bao gồm giống trình khử nhiễu, được điều chỉnh trên y, tạo ra xấp xỉ
nhau không có dị thường của x. Vì mô hình chỉ được đào tạo
nhiễu, độ lệch này chỉ xuất hiện ở mức hình ảnh (tín hiệu). trên danh nghĩa
Do đó, sự phân kỳ có thể được tính bằng Yt − Xtvà thuật Dữ liệu, vùng dị thường nằm trong mật độ xác suất thấp
của Pθ (x). Do đó, trong quá trình khử nhiễu, việc tái tạo
ngữ tiếng ồn đã điều chỉnh ϵˆ được cập nhật như sau: ϵˆ = các dị thường rơi vào phía sau phần danh nghĩa.
ε(t)(Xt) − w√1 − αt(Yt − Xt), (6)
Trên toàn bộ quỹ đạo, các bước trước đó tập trung
kiểmθ soát sức mạnh của điều hòa. Cho εˆ, dự
trong đó w (t) vào hình ảnh trừu tượng của hình ảnh trong khi các bước
đoán mới fˆ (xt) được tính bằng Eq. 2. sau nhằm mục đích tái cấu trúc các chi tiết nhỏ. Vì sự bất
Cuối cùng, hình θảnh ít nhiễu hơn xt−1 được tính thường chủ yếu xuất hiện ở mức độ tốt, bước thời gian
thông qua
khử nhiễu bắt đầu có thể được đặt sớm hơn tiếng ồn
Quy trình khử nhiễu như sau:
hoàn toàn, tức là T ′ < T, trong đó có đủ tỷ lệ tín hiệu
√αt−1fˆ(t) q1
trên nhiễu. Lưu ý rằng mô hình được đào tạo trên các
xt−1 = θ (xt) + − αt−1t − σ2εˆ+ quỹ đạo hoàn chỉnh.
σtεt. (7) Chúng tôi gắn nhãn mô hình của mình là DDAD-n,
Tóm tắt quá trình tái thiết của chúng tôi được thể hiện trong đó n đề cập đến số lần lặp khử nhiễu.
trong Al- gorithm 1.
4.3. Ghi bàn bất thường
Thuật toán 1 Quá trình tái thiết Trong trường hợp đơn giản nhất, chúng ta có thể phát hiện
√ √ và khoanh vùng các điểm bất thường thông qua so sánh
pixel-wise giữa đầu vào và re-
1: xT ′ Xây dựng. Tuy nhiên, chỉ so sánh khoảng cách điểm ảnh
αT ′ x 1 − αT ′ của
← + εt Hai hình ảnh có thể không ghi lại tất cả các dị thường như
poked √αt−1fˆ(t)
2: với = T ′, ..., √1
mọi t √αty 1 do 6: XT−1 ← (Xt)
3: Yt ← √ + − αtε(t)(Xt)
θ
4: ϵˆ ← ε(t)(Xt) − w√1√1 − αt(Yt − Xt)
(t) θ
5: fˆθ (Xt) ← (Xt − −
√αt
αt.εˆ)/

7
các bộ phận hoặc vết lõm, theo đó các thần kinh sâu để cũng nắm bắt được sự tương đồng về
biến thể màu sắc có thể nhìn thấy không nhận thức [12, 52]. Các tính năng nhạy cảm với những
có mặt. Do đó, chúng tôi tính toán thêm thay đổi về cạnh và kết cấu trong đó so sánh pixel-wise có
khoảng cách be- tween các tính năng thể thất bại, nhưng chúng thường mạnh mẽ so với một
hình ảnh được trích xuất bởi các mạng chút
θ
7: + biến đổi. Chúng tôi phát hiện ra rằng việc sử dụng cả so
8: kết thúc
1 − αt−1 − σ2εˆ+
t
σtεt sánh độ tuổi và mức độ tính năng mang lại sự định vị bất
cho
thường chính xác nhất.
9: Trả về x0
Cho một hình ảnh được tái tạo x0 và hình ảnh mục tiêu
y,

8
chúng tôi xác định hàm khoảng cách pixel-wise Dp và Trạng thái của mạng φ trước khi điều chỉnh miền. Sự mất
hàm khoảng cách tính năng khôn ngoan Df để lấy bản đồ mát chưng cất này bảo vệ bộ trích xuất tính năng khỏi bị
nhiệt bất thường. Dp được tính toán dựa trên định mức 1 mất tính tổng quát trong quá trình thích
L L ứng với miền mới.
trong không gian pixel. Ở cấp độ tính năng, tương tự như Do đó, DA mất thích ứng miền có thể được thể hiện như sau:
PatchCore [36] và PaDiM [7], chúng tôi sử dụng tổng hợp
trung bình thích ứng để làm mịn không gian từng bản đồ
tính năng riêng lẻ. Các tính năng trong một bản vá nhất LDA = LSimiliarity (x0, y) + λDLLDL(x0, y)
định được tổng hợp trong một biểu diễn duy nhất, dẫn đến Σ
= (1 − cos(φj(x0), φj(y)))
cùng chiều với tính năng nhập. Cuối cùng, một cosin simi-
larity được sử dụng để định nghĩa Df là:
Df (x0, y) = j∈J
jΣ∈
(1 − cos(φj(x0), φj(y))) , (8) (10)

+ DL J 1 − cos(φj(y), φj (y))

trong đó φ [17, 48] đề cập đến một tính năng extrac-


+ λDL Σ 1 − cos(φj(x0), φj (x0)) ,
tor được đào tạo trước và j ∈ J là tập hợp các lớp được
j∈J
xem xét. Chỉ chúng tôi
dùng j∈ {2, 3}để giữ lại tính tổng quát của các tính năng
được sử dụng trong đó λDL xác định tầm quan trọng của tổn thất
chưng cất LDL. Đối với các thí nghiệm của chúng tôi,
[36]. Cuối cùng, chúng tôi chuẩn hóa khoảng cách pixel- J được đặt là 1, 2, 3 . Bộ trích xuất tính{năng re-
} sulting
wise Dp đến có khả năng phục hồi với những thay đổi nhỏ trong
chia sẻ cùng giới hạn trên với khoảng cách tính năng khôn tái thiết. Trong Phụ lục, Mục 10.3, chúng tôi nhấn mạnh
ngoan Df . Do đó, chức năng điểm bất thường cuối cùng vai trò của nó trong việc làm cho mô hình trở nên mạnh
là sự kết hợp giữa pixel và khoảng cách tính năng: mẽ đến biến thể danh nghĩa của
Danomal tối đa (Df ) đối tượng và dị thường giả mạo trong nền hiện diện trong
= v tối đa (Dp) D p + Df , (9)
y tái thiết.

trong đó v kiểm soát tầm quan trọng của khoảng cách (x0) và φj (y). Với giả định rằng x0 y, tính năng của chúng
pixel-wise. phải tương tự nhau. Do đó, mạng φ
được tinh chỉnh bằng cách giảm thiểu khoảng cách giữa các
4.4. Điều chỉnh tên miền
L tính năng được trích xuất . Một hàm mất Tương tự, dựa trên
mô phỏng cosin , được sử dụng cho mỗi lớp kích hoạt cuối
Trong Phần 4.3, chúng tôi đã sử dụng trình trích xuất tính
cùng của khối phân giải không gian thứ j. Điều này chuyển
năng được đào tạo trước để so sánh tính năng khôn ngoan
tiền đào tạo
giữa hình ảnh đầu vào và cấu trúc lại của nó. Tuy nhiên,
các mạng này được đào tạo trên Im-ageNet và không thích Mô hình φ đến mạng thích ứng miền φˆ. Tuy nhiên
ứng tốt với các đặc tính đặc trưng của miền cụ thể của một Chúng tôi quan sát thấy rằng sự khái quát hóa của mạng
nhiệm vụ phát hiện bất thường và một phân loại cụ thể. giảm dần sau nhiều lần lặp lại trong khi tìm hiểu các mẫu
Chúng tôi đề xuất một kỹ thuật thích ứng miền không của tập dữ liệu mới. Để giảm thiểu điều này, chúng tôi kết
giám sát mới bằng cách hội tụ các lớp trích xuất khác nhau hợp tổn thất chưng cất từ bộ trích xuất tính năng đông lạnh
từ hai hình ảnh gần như giống hệt nhau. Điều này giúp các φ phản chiếu
mạng trở nên bất khả tri đối với những thay đổi danh
nghĩa có thể xảy ra trong quá trình tái cấu trúc, đồng thời
tìm hiểu miền của vấn đề. Để đạt được điều này, trước tiên
chúng ta lấy mẫu một hình ảnh ngẫu nhiên x từ tập dữ liệu
đào tạo và nhiễu loạn nó với nhiễu để có được xt. Simi-
larly, chúng tôi chọn ngẫu nhiên một hình ảnh mục tiêu y
từ tập dữ liệu đào tạo. Với một mô hình khử nhiễu được
đào tạo θ, một hình ảnh nhiễu xt được khử nhiễu thành x0
để xấp xỉ y. Các tính năng sau đó là
Trích xuất từ hình ảnh được tái tạo và đích, ký hiệu là φj
∼ 9
5. Thử nghiệm
5.1. Bộ dữ liệu và số liệu đánh giá
Chúng tôi chứng minh tính toàn vẹn của DDAD trên ba
bộ dữ liệu: MVTec, VisA và MTD. Mô hình của chúng
tôi phân loại chính xác tất cả các mẫu trong 11 trên 15 và
4 trong số 12 loại trong MVTec và VisA, tương ứng.
Điểm chuẩn phát hiện bất thường MVTec [4] là một tập
dữ liệu công nghiệp được biết đến rộng rãi bao gồm 15
lớp với 5 kết cấu và 10 đối tượng. Mỗi cate- gory chứa
các mẫu không có dị thường để đào tạo và các mẫu dị
thường khác nhau để thử nghiệm, từ các vết trầy xước
nhỏ đến các thành phần bị thiếu lớn. Chúng tôi cũng đánh
giá mô hình của mình trên một tập dữ liệu mới có tên
VisA [55]. Bộ dữ liệu này có kích thước gấp đôi MVTec
bao gồm 9.621 hình ảnh bình thường và 1.200 hình ảnh
có độ phân giải cao bất thường. Tập dữ liệu này thể hiện
các đối tượng có cấu trúc phức tạp được đặt ở các vị trí lẻ
tẻ cũng như nhiều đối tượng trong một hình ảnh. Sự bất
thường bao gồm vết trầy xước, vết lõm, đốm màu, vết nứt
và khuyết tật cấu trúc. Chúng tôi cũng đã thử nghiệm trên
bộ dữ liệu Khuyết tật gạch từ tính (MTD) [22]. Tập dữ
liệu này là một tập dữ liệu một danh mục với 925 nom-
Hình ảnh đào tạo nội bộ và 5 loại phụ của các loại khuyết
tật khác nhau với tổng số 392 hình ảnh thử nghiệm.
Chúng tôi sử dụng 80% hình ảnh không có lỗi làm bộ đào
tạo.
Đối với bộ dữ liệu MVTec và VisA, chúng tôi đào tạo
mạng khử nhiễu trên hình ảnh có kích thước 256 256 và
để so sánh, hình ảnh được cắt thành 224 224. Không có ×
tăng cường dữ liệu nào được áp dụng cho bất kỳ tập dữ ×
liệu nào, kể từ khi chuyển đổi tăng cường
có thể giả dạng như dị thường.
Chúng tôi đánh giá hiệu quả của mô hình bằng cách sử
dụng chỉ số Khu vực dưới Đặc điểm của người vận hành
máy thu (AUROC),

10
Bảng 1. So sánh chi tiết về hiệu suất Phân loại và Bản địa hóa bất thường của các phương pháp khác nhau trên điểm chuẩn MVTec [ 4] ở
định dạng (hình ảnh AUROC, pixel AUROC). Năm hàng đầu tiên đại diện cho các danh mục kết cấu và chín hàng tiếp theo đại diện cho
các danh mục đối tượng.

Dựa trên đại diện Dựa trên tái thiết


Phương RD4AD[9] PatchCore[36] Mạng đơn giản GANomaly [1] RIAD [49] PR dựa trên điểm số DRAEM [50] DDAD-S-10 DDAD-10
pháp [28] [40]
Thảm (98.9,98.9) (98.7,98.9) (99.7,98.2) (20.3,-) (84.2,96.3) (91.7,96.4) (97.0,95.5) (98.2,98.6) (99.3,98.7)
Lưới (100,99.3) (99.7,98.3) (99.7,98.8) (40.4,-) (99.6,98.8) (100,98.9) (99.9,99.7) (100,98.4) (100,99.4)
Da thuộc (100,99.4) (100,99.3) (100,99.2) (41.3,-) (100,99.4) (99.9,99.3) (100,98.6) (100,99.2) (100,99.4)
Ngói (99.3,95.6) (100,99.3) (99.8,97.0) (40.8,-) (98.7,89.1) (99.8,96.8) (99.6,99.2) (100,98.2) (100,98.2)
Gỗ (99.2,95.3) (99.2,95.0) (100,94.5) (74.4,-) (93.0,85.8) (96.1,95.4) (99.1,96.4) (99.9,95.1) (100,95.0)
Chai (100,98.7) (100,98.6) (100,98.0) (25.1,-) (99.9,98.4) (100,95.9) (99.2,99.1) (100,98.5) (100,98.7)
Cáp (95.0,97.4) (99.5,98.4) (99.9,97.6) (45.7,-) (81.9,84.2) (94.2,96.9) (91.8,94.7) (99.8,98.3) (99.4,98.1)
Capsule (96.3,98.7) (98.1,98.8) (97.7,98.9) (68.2,-) (88.4,92.8) (97.2,96.6) (98.5,94.3) (99.4,96.0) (99.4,95.7)
Hạt phỉ (99.9,98.9) (100,98.7) (100,97.9) (53.7,-) (83.3,96.1) (98.6,98.7) (100,99.7) (99.8,98.4) (100,98.4)
Đai ốc kim (100,97.3) (100,98.4) (100,98.8) (27.0,-) (88.5,92.5) (96.6,96.6) (98.7,99.5) (100,98.1) (100,99.0)
loại
Viên thuốc (96.6,98.2) (99.8,98.9) (99.0,98.6) (47.2,-) (83.8,95.7) (96.1,98.2) (98.9,97.6) (99.5,99.1) (100,99.1)
Vít (97.0,99.6) (98.1,99.4) (98.2,99.3) (23.1,-) (84.5,98.8) (98.6,99.5) (93.9,97.6) (98.3,99.0) (99.0,99.3)
Bàn chải (99.5,99.1) (100,98.7) (99.7,98.5) (37.2,-) (100,98.9) (98.1,97.8) (100,98.1) (100,98.7) (100,98.7)
Bóng bán (96.7,92.5) (100,96.3) (100,97.6) (44.0,-) (90.9,87.7) (98.7,94.7) (93.1,90.9) (100,95.3) (100,95.3)
dẫn
Khoá kéo (98.5,98.2) (99.4,98.8) (99.9,98.9) (43.4,-) (98.1,97.8) (99.9,98.8) (100,98.1) (99.9,97.5) (100,98.2)
Trung bình (98.5,97.8) (99.1,98.1) (99.6,98.1) (42.1,-) (91.7,94.2) (97.7,97.4) (98.0,97.3) (99.7,97.9) (99.8,98.1)

cả ở cấp độ hình ảnh và pixel. Đối với AUROC của hình Nhập hình ảnh

ảnh, chúng tôi xác định điểm bất thường tối đa trên các
pixel và gán điểm đó làm điểm bất thường tổng thể của
hình ảnh. Phân loại một lớp sau đó được sử dụng để tính
toán hình ảnh AU- ROC để phát hiện bất thường. Đối với Tính năng khôn ngoan Điểm ảnh khôn ngoan
cấp độ pixel, ngoài AUROC pixel, chúng tôi sử dụng chỉ Hình ảnh đầu vào Tái thiết Sự so sánh Sự so sánh Tổ hợp

số Chồng chéo mỗi khu vực (PRO) [5] để đánh giá toàn
diện hơn về hiệu suất bản địa hóa. Điểm PRO xử lý các
vùng bất thường có kích thước khác nhau như nhau, làm
cho nó trở thành một số liệu mạnh mẽ hơn pixel AUROC.

5.2. Thiết lập thử nghiệm


Để đào tạo mô hình khử nhiễu của chúng tôi, chúng tôi sử
dụng khung UNet đã sửa đổi được giới thiệu trong [10]. Hình 3. Top: Ảnh hưởng của tham số điều hòa đến kết quả tái
Đối với mô hình nhỏ gọn DDAD-S, chúng tôi đã giảm các cấu trúc. Dưới cùng: Hàng đầu tiên minh họa một kịch bản trong
kênh cơ sở từ 64 xuống 32 và số lớp chú ý từ 4 xuống 2. đó so sánh pixel-wise tỏ ra không hiệu quả, trong khi hàng thứ
Trong khi DDAD bao gồm 32 triệu tham số, DDAD-S chỉ hai thể hiện sự thất bại trong so sánh tính năng khôn ngoan. Nó
bao gồm 8 triệu tham số. Việc giảm này không chỉ tăng được chứng minh rằng một sự kết hợp dẫn đến phát hiện chính
tốc đào tạo và suy luận mà còn duy trì hiệu suất tương xác trong cả hai trường hợp.
đương với mô hình lớn hơn của chúng tôi. Do đó, DDAD-
S chứng tỏ là một lựa chọn khả thi hơn cho các thiết bị
DDAD khung đề xuất của chúng tôi vượt trội hơn tất cả
biên trong dây chuyền sản xuất hạn chế tài nguyên. Chi
các phương pháp tiếp cận hiện có, không chỉ các phương
tiết đầy đủ được cung cấp trong Phụ lục, Mục 7. Hơn nữa,
pháp dựa trên tái tạo mà còn dựa trên biểu diễn, đạt được
việc lựa chọn các giá trị của hai siêu tham số w và v được
AUROC hình ảnh cao nhất trong tất cả các bộ dữ liệu.
trình bày trong Phụ lục, Phần 8. Lưu ý rằng
mặc dù mô hình được đào tạo bằng cách sử dụng T= Việc sử dụng các mod-els khuếch tán được đề xuất không
1000, chúng tôi đã xác định theo kinh nghiệm T ′ = 250 chỉ cho phép phát hiện và định vị bất thường mà còn tái
là bước thời gian tiếng ồn tối ưu. Sự lựa chọn này tạo ra tạo các dị thường, dựa trên mô hình phát sinh, vốn là một
sự cân bằng thuận lợi giữa tín hiệu và
ý tưởng từ lâu, đã thành công trong việc phát hiện bất
tiếng ồn trong bối cảnh nghiên cứu của chúng tôi.
thường.
5.3. Kết quả thí nghiệm và thảo luận Trong Hình 4, chúng tôi chứng minh tác động của từng
mod-ule của khung của chúng tôi đối với tập dữ liệu
Kết quả phát hiện bất thường trên bộ dữ liệu MVTec, VisA MVTec. Ablations với VisA được thêm vào Phụ lục, Mục
và MTD được hiển thị trong Bảng 1, 2 và 3 tương ứng.
11
9. Chúng tôi đã chỉ ra rằng chỉ riêng các mô hình khuếch
tán đơn giản là không đủ để nâng các phương pháp dựa
trên tái thiết lên mức cạnh tranh. Chúng tôi đã quan sát
thấy rằng áp dụng điều hòa

12
Bảng 2. Phân loại bất thường và hiệu suất bản địa hóa (hình ảnh AUROC, pixel AUROC) của các phương pháp khác nhau trên điểm
chuẩn VisA. Các kết quả tốt nhất được tô đậm.

Phương pháp Nến Viên Hạt điều Kẹo cao su Cá bột Macaroni1 Macaroni2 PCB1 PCB2 PCB3 PCB4 Ống chiên Trung
bình
WinCLIP [24] (95.4,88.9) (85.0,81.6) (92.1,84.7) (96.5,93.3) (80.3,88.5) (76.2,70.9) (63.7,59.3) (73.6,61.2) (51.2,71.6) (73.4,85.3) (79.6,94.4) (69.7,75.4) (78.1,79.6)
SPD [55] (89.1,97.3) (68.1,86.3) (90.5,86.1) (99.3,96.9) (89.8,88.0) (85.7,98.8) (70.8,96.0) (92.7,97.7) (87.9,97.2) (85.4,96.7) (99.1,89.2) (95.6,95.4) (87.8,93.8)
DRAEM [50] (91.8,96.6) (74.7,98.5) (95.1,83.5) (94.8,96.8) (97.4,87.2) (97.2,99.9) (85.0,99.2) (47.6,88.7) (89.8,91.3) (92.0,98.0) (98.6,96.8) (100,98.8) (88.7,93.5)
OmniAL [53] (85.1,90.5) (87.9,98.6) (97.1,98.9) (94.9,98.7) (97.0,89.3) (96.9,98.9) (89.9,99.1) (96.6,98.7) (99.4,83.2) (96.9,98.4) (97.4,98.5) (91.4,99.1) (94.2,96.0)
DDAD-10 (99.9,98.7) (100,99.5) (94.5,97.4) (98.1,96.5) (99.0,96.9) (99.2,98.7) (99.2,98.2) (100,93.4) (99.7,97.4) (97.2,96.3) (100,98.5) (100,99.5) (98.9,97.6)

Hình 4. Hiệu quả của các thành phần khác nhau trong mô hình của chúng tôi về phát hiện và phân đoạn bất thường. Trái: Hiệu quả của
điều hòa chỉ dựa trên so sánh hình ảnh theo pixel. Giữa: Tăng hiệu suất do điều chỉnh miền của trình trích xuất tính năng. Điều hòa được
áp dụng để tái thiết. Phải: Tác động của việc hợp nhất so sánh hình ảnh theo tính năng và pixel-wise. Tất cả các kết quả được hiển thị
trên MVTec
[4] bộ dữ liệu.

Bảng 3. Hình ảnh AUROC kết quả phát hiện bất thường trên quả cạnh tranh với PaDiM [7] và PatchCore [36] trong
MTD [22] MVTec. Hiệu suất cấp điểm ảnh kém hơn so với hình ảnh-
GANomaly [1] DifferNet [37] PatchCore-10 [36] DDAD-10
76.7 97.7 97.9 98.3

Bảng 4. Chỉ số PRO để định vị bất thường trên tập dữ liệu


MVTec AD [4] và VisA [55]. Các kết quả tốt nhất được tô đậm.

Phương pháp SPADE [6] PaDiM[7] RD4AD[9] Bản


v á [ 36] D D A D - 1 0
MVTec 91.7 92.1 93.9 93.5 92.3
Phương pháp WinCLIP [24] D R A E M [ 50] R D 4 A D [ 9]
P a t c h C o r e [ 36] D D A D - 1 0
Thị thực 56.8 73.1 70.9 91.2 92.7

Cơ chế làm tăng khả năng phát hiện và định vị bất thường
lần lượt là 6,7% và 4,2% so với quy trình khử nhiễu không
phân đoạn, dựa trên so sánh pixel-wise. Điều này chứng tỏ
khả năng hướng dẫn của chúng tôi trong việc làm nhăn
chất lượng tái thiết. Ngoài ra, việc sử dụng
của thích ứng miền dựa trên khuếch tán thêm 8.2% và
4.8%
để so sánh tính năng khôn ngoan và sự kết hợp của
Mức độ pixel và tính năng làm tăng hiệu suất cuối cùng
lên 1.2% và 0.7% về phát hiện bất thường và khoanh vùng
lại. Phân tích toàn diện biện minh cho việc sử dụng
của cả hai so sánh pixel và tính năng được thảo luận trong
Ap- pendix, Phần 12.
Hiệu suất DDAD trên chỉ số PRO được trình bày trong
Bảng 4. DDAD đạt được kết quả SOTA trên VisA và kết
13
hiệu suất mức có thể được quy cho điểm khử nhiễu ban
đầu T ′ = 250, điều này đặt ra thách thức lớn hơn để
xây dựng lại các thành phần lớn bị thiếu (chẳng hạn như
một số mẫu
trong danh mục bóng bán dẫn). Tuy nhiên, bắt đầu từ các
bước thời gian trước đó giới thiệu sự mơ hồ trong việc tái
thiết và dẫn đến tăng thời gian suy luận. Một số chế độ lỗi
của mô hình được trình bày trong Phụ lục, Phần 13.1.
Hình 1 và 5 trình bày các kết quả định tính thu được
để tái thiết và phân đoạn bất thường. Lưu ý rằng sự bất
thường được bản địa hóa với độ chính xác đáng kể trong
các mẫu khác nhau của bộ dữ liệu VisA và MVTec. Kết
quả xây dựng lại của mô hình đặc biệt ấn tượng, vì chúng
không chỉ phân khúc các khu vực dị thường mà còn biến
chúng thành các đối tác danh nghĩa của chúng. Ví dụ, mô
hình tái tạo các liên kết bị thiếu trên bóng bán dẫn, xóa
nhược điểm trên bảng mạch và tái tạo các thành phần bị
thiếu trên PCB. Những tái thiết này có giá trị đáng kể
trong các cơ sở công nghiệp, vì chúng cung cấp những
hiểu biết có giá trị cho người lao động, vô hiệu hóa chúng
để xác định các khiếm khuyết và có khả năng giải quyết
chúng. Hình 3 cũng phân tích một cách định tính tác động
của điều kiện khi siêu tham số w tăng, nhấn mạnh rằng
các giá trị w cao hơn dẫn đến điều hòa rõ rệt hơn trong
việc tái tạo. Hơn nữa, con số này cũng bao gồm sự cắt bỏ
định tính của các so sánh tính năng khôn ngoan và pixel-
wise. Kết quả định lượng và định tính chi tiết hơn được
bao gồm trong Phụ lục.

5.4. Thời gian suy luận


Sự cân bằng giữa độ chính xác và thời gian tính toán trên
tập dữ liệu VisA được mô tả trong Bảng 5. Trong số các
thử nghiệm

14
Hình ảnh đầu vào Tái thiết GT Bản đồ nhiệt Hình ảnh đầu vào Tái thiết GT Bản đồ
nhiệt

Hình 5. Hàng thứ nhất và thứ hai mô tả các mẫu trên 'đai ốc kim loại', 'viên nang', 'bóng bán dẫn' và 'lưới' được chọn từ MVTec [4]. Hàng
thứ ba và thứ tư mô tả các mẫu 'pcb4', 'kẹo cao su', 'pcb3' và 'viên nang' được chọn từ VisA [55].

DDAD-10 nổi bật bằng cách sử dụng 10 lần lặp lại và Detec- tion (DDAD), một cách tiếp cận dựa trên tái thiết
mang lại kết quả thuận lợi nhất. Tuy nhiên, DDAD-5 trở mới để de-
thành một lựa chọn hấp dẫn do thời gian suy luận nhanh
hơn, có tầm quan trọng đáng kể, đặc biệt là trong các ứng
dụng công nghiệp. Mặc dù mô hình khuếch tán nổi tiếng là
suy luận chậm, cách tiếp cận của chúng tôi vẫn có tính
cạnh tranh cao với các mô hình dựa trên biểu diễn khác
nhau. Cơ chế điều hòa độc đáo của chúng tôi cho phép kết
quả cạnh tranh với ít bước khử nhiễu hơn. Xu hướng này
vẫn duy trì ngay cả với mạng khử nhiễu nén (DDAD-S).
Mô hình DDAD hoàn chỉnh của chúng tôi yêu cầu 0,79GB
bộ nhớ trong quá trình suy luận, trong khi DDAD-S chỉ
cần 0,59GB bao gồm cả việc sử dụng bộ nhớ của fea-ture
extractor.
Bảng 5. Thời gian suy luận trên mỗi hình ảnh và hiệu suất của
mô hình trên MVTec [4] với số bước khử nhiễu khác nhau trong
for-mat của (Hình ảnh AUROC, Pixel AUROC, PRO).

Phương pháp Bản vá-1% PaDiM DDAD-5 Bản vá-10%


Hiệu suất (99.0, 98.1, 93.5) (95.4,97.5,92.1) (99.3, 97.5, 91.2) (99.1,98.1,93.5)
Thời gian 0.17 0.19 0.21 0.22
Phương pháp DDAD-S-10 DDAD-10 THUỔNG DDAD-25 ·
Hiệu suất (99.7,97.9,91.3) (99.8,98.1,92.4) (85.3, 96.6, 91.5) (99.7, 97.9, 91.0)
Thời gian 0.34 0.38 0.66 0.90

6. Kết thúc
Chúng tôi đã giới thiệu Denoising Diffusion Anomaly

15
Dựng lên dị thường. Mô hình của chúng tôi tận dụng khả
năng phát sinh ấn tượng của các mô hình khuếch tán gần
đây để thực hiện phát hiện bất thường. Chúng tôi thiết kế
một pro-cess khử nhiễu có điều kiện để tạo ra một hình
ảnh không có dị thường gần giống với hình ảnh mục tiêu.
Hơn nữa, chúng tôi đề xuất một phương pháp so sánh
hình ảnh dựa trên pixel và tính năng phù hợp để định vị
bất thường chính xác. Cuối cùng, chúng tôi đã giới thiệu
một kỹ thuật mới sử dụng mô hình khử nhiễu của chúng
tôi để điều chỉnh mạng thần kinh được đào tạo trước với
miền của vấn đề để trích xuất tính năng ấn tượng. DDAD
đạt được kết quả hiện đại trên các bộ dữ liệu chuẩn, cụ
thể là MVTec, VisA và MTD, mặc dù là một phương
pháp dựa trên tái thiết.
Hạn chế và công việc trong tương lai. Trong công
việc này, chúng tôi chứng minh rằng những đóng góp của
chúng tôi nâng cao tốc độ suy luận trong khi vẫn duy trì
hiệu suất phát hiện bất thường tương đương. Tuy nhiên,
chúng tôi tin rằng vẫn còn chỗ để cải thiện nội địa hóa bất
thường. Các can thiệp như tự động phân tích các điểm
khởi đầu khử nhiễu hoặc trừu tượng hóa đến một không
gian tiềm ẩn để đào tạo là những con đường đầy hứa hẹn
để khám phá trong công việc trong tương lai.

Tham khảo
[1] Samet Akcay, Amir Atapour-Abarghouei và Toby P
Breckon. Ganomaly: Phát hiện bất thường bán giám sát
thông qua huấn luyện đối thủ. Trong Thị giác máy tính –
ACCV 2018: Hội nghị Châu Á lần thứ 14 về Thị giác Máy
tính, Perth, Úc,

16
Ngày 2–6 tháng Mười Hai năm 2018, Các Giấy Tờ Chọn Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville và
Lọc Sửa Đổi, Phần III 14, Yoshua Bengio. Mạng lưới đối thủ tạo ra. Thông cáo của
các trang 622–637. Mùa xuân, 2019. 1, 3, 6, 7 ACM, 63(11):139–144, 2020. 3
[2] Liron Bergman, Niv Cohen và Yedid Hoshen. Phát hiện bất
thường hàng xóm gần nhất. arXiv in trước
arXiv:2002.10445, 2020. 2
[3] Paul Bergmann, Sindy Lo ̈ we, Michael Fauser, David
Sattleg-ger, và Carsten Steger. Cải thiện sự phân tách khuyết
tật không được giám sát bằng cách áp dụng sự tương đồng về
cấu trúc với bộ mã hóa tự động. arXiv in trước
arXiv:1807.02011, 2018. 2
[4] Paul Bergmann, Michael Fauser, David Sattlegger và
Carsten Steger. Quảng cáo Mvtec – một bộ dữ liệu toàn
diện trong thế giới thực để phát hiện bất thường không
được giám sát. Trong Kỷ yếu của hội nghị IEEE / CVF về
thị giác máy tính và nhận dạng mẫu, trang 9592–9600,
2019. 1, 5, 6, 7, 8, 2, 3, 4
[5] Paul Bergmann, Michael Fauser, David Sattlegger và
Carsten Steger. Học sinh không hiểu biết: Phát hiện bất
thường giữa học sinh và giáo viên bằng cách nhúng tiềm ẩn
phân biệt đối xử. Trong Kỷ yếu của hội nghị IEEE / CVF về
rung máy tính và nhận dạng mẫu, trang 4183–4192, 2020.
2, 6
[6] Niv Cohen và Yedid Hoshen. Sự bất thường của hình ảnh
phụ với sự tương ứng kim tự tháp sâu. arXiv in trước
arXiv:2005.02357, 2020. 1, 2, 7, 3
[7] Thomas Defard, Aleksandr Setkov, Angelique Loesch và
Romaric Audigier. Padim: một khung mô hình phân phối
bản vá để phát hiện và bản địa hóa bất thường. Trong Pat-
Tern Recognition. Hội thảo quốc tế ICPR và Chal- lenges:
Sự kiện ảo, ngày 10–15 tháng 1 năm 2021, Kỷ yếu,
Phần IV, trang 475–489. Mùa xuân, năm 2021. 1, 2, 5, 7, 3
[8] David Dehaene và Pierre Eline. Định vị bất thường bằng
cách mô hình hóa các đặc điểm nhận thức. arXiv in trước
arXiv:2008.05369, 2020. 1
[9] Hanqiu Deng và Xingyu Li. Phát hiện bất thường thông qua
chưng cất ngược từ nhúng một lớp. Trong Kỷ yếu của Hội
nghị IEEE/CVF về Thị giác Máy tính và Nhận dạng Mẫu,
trang 9737–9746, 2022. 1, 2, 6, 7, 3
[10] Prafulla Dhariwal và Alexander Nichol. Các mô hình
khuếch tán đánh bại gans về tổng hợp hình ảnh. Những tiến
bộ trong hệ thống xử lý thông tin thần kinh, 34: 8780–8794,
2021. 3, 6
[11] Laurent Dinh, Jascha Sohl-Dickstein và Samy Bengio. Ước
tính mật độ sử dụng NVP thực. Trong Hội nghị quốc tế về
đại diện học tập, 2017. 2
[12] Alexey Dosovitskiy và Thomas Brox. Tạo ra các độ tuổi
với các chỉ số tương tự về nhận thức dựa trên các tác phẩm
mạng sâu. Những tiến bộ trong hệ thống xử lý thông tin
thần kinh, 29, 2016. 4
[13] Spyros Gidaris, Praveer Singh và Nikos Komodakis. Học
đại diện không giám sát bằng cách dự đoán các rota- tions
hình ảnh. arXiv in trước arXiv:1803.07728, 2018. 2
[14] Izhak Golan và Ran El-Yaniv. Phát hiện dị thường sâu cho
chúng ta- biến đổi hình học. Trong Những tiến bộ trong hệ
thống xử lý thông tin thần kinh. Curran Associates, Inc.,
2018. 2
[15] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing
17
[16] Denis Gudovskiy, Shun Ishizaka, và Kazuki Kozuka. Thị giác Máy tính (ICCV), trang 16166–16175, 2023. 3
Cflow-ad: Phát hiện bất thường không giám sát theo thời
gian thực với bản địa hóa thông qua các luồng chuẩn hóa
có điều kiện. Trong Kỷ yếu của Hội nghị mùa đông
IEEE/CVF về ứng dụng thị giác máy tính, trang 98–107,
2022. 1, 2
[17] Kaiming He, Xiangyu Zhang, Shaoqing Ren và Jian Sun.
Học tập dư sâu để nhận dạng hình ảnh. Trong Kỷ yếu của
hội nghị IEEE về thị giác máy tính và nhận dạng mẫu,
trang 770–778, 2016. 2, 5
[18] Dan Hendrycks, Mantas Mazeika, Saurav Kadavath và
Dawn Song. Sử dụng học tập tự giám sát có thể cải thiện
tính mạnh mẽ và không chắc chắn của mô hình. Những
tiến bộ trong hệ thống xử lý hình thành thần kinh, 32,
2019. 2
[19] Geoffrey Hinton, Oriol Vinyals và Jeff Dean. Chắt lọc
kiến thức trong một mạng lưới thần kinh. arXiv in trước
arXiv:1503.02531, 2015. 2
[20] Jonathan Ho, Ajay Jain và Pieter Abbeel. Denoising dif-
fusion probabilistic mô hình. Trong Những tiến bộ trong
hệ thống xử lý thông tin thần kinh, trang 6840–6851.
Curran Asso- ciates, Inc., 2020. 3
[21] Jonathan Ho, Ajay Jain và Pieter Abbeel. Denoising diffu-
sion probabilistic mô hình. Những tiến bộ trong hệ thống
xử lý thông tin thần kinh, 33:6840–6851, 2020. 1, 3
[22] Yibin Huang, Congying Qiu và Kui Yuan. Độ mặn khuyết
tật bề mặt của gạch từ tính. Máy Tính Trực Quan, 36:85–
96, năm 2020. 5, 7, 4, 9
[23] Jeremy Irvin, Pranav Rajpurkar, Michael Ko, Yifan Yu,
Sil- viana Ciurea-Ilcus, Chris Chute, Henrik Marklund,
Behzad Haghgoo, Robyn Ball, Katie Shpanskaya, et al.
Chexpert: Một bộ dữ liệu X quang ngực lớn với nhãn
không chắc chắn và so sánh chuyên gia. Trong Kỷ yếu của
hội nghị AAAI về trí tuệ nhân tạo, trang 590–597, 2019. 1
[24] Jongheon Jeong, Yang Zou, Taewan Kim, Dongqing
Zhang, Avinash Ravichandran và Onkar Dabeer. Winclip:
Zero-
/phân loại và phân đoạn bất thường ít shot. Trong Hội nghị
IEEE/CVF về Thị giác máy tính và Nhận dạng mẫu
(CVPR), các trang 19606–19616, 2023. 7
[25] Durk P Kingma và Prafulla Dhariwal. Glow: Dòng chảy
tạo ra với các kết cấu 1x1 đảo ngược. Những tiến bộ trong
hệ thống xử lý thông tin thần kinh, 31, 2018. 2
[26] Diederik P Kingma và Max Welling. Tự động mã hóa
varia- tional bayes. arXiv in trước arXiv:1312.6114, 2013.
1, 2
[27] Wen Liu, Weixin Luo, Dongze Lian và Shenghua Gao. Dự
đoán khung Fu-ture để phát hiện bất thường – một đường
cơ sở mới. Trong Kỷ yếu của hội nghị IEEE về thị giác
máy tính và nhận dạng mẫu, trang 6536–6545, 2018. 1
[28] Zhikang Liu, Yiming Zhou, Yuansheng Xu và Zilei Wang.
Simplenet: Một mạng đơn giản để phát hiện và bản địa
hóa bất thường hình ảnh. Trong Kỷ yếu của IEEE / CVF
Confer- ence on Computer Vision and Pattern
Recognition, trang 20402–20411, 2023. 6
[29] Fanbin Lu, Xufeng Yao, Chi-Wing Fu và Jiaya Jia. Loại bỏ
các dị thường như tiếng ồn để nội địa hóa khuyết tật công
nghiệp. Trong Kỷ yếu của Hội nghị Quốc tế IEEE/CVF về

18
[30] Yuchen Lu và Peng Xu. Phát hiện bất thường cho hình ảnh [43] Yang Song và Stefano Ermon. Mô hình hóa tạo bằng cách
dễ dàng trên da bằng cách sử dụng bộ mã hóa tự động biến esti- giao phối gradient của phân phối dữ liệu. Những tiến bộ
thể. arXiv in trước arXiv:1807.01349, 2018. 2 trong hệ thống xử lý thông tin thần kinh, 32, 2019. 3
[31] Michael Mathieu, Camille Couprie và Yann LeCun. Dự [44] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma,
đoán video đa tỷ lệ sâu ngoài sai số vuông trung bình. arXiv Ab- hishek Kumar, Stefano Ermon và Ben Poole. Mô hình
in trước arXiv:1511.05440, 2015. 2 tổng quát dựa trên điểm số thông qua các tương đương vi
[32] Mehdi Mirza và Simon Osindero. Lưới đối nghịch phát phân ngẫu nhiên. Trong Hội nghị quốc tế về phản biện học
sinh có điều kiện. arXiv in trước arXiv:1411.1784, 2014. 3 tập, năm 2021. 3
[33] Mehdi Noroozi và Paolo Favaro. Học không giám sát các [45] Julia Wolleb, Florentin Bieder, Robin Sandku ̈ hler, và
biểu diễn trực quan bằng cách giải các câu đố ghép hình. Philippe C Cattin. Mô hình khuếch tán để phát hiện bất
Trong Com- puter Vision–ECCV 2016: Hội nghị châu Âu thường y tế. Trong Điện toán hình ảnh y tế và Can thiệp
lần thứ 14, Am- sterdam, Hà Lan, ngày 11-14 tháng 10 năm máy tính – MICCAI 2022: Hội nghị quốc tế lần thứ 25,
2016, Kỷ yếu, Phần VI, trang 69–84. Mùa xuân, 2016. 2 Singapore, ngày 18–22 tháng 9 năm 2022, Kỷ yếu,
[34] Stanislav Pidhorskyi, Ranya Almohsen và Gianfranco Phần VIII, trang 35–45. Mùa xuân, 2022. 3
Doretto. Phát hiện tính mới xác suất phát sinh với bộ mã [46] Julian Wyatt, Adam Leach, Sebastian M Schmon và Chris
hóa tự động đối nghịch quảng cáo. Những tiến bộ trong hệ G Willcocks. Anoddpm: Phát hiện bất thường với các mô
thống cung cấp thông tin thần kinh, 31, 2018. 2 hình xác suất khuếch tán khử nhiễu bằng cách sử dụng
[35] Nicolae-Ca ̆ta ̆lin Ristea, Neelu Madan, Radu Tudor Ionescu, nhiễu đơn giản. Trong Kỷ yếu của Hội nghị IEEE / CVF về
Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B Moes- Thị giác Máy tính và Nhận dạng Mẫu, trang 650–656,
lund và Mubarak Shah. Khối chú ý dự đoán tự giám sát để 2022. 3
phát hiện bất thường. Trong Kỷ yếu của Hội nghị IEEE/CVF [47] Jiawei Yu, Ye Zheng, Xiang Wang, Wei Li, Yushuang Wu,
về Thị giác Máy tính và Nhận dạng Mẫu, trang 13576– Rui Zhao và Liwei Wu. Fastflow: Phát hiện và khoanh
13586, 2022. 3 vùng bất thường không giám sát thông qua các luồng chuẩn
hóa 2d. arXiv in trước arXiv:2111.07677, 2021. 1, 2
[36] Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard
[48] Sergey Zagoruyko và Nikos Komodakis. Lưới dư rộng- hoạt
Scho ̈lkopf, Thomas Brox và Peter Gehler. Hướng tới thu
động. arXiv in trước arXiv:1605.07146, 2016. 5, 1
hồi tal trong phát hiện bất thường công nghiệp. Trong Kỷ
yếu của Hội nghị IEEE / CVF về Thị giác Máy tính và [49] Vitjan Zavrtanik, Matej Kristan, và Danijel Skocˇaj. Tái cấu
Nhận dạng Mẫu, trang 14318–14328, 2022. 1, 2, 5, 6, 7, 3 trúc bằng cách sơn để phát hiện bất thường thị giác. Nhận
dạng mẫu, 112:107706, 2021. 6
[37] Marco Rudolph, Bastian Wandt và Bodo Rosenhahn. Giống
[50] Vitjan Zavrtanik, Matej Kristan, và Danijel Skocˇaj. Draem-
nhau nhưng khác nhau: Phát hiện lỗi bán giám sát với các
một nhúng tái tạo được đào tạo phân biệt đối xử để phát hiện
luồng chuẩn hóa. Trong Kỷ yếu của hội nghị mùa đông
bất thường trên khuôn mặt. Trong Kỷ yếu của Hội nghị
IEEE / CVF về các ứng dụng của thị giác máy tính, các
Quốc tế IEEE / CVF về Thị giác Máy tính, trang 8330–
trang 1907– 1916, 2021. 7
8339, 2021. 3, 6, 7
[38] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause,
[51] Hui Zhang, Zheng Wang, Zuxuan Wu và Yu-Gang Jiang.
San- jeev Satheesh, Sean Ma, Zhiheng Huang, Andrej
Diffusionad: Khuếch tán nhiễu để phát hiện bất thường.
Karpathy, Aditya Khosla, Michael Bernstein, et al. Thử
arXiv in sẵn arXiv:2303.08730, 2023. 3
thách nhận dạng hình ảnh quy mô lớn Imagenet. Tạp chí
[52] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shecht-
quốc tế về thị giác máy tính, 115:211–252, 2015. 2
man và Oliver Wang. Hiệu quả bất hợp lý của các tính năng
[39] Mohammad Sabokrou, Mohammad Khalooei, Mahmood sâu sắc như một thước đo nhận thức. Trong Kỷ yếu của hội
Fathy và Ehsan Adeli. Phân loại một lớp học đối nghịch để nghị IEEE về thị giác máy tính và nhận dạng mẫu, trang
phát hiện tính mới. Trong Kỷ yếu của hội nghị IEEE về thị 586–595, 2018. 4
giác máy tính và nhận dạng mẫu, trang 3379–3388, 2018. 2
[53] Ying Zhao. Omnial: Một khung cnn thống nhất để định vị
[40] Woosang Shin, Jonghyeon Lee, Taehan Lee, Sangmoon bất thường không giám sát. Trong Kỷ yếu của Hội nghị
Lee và Jong Pil Yun. Phát hiện bất thường bằng cách sử IEEE / CVF về Thị giác Máy tính và Nhận dạng Mẫu
dụng khả năng phục hồi nhiễu loạn dựa trên điểm số. Trong (CVPR), trang 3924–3933, 2023. 7
Kỷ yếu của Hội nghị Quốc tế IEEE/CVF về Thị giác Máy [54] David Zimmerer, Jens Petersen, Gregor Ko ̈hler, Paul Ja ̈ger,
tính (ICCV), trang 23372–23382, 2023. 6, 3 Peter Full, Klaus Maier-Hein, Tobias Roß, Tim Adler,
[41] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan Annika Reinke và Lena Maier-Hein. Thử thách phân tích
và Surya Ganguli. Học sâu không giám sát bằng cách sử ngoài phân phối y tế 2022, 2022. 1
dụng nhiệt động lực học không cân bằng. Trong Hội nghị [55] Yang Zou, Jongheon Jeong, Latha Pemula, Dongqing Zhang
quốc tế về học máy, các trang 2256–2265. PMLR, 2015. 1, và Onkar Dabeer. Đào tạo trước khi tự giám sát tại chỗ sự
3 khác biệt để phát hiện và phân đoạn bất thường. Trong Com-
[42] Jiaming Song, Chenlin Meng và Stefano Ermon. Denois- puter Vision–ECCV 2022: Hội nghị châu Âu lần thứ 17, Tel
ing khuếch tán mô hình ngầm. Trong Hội nghị quốc tế về Aviv, Israel, ngày 23–27 tháng 10 năm 2022, Kỷ yếu, Phần
đại diện học tập, năm 2021. 3 XXX, trang 392–408. Mùa xuân, 2022. 1, 5, 7, 8, 2, 3, 4, 6

19
Phát hiện bất thường với các mô hình khuếch tán khử nhiễu có điều kiện
Tài liệu bổ sung
7. Chi tiết thực hiện 1,5 cho hạt điều mang lại kết quả phát hiện chính xác hơn.
Kết quả trên chỉ số PRO là de-
DDAD được triển khai trong Python 3.8 và PyTorch 1.13. trong Bảng 8. Chúng tôi đã quan sát cài đặt λDL = 0.01
Mô hình khử nhiễu trải qua quá trình đào tạo bằng cách sử
dụng trình tối ưu hóa Adam, với tỷ lệ học tập là 0,0003 và
trọng lượng de- cay là 0,05. Tinh chỉnh trình trích xuất
tính năng sử dụng trình tối ưu hóa AdamW với tốc độ học
tập là 0,0001. Trong quá trình tinh chỉnh, mỗi lô được chia
thành hai lô nhỏ, mỗi lô có kích thước 16 hoặc 8. Một lô
nhỏ bao gồm đầu vào im-
tuổi, trong khi cái còn lại bao gồm hình ảnh mục tiêu.
Tham số điều khiển gia vị được đặt thành w = 3 để tinh
chỉnh bộ trích xuất tính năng. Sự cân bằng giữa khoảng
cách pixel-wise và tính năng khôn ngoan được thiết lập là
v = 1 cho MVTec
và v = 7 cho VisA. Để làm mịn các bản đồ nhiệt bất
thường, một
Bộ lọc Gaussian với σg = 4 được áp dụng. Tất cả các thử
nghiệm được thực thi trên GeForce RTX 3090. Mạng khử
nhiễu
Yêu cầu đào tạo từ 4 đến 6 giờ, tùy thuộc vào số lượng
mẫu cho từng loại.
Chúng tôi đã thu được kết quả tốt nhất bằng cách sử
dụng WideResNet101 [48] làm trình trích xuất tính năng.
Tham số ngẫu nhiên của σ cho quá trình khử nhiễu được
đặt bằng 1. Theo kinh nghiệm, chúng tôi đã đạt được kết
quả tương tự trong việc sử dụng một quy trình khử nhiễu
có xác suất hoặc ẩn. Tuy nhiên, điều cần lưu ý là việc thay
đổi siêu tham số này ảnh hưởng đến việc tái thiết và do đó
yêu cầu điều chỉnh siêu tham số bổ sung.

7.1. MVTec
Trong bảng 9 và bảng 10, các cài đặt được sử dụng để đạt
được kết quả tốt nhất trên DDAD và DDAD-S được trình
bày. Chúng tôi đã đào tạo DDAD và DDAD-S với quy mô
lô lần lượt là 32 và 16. Đối với cả hai mô hình, tính năng
được trích xuất được tinh chỉnh và mô hình được thử
nghiệm trên kích thước lô là 16. Hyperparameter v được
đặt thành 1 để cân bằng pixel và so sánh tính năng. Kết
quả về số liệu PRO và so sánh với các phương pháp khác
được mô tả trong Bảng 7. Kết quả về các bước khử nhiễu
khác nhau được trình bày trong Bảng 6. Chúng ta
đã quan sát cài đặt λDL = 0.1 cho tập dữ liệu MVTec dẫn
đến kết quả tốt nhất.

7.2. Thị thực


Bảng 11 trình bày cấu hình được sử dụng để đạt được kết
quả tối ưu cho DDAD. DDAD đã trải qua quá trình đào
tạo và thử nghiệm với quy mô lô là 32. Đối với các loại
mac- aroni2 và pcb1, chúng tôi đã đạt được kết quả tốt hơn
với kích thước lô là 16 trong quá trình tinh chỉnh. Siêu
tham số v được thiết lập ở mức 7; tuy nhiên, đặt v thành

1
cho tập dữ liệu VisA dẫn đến kết quả tốt nhất.

8. Siêu tham số
Trong phần này, chúng tôi thảo luận về vai trò của từng
siêu tham số được giới thiệu trong bài báo và cách chúng
chỉ ảnh hưởng đến chất lượng tái tạo hoặc độ chính xác
của bản đồ nhiệt bản địa hóa.

8.1. Siêu tham số điều hòa w


Bảng 12 trình bày các kết quả định lượng về tác động của
siêu tham số w đối với việc tái thiết tăng cường, minh họa
cách cơ chế điều hòa làm giảm phân loại sai và định vị
sai trên 13 trong số 15 loại. Để đảm bảo sự so sánh công
bằng, chúng tôi chỉ sử dụng độ lệch pixel để đánh giá
chất lượng tái tạo trên tập dữ liệu MVTec. Như thể hiện
trong Hình 4 (bên trái), điều hòa này cải thiện khả năng
phát hiện và định vị bất thường lần lượt là 6,7% và 4,2%.
Đáng chú ý, trong một số loại, chẳng hạn như thuốc viên
và gạch, cơ chế điều hòa của chúng tôi tăng cường tái cấu
trúc lên đến 30%. Sự cải thiện tương tự được quan sát
thấy trong Hình 8 khi cơ chế điều hòa của chúng tôi được
áp dụng trong quá trình khử nhiễu. Hình 6 minh họa một
cách định tính tác động của điều hòa đối với việc tái thiết.
Bằng cách giới thiệu cơ chế điều hòa, chúng tôi đạt
được việc tái thiết các khu vực dị thường trong khi phục
vụ hiệu quả mô hình của các vùng danh nghĩa. Trong
phần mở rộng được cung cấp, hàng đầu tiên hiển thị một
mẫu từ danh mục thuốc viên của tập dữ liệu MVTec [4],
trong đó các chấm đỏ thường được phân phối ngẫu nhiên.
Một mô hình khuếch tán đơn giản không thể xây dựng lại
chính xác các dấu chấm. Tuy nhiên, bằng cách tăng tham
số điều hòa w, mô hình tái tạo thành công các chấm đỏ
này, đồng thời loại bỏ và thay thế sự bất thường (màu
vàng ở phía trên bên trái của viên thuốc) bằng mô hình
danh nghĩa.
Ở hàng thứ hai, một ví dụ về cáp được hiển thị, trong
đó bộ khuếch tán trơn đã thay đổi chính xác màu của cáp
màu xám trên cùng thành màu xanh lá cây. Tuy nhiên, so
với việc tái tạo con-ditioned, nơi các dây được xây dựng
lại chính xác, mô hình khuếch tán trơn không thể tái tạo
chính xác các dây riêng lẻ trong cáp. Ở hàng thứ ba, có
một ví dụ về một phần in, được biểu thị bằng hộp màu
đỏ, trên viên nang không được tái tạo thành công bằng
mô hình khuếch tán đơn giản. Tuy nhiên, khi điều hòa
được áp dụng, phần in được khôi phục về dạng ban đầu.
Trong trường hợp của hạt phỉ, mô hình khuếch tán
đồng bằng tái tạo lại, điều này không chính xác. Khi điều
hòa được áp dụng, vòng quay được điều chỉnh hiệu quả
và hạt phỉ được tái tạo theo đúng hướng.

2
Bảng 6. Hiệu suất DDAD trên MVTec [4], dựa trên các bước khử nhiễu khác nhau. Định dạng (ImageAUROC, PixelAUROC)

Loại Thảm Lưới Da thuộc Ngói Gỗ Chai Cáp Capsule Hạt phỉ Đai ốc kim Viên thuốc Vít Bàn chải Bóng bán Khoá kéo Avg
loại dẫn
DDAD-5 (94.3,96.4) (100,99.3) (100,99.1) (100,98.2) (99.5,94.4) (100,98.7) (99.6,98.2) (99.1,93.8) (100,98.2) (99.7,98.0) (99.9,98.8) (97.4,98.9) (100,98.6) (99.8,94.0) (100,98.3) (99.3, 97.5)
DDAD-10 (99.3,98.7) (100,99.4) (100,99.4) (100,98.2) (100,95.3) (100,98.7) (99.4,98.1) (99.4,95.7) (100,98.3) (100,98.9) (100,99.1) (99.0,99.3) (100,98.7) (100,95.3) (100,98.2) (99.8,98.1)
DDAD-25 · (99.0,98.7) (100,99.3) (100,99.0) (100,98.3) (99.4,94.2) (100,98.7) (99.6,98.2) (99.6,95.4) (99.9,98.2) (99.5,98.7) (100,98.9) (99.1,99.3) (100,98.7) (100,95.0) (100,98.2) (99.7, 97.9)
DDAD-S-10 (98.2,98.6) (100,98.4) (100,99.2) (100,98.2) (99.9,95.1) (100,98.5) (99.8,98.3) (99.4,96.0) (99.8,98.4) (100,98.1) (99.5,99.1) (98.3,99.0) (100,98.7) (100,95.3) (99.9,97.5) (99.7,97.9)

Bảng 7. Hiệu suất bản địa hóa bất thường trên MVTec [4], dựa trên số liệu PRO.

Loại Thảm Lưới Da Ngói Gỗ Chai Cáp Capsule Hạt phỉ Đai ốc Viên Vít Bàn chải Bóng bán Khoá Avg
thuộc kim loại thuố dẫn kéo
c
THUỔNG [6] 94.7 86.7 97.2 75.9 87.4 95.5 90.9 93.7 95.4 94.4 94.6 96.0 93.5 87.4 92.6 91.7
PaDiM [7] 96.2 94.6 97.8 86.0 91.1 94.8 88.8 93.5 92.6 85.6 92.7 94.4 93.1 84.5 95.9 92.1
RD4AD [9] 97.0 97.6 99.1 90.6 90.9 96.6 91.0 95.8 95.5 92.3 96.4 98.2 94.5 78.0 95.4 93.9
Bản vá [36] 96.6 95.9 98.9 87.4 89.6 96.1 92.6 95.5 93.9 91.3 94.1 97.9 91.4 83.5 97.1 93.5
DDAD-5 86.8 96.4 97.2 93.1 82.1 91.8 90.2 92.5 87.5 88.1 94.3 94.7 91.8 87.3 93.9 91.2
DDAD-10 93.9 97.3 97.7 93.1 82.9 91.8 88.9 93.4 86.7 91.1 95.5 96.3 92.6 90.1 93.2 92.3
DDAD-25 · 94.2 97.0 97.9 84.1 77.5 92.3 87.4 91.0 86.0 91.6 94.9 95.9 92.9 90.4 92.4 91.0
DDAD-S-10 93.7 93.9 96.5 93.2 84.3 90.6 87.6 91.6 85.4 87.4 95.1 96.9 92.4 91.8 88.6 91.3

Ngoài ra, các tia trên hạt phỉ được tái tạo mô phỏng theo trước hoạt động kém trong so sánh tính năng khôn ngoan.
hình ảnh đầu vào, duy trì hình dạng ban đầu của chúng. Tuy nhiên, những kết quả này đã được cải thiện đáng kể
Hàng cuối cùng giới thiệu một ví dụ từ tập dữ liệu VisA sau khi điều chỉnh miền. Ảnh: AU-
[55]. Sau quá trình tái thiết, một số phần không bị hư hỏng
được đánh dấu bởi các hộp màu đỏ sẽ bị loại bỏ. Sự thiếu
thông tin này được khắc phục thông qua điều kiện của mô
hình trên hình ảnh đầu vào, cho phép mô hình tái tạo lại
các khu vực này một cách chính xác. Cơ học điều hòa
đóng một vai trò quan trọng trong việc ngăn chặn những
thay đổi này bị gắn cờ sai là các mẫu bất thường, đảm bảo
độ chính xác trong quá trình tái thiết.

8.2. Siêu tham số v


Trong hai bảng, 13 và 14, chúng tôi làm sáng tỏ ảnh
hưởng của siêu tham số v đối với sự hợp nhất của các so
sánh pixel-wise và tính năng khôn ngoan. Hầu hết các
danh mục chứng minh rằng những điều chỉnh nhỏ đối với
siêu tham số này không mang lại những thay đổi đáng kể.
Quan sát này cho thấy kỹ thuật kết hợp chứa một phổ dị
thường rộng và không nhạy cảm cao với siêu tham số v.
Tuy nhiên, chúng tôi đã tinh chỉnh siêu tham số này để áp
dụng kết quả.

9. Ablation trên VisA


Như đã trình bày trong Phần 5.3, phương pháp điều hòa
của chúng tôi nâng cao đáng kể hiệu suất của mô hình so
với các mô hình khuếch tán đơn giản. Cải tiến này trên
MVTec
[4] cũng được thể hiện rõ trong Hình 8, trong đó các chỉ số
AUROC, pixel AUROC và PRO của hình ảnh đã tăng
7.1%, 2.9% và 6.0%, tương ứng, sử dụng so sánh pixel-
wise. Trong khi so sánh pixel-wise một mình đạt được re-
đầy hứa hẹn
sults của 94.1%, hiệu suất tổng thể tăng lên 98.9%
sau khi kết hợp nó với so sánh tính năng khôn ngoan.
Chúng tôi ob-
phục vụ rằng một trình trích xuất tính năng được đào tạo
3
Các chỉ số ROC, pixel AUROC và PRO tăng 32.2%,
22.1% và 44.4%, tương ứng, khi chỉ sử dụng so sánh tính
năng khôn ngoan. Không có khả năng của tính năng được
đào tạo trước
Trình trích xuất để trích xuất các tính năng thông tin có
thể giải thích hiệu suất kém hơn của các mô hình dựa trên
biểu diễn so với DDAD, nơi xương sống không cung cấp
các tính năng tốt hơn. Hiệu suất chi tiết của so sánh tính
năng khôn ngoan và pixel-wise cho từng danh mục được
hiển thị trong bảng 15 và 16, tương ứng.

10. Tính năng Extractor


10.1. Xương sống khác nhau
Bảng 17 và 18 cung cấp một phân tích chi tiết về các kết
quả quan sát được bằng cách sử dụng các xương sống
khác nhau làm trình trích xuất tính năng. Không, trong
khi WideResNet101 mang lại kết quả tốt nhất cho cả
MVTec và VisA, WideResNet50 đã chứng minh kết quả
có thể so sánh được.

10.2. Chưng cất mất để không quên


Như được minh họa định lượng trong Bảng 19, việc thực
hiện điều chỉnh chính mà không kết hợp tổn thất chưng
cất dẫn đến việc máy chiết xuất tính năng xóa kiến thức
trước đó của nó. Điều quan trọng là phải giữ lại thông tin
được đào tạo trước trong quá trình chuyển đổi sang một
miền mới, vì khả năng của trình trích xuất tính năng để
phân biệt các tính năng bất thường bắt nguồn từ việc đào
tạo về dữ liệu mở rộng trên ImageNet. Chúng tôi minh
họa phe-nomenon này với các loại Thuốc và Vít trong
Hình 7. Hình vẽ cho thấy cách giới thiệu tổn thất chưng
cất ngăn chặn sự suy giảm AUROC qua các kỷ nguyên,
cho thấy rằng bộ trích xuất tính năng thích ứng với miền
mới trong khi vẫn bảo tồn kiến thức được đào tạo trước
của nó. Trong trường hợp không mất distilla- tion, trình
trích xuất tính năng bắt đầu mất tính tổng quát, một khía
cạnh quan trọng để trích xuất các tính năng bất thường.

4
Bảng 8. Hiệu suất bản địa hóa bất thường trên VisA [55], dựa trên chỉ số PRO.

Loại Nến Viên Hạt điều Kẹo cao su Cá bột Macaroni1 Macaroni2 PCB1 PCB2 PCB3 PCB4 Ống chiên Avg
THUỔNG [6] 93.2 36.1 57.4 93.9 91.3 61.3 63.4 38.4 42.2 80.3 71.6 61.7 65.9
PaDiM [7] 95.7 74.9 87.9 83.5 80.2 92.1 75.4 91.3 88.7 84.9 81.6 92.5 85.9
RD4AD [9] 92.2 56.9 79.0 92.5 81.0 71.9 68.0 43.2 46.4 80.3 72.2 68.3 70.9
Bản vá [36] 94.0 85.5 94.5 84.6 95.3 95.4 94.4 94.3 89.2 90.9 90.1 95.7 91.2
DDAD-10 96.6 95.0 80.3 85.2 94.2 98.5 99.3 93.3 93.3 86.6 95.5 94.7 92.7

Bảng 9. Cài đặt để sao chép kết quả trên MVTec [4].

Loại Thảm Lưới Da Ngói Gỗ Chai Cáp Capsule Hạt phỉ Đai ốc Viên Vít Bàn chải Bóng bán Khoá
thuộc kim loại thuốc dẫn kéo
w 0 4 11 4 11 3 3 8 5 7 9 2 0 0 10
Kỷ nguyên đào 2500 2000 2000 1000 2000 1000 3000 1500 2000 3000 1000 2000 2000 2000 1000
tạo
Kỷ nguyên FE 0 6 8 0 16 5 0 8 3 1 4 4 2 0 6

10.3. Mạnh mẽ với sự bất thường trên nềnO Các phương pháp thường được coi là thời gian không đổi,
(1), trên mỗi mẫu. Để tránh sự thay thế này, chúng tôi đã
Trong các kịch bản công nghiệp và sản xuất, một chal- giới thiệu một con-
lenge đáng kể thường liên quan đến việc xử lý các dị Cơ chế ditioning cho phép chúng ta bắt đầu từ các bước
thường, chẳng hạn như bụi hoặc thay đổi môi trường trong thời gian cao hơn. Điều này cho phép tái tạo compo-
nền trong quá trình pho-tography. Trong phần này, chúng
tôi nhấn mạnh tính mạnh mẽ của trình trích xuất tính năng
thích ứng với miền đối với những con chim nhạn giả mạo
như vậy. Như được mô tả trong Hình 9, một tính năng
extrac-tor được đào tạo trước xác định sai các yếu tố nền
bình thường, được biểu thị bằng các hộp màu xanh lam, là
dị thường. Tuy nhiên, sau khi thực hiện điều chỉnh chính,
trình trích xuất tính năng trở nên linh hoạt, không còn xác
định sai hoặc định vị sai các yếu tố này. Trong ba mẫu đầu
tiên, hiển thị PCB, không chỉ các lời nói dối bất thường bị
định vị sai, mà các hình ảnh cũng bị phân loại sai.

11. Phân tích so sánh các mô hình phát hiện


bất thường dựa trên khuếch tán hiện tại
Trong phần này, chúng tôi so sánh mô hình của chúng tôi
với các phương pháp tương tự sử dụng các mô hình
khuếch tán khử nhiễu để phát hiện bất thường. Chúng tôi
giới thiệu một khía cạnh độc đáo trong kiến trúc của chúng
tôi làm cho nó khác biệt với những người khác và thể hiện
hiệu suất vượt trội.
AnoDDPM [46] đã chứng minh rằng bắt đầu từ một
chuỗi Markovian có chiều dài đầy đủ là không bắt buộc.
Ngoài ra, họ đã chứng minh rằng tiếng ồn đơn giản đa quy
mô dẫn đến việc tái tạo tốt hơn.
Tuy nhiên, việc thay thế nhiễu Gaussian bằng nhiễu đơn
giản dẫn đến thời gian suy luận chậm hơn. Nói chung, thời
gian com-
Độ phức tạp của nhiễu đơn giản lấy mẫu, làO(n2), thường
cao hơn tiếng ồn Gaussian, là (1), do độ phức tạp vốn có
của nó. Trong khi thời gian phức tạp- O
Tiếng ồn đơn giản thường được thảo luận về các hoạt
động trên mỗi mẫu, thay đổi theo chi tiết và kích thước
thực hiện, tạo tiếng ồn Gaussian bằng cách sử dụng thông
thường
5
NENT nằm trong phân bố thấp trong khi vẫn giữ được
phần danh nghĩa của hình ảnh.
DiffusionAD [51], được phát triển đồng thời với công
việc này, sử dụng hai mạng con để khử nhiễu và phân
tách, lấy cảm hứng từ DRAEM [50], giới thiệu sự thành
công của các mô hình khuếch tán qua VAE trong phát
hiện bất thường. Trong khi một bước khử nhiễu duy nhất
đẩy nhanh quá trình, nó làm cho nó giống như VAE,
chuyển trực tiếp từ nhiễu sang sig-nal, với sự khác biệt là
trong trường hợp này, điểm bắt đầu là tỷ lệ nhiễu trên tín
hiệu. Ngoài ra, chúng dựa vào các dị thường tổng hợp
bên ngoài, có khả năng làm giảm độ bền đối với các dị
thường vô hình. Theo kết quả, DDAD hoạt động tốt hơn
1,1% trên chỉ số Image AUROC cho tập dữ liệu VisA. Kết
quả trên pixel AUROC không được công bố.
Khả năng phục hồi nhiễu loạn dựa trên điểm số [40]
hình thành vấn đề với quan điểm hình học. Ý tưởng này
dựa trên giả định rằng các mẫu sai lệch khỏi đa dạng của
dữ liệu bình thường, không thể được khôi phục giống như
các mẫu bình thường. Do đó, độ dốc của khả năng nhật
ký dẫn đến việc xác định sự bất thường. Khả năng phục
hồi nhiễu loạn dựa trên điểm số, không giống như
DiffusionAD và DRAEM, không dựa vào bất kỳ dữ liệu
bên ngoài nào, khiến chúng trở nên mạnh mẽ với một loạt
các dị thường. Tuy nhiên, cách tiếp cận này không vượt
trội hơn các mô hình dựa trên đại diện trong cả phân khúc
bất thường và bản địa hóa. Theo kết quả, DDAD outper-
hình thành 2,1% và 0,7% trên các chỉ số Image AUROC
và Pixel AUROC cho tập dữ liệu MVTec.
Lu et al. [29] tận dụng sự phân kỳ KL giữa phân bố
sau và phân phối ước tính làm điểm bất thường ở cấp độ
pixel. Ngoài ra, lỗi MSE để xây dựng lại tính năng đóng
vai trò là điểm cấp tính năng. Mô hình này dựa trên một
trình trích xuất tính năng được đào tạo trước, có thể
không được điều chỉnh cho phù hợp với miền của vấn đề.
Hơn nữa, kết quả không cạnh tranh với các mô hình dựa
trên đại diện. DDAD vượt trội hơn 1,4% so với chỉ số
Pixel AUROC cho tập dữ liệu MVTec. Kết quả trên
Image AUROC không được công bố.
Để tránh phụ thuộc vào các nguồn lực bên ngoài, chúng
tôi giới thiệu một

6
Bảng 10. Cài đặt để sao chép kết quả trên MVTec [4] cho mô hình nhỏ.

Loại Thảm Lưới Da thuộc Ngói Gỗ Chai Cáp Capsule Hạt phỉ Đai ốc Viên Vít Bàn chải Bóng bán Khoá
kim loại thuốc dẫn kéo
w 0 5 6 4 4 8 0 11 0 3 11 2 1 1 5
Kỷ nguyên đào 2000 2000 2000 2000 2000 2000 4000 3000 2000 2000 1000 2000 2000 4000 2000
tạo
Kỷ nguyên FE 0 4 4 0 11 1 0 4 2 3 6 - 2 7 4

Bảng 11. Cài đặt để sao chép kết quả trên VisA [55].

Loại Nến Viên Hạt điều Nhai kẹo cao Cá bột Macaroni1 Macaroni2 PCB1 PCB2 PCB3 PCB4 Ống chiên
su
w 6 5 0 6 4 5 2 9 5 6 6 8
Kỷ nguyên đào 1000 1000 1750 1250 1000 500 500 500 500 500 500 500
tạo
Kỷ nguyên FE 1 3 0 0 3 7 11 8 5 1 1 6

Kỹ thuật thích ứng miền để giải quyết vấn đề dịch chuyển ra, điều quan trọng cần lưu ý là phương pháp điều hòa của
miền. Ngoài ra, một cơ chế hướng dẫn được giới thiệu để chúng tôi nhằm mục đích bảo tồn cấu trúc tổng thể của hình
điều chỉnh quy trình khử nhiễu cho nhiệm vụ khử nhiễu ảnh được tái tạo tương tự như hình ảnh đầu vào. Tuy nhiên,
bất thường, bảo toàn phần danh nghĩa của hình ảnh. Đáng trong trường hợp có
chú ý, các bài báo nói trên không đạt điểm chuẩn trên cả
MVTec và VisA, cũng như không được đánh giá dựa trên
cả ba mét: Image AUROC, Pixel AUROC và PRO. Trong
bài báo này, chúng tôi chứng minh tính mạnh mẽ của mô
hình của chúng tôi thông qua phân tích toàn diện về cả
MVTec và VisA, đánh giá cả ba số liệu. Chúng tôi chỉ ra
rằng DDAD không chỉ vượt trội hơn các mô hình dựa trên
tái thiết mà còn cả các mô hình dựa trên đại diện.

12. Tầm quan trọng của việc kết hợp so sánh


pixel-wise và tính năng khôn ngoan
Trong Hình 10, chúng tôi trình bày sáu ví dụ từ MVTec
(ba hàng trên cùng) và sáu ví dụ từ VisA (ba hàng cuối),
trong đó so sánh pixel-wise hoặc tính năng khôn ngoan tỏ
ra không hiệu quả. Ở hàng cuối cùng, ví dụ PCB ban đầu
không thành công trong cả hai trường hợp. So sánh tính
năng khôn ngoan xác định hai vùng bất thường, trong khi
so sánh pixel-wise không xác định bất kỳ khu vực nào là
bất thường. Thật thú vị, sau khi kết hợp các phương pháp
tiếp cận, điểm số của khu vực trước khi bị xác định nhầm
là bất thường giảm. Khu vực này hiện được phân đoạn như
bình thường sau khi kết hợp.

13. Kết quả định tính bổ sung


13.1. Bản địa hóa sai
Mặc dù mô hình của chúng tôi đã đạt được AUROC cao
để phát hiện bất thường, nhưng nó phải đối mặt với những
thách thức trong việc định vị chính xác các vòng quay ex-
treme hoặc thay đổi hình. Ví dụ, như được mô tả trong
Hình 11, khi bắt đầu từ bước thời gian 250, mô hình đã
phải vật lộn để tái tạo lại những thay đổi đáng kể này.
Ngược lại, bắt đầu từ các bước thời gian lớn hơn làm cho
quá trình tái thiết trở nên khó khăn và chậm chạp. Ngoài
7
là những thay đổi mạnh mẽ như xoay vòng hoặc thay đổi
hình, cơ chế điều hòa có thể dẫn đến việc định vị sai.
13.2. Kết quả định tính trên MTD
Để giới thiệu tính linh hoạt của mô hình của chúng tôi ngoài
MVTec
[4] và bộ dữ liệu VisA [55], chúng tôi cũng đã đánh giá
hiệu suất DDAD trên một tập dữ liệu hoàn toàn khác gọi
là MTD [22]. Đánh giá này cho phép chúng tôi chứng
minh tiềm năng của mô hình của chúng tôi trên các bộ dữ
liệu đa dạng. Trong Hình 12, chúng tôi trình bày các kết
quả định tính minh họa hiệu suất của phương pháp
DDAD của chúng tôi trên tập dữ liệu MTD.

8
Bảng 12. Độ nhạy của tham số điều hòa w trên MVTec [4] chỉ khi so sánh trong khoảng cách pixel-wise. Định dạng (ImageAUROC,
PixelAUROC)

Loại Thảm Lưới Da thuộc Ngói Gỗ Chai Cáp Capsule Hạt phỉ Đai ốc kim Viên thuốc Vít Bàn chải Bóng bán Khoá kéo
loại dẫn
w=0 (66.7,82.6) (100,99.2) (99.9,98.9) (66.6,64.8) (93.6,81.9) (96.3,87.5) (61.2,89.0) (80.7,76.9) (95.0,95.5) (79.1,90.7) (69.5,80.9) (96.5,98.8) (99.7,97.6) (82.1,82.5) (99.2,96.3)
w=1 (69.5,83.6) (100,99.4) (99.9,99.1) (75.6,72.1) (94.4,83.5) (96.3,89.8) (63.3,87.9) (84.8,85.5) (96.5,96.8) (82.9,90.9) (76.5,89.6) (97.7,99.1) (100,97.8) (85.9,84.0) (99.7,97.1)
w=2 (73.4,84.9) (100,99.5) (100,99.2) (86.0,78.8) (96.7,84.8) (96.0,90.9) (69.4,86.5) (86.8,90.3) (97.1,97.2) (85.0,90.3) (85.0,94.1) (98.6,99.2) (99.7,97.9) (87.0,84.9) (99.8,97.7)
w=3 (77.0,85.5) (100,99.6) (100,99.2) (92.9,83.9) (96.8,85.8) (95.2,91.2) (73.5,85.1) (89.7,92.4) (97.2,97.4) (86.0,89.2) (90.2,95.7) (99.1,99.3) (99.2,97.9) (86.1,85.0) (99.9,98.0)
w=4 (79.3,86.2) (100,99.6) (100,99.3) (96.3,87.3) (96.8,86.7) (94.2,91.0) (74.4,83.8) (91.1,92.9) (97.6,97.5) (86.9,87.9) (92.6,96.6) (99.2,99.3) (98.9,97.8) (85.7,84.8) (99.9,98.2)
w=5 (79.4,86.7) (100,99.6) (100,99.3) (98.3,89.4) (97.1,87.4) (93.0,90.7) (75.4,82.8) (92.2,92.9) (97.6,97.6) (87.7,86.5) (94.1,97.1) (99.4,99.3) (97.8,97.7) (85.2,84.5) (99.9,98.4)
w=6 (79.9,87.1) (100,99.6) (100,99.4) (98.5,90.7) (97.3,88.0) (92.6,90.3) (77.0,81.9) (93.1,92.7) (97.7,97.6) (87.6,85.3) (94.3,97.5) (99.5,99.3) (96.7,97.6) (83.6,84.2) (100,98.5)

Hình 6. Một số kết quả định tính, cho thấy sự thiếu sót của các mô hình khuếch tán đơn giản để phát hiện bất thường chính xác hơn.

9
Bảng 13. Kết quả chi tiết về tham số v trên MVTec [4]. Định dạng cho AUROC là (Ảnh: AUROC, Pixel AUROC)

Loại Thảm Lưới Da thuộc Ngói Gỗ Chai Cáp Capsule Hạt phỉ Đai ốc kim Viên thuốc Vít Bàn chải Bóng bán Khoá kéo Avg
loại dẫn
v = 0.8 (99.4,98.8) (100,99.3) (100,99.4) (100,98.2) (99.7,95.0) (100,98.7) (99.3,98.1) (99.4,95.7) (100,98.1) (99.9,98.9) (100,99.1) (98.8,99.3) (100,98.6) (92.6,91.5) (100,98.3) (99.3,97.8)
v = 1.0 (99.3,98.7) (100,99.4) (100,99.4) (100,98.2) (100,95.0) (100,98.7) (99.4,98.1) (99.4,95.7) (100,98.3) (100,98.9) (100,99.1) (99.0,99.3) (100,98.7) (100,95.3) (100,98.2) (99.8,98.1)
v = 2.0 (98.4,98.4) (100,99.4) (100,99.4) (100,98.3) (100,94.6) (100,98.7) (98.8,98.0) (98.9,95.9) (99.9,98.7) (98.4,98.8) (100,98.8) (99.2,99.4) (100,98.8) (98.7,92.0) (100,97.6) (99.5, 97.8)

Bảng 14. Kết quả chi tiết về tham số v trên VisA [55]. Định dạng cho AUROC là (Ảnh: AUROC, Pixel AUROC)

Loại Nến Viên Hạt điều Kẹo cao su Cá bột Macaroni1 Macaroni2 PCB1 PCB2 PCB3 PCB4 Ống chiên
v = 5.0 (99.8,98.7) (100.0,99.4) (98.3,96.8) (98.3,96.8) (99.0,96.7) (99.3,98.8) (99.1,98.5) (99.9,94.1) (99.8,97.0) (98.4,95.8) (100.0,98.8) (99.9,99.5)
(AUROC)
v = 5.0 (PRO) 96.6 95.2 84.0 84.0 93.0 98.5 99.2 93.8 92.4 81.9 96.1 94.4
v = 6.0 (99.9,98.7) (100.0,99.5) (96.5,94.9) (98.1,96.8) (99.0,96.8) (99.2,98.7) (99.2,98.5) (99.8,93.0) (99.8,96.9) (97.5,96.4) (100.0,98.6) (99.9,99.5)
(AUROC)
v = 6.0 (PRO) 96.4 95.2 65.2 85.1 93.9 98.3 99.2 93.7 92.3 85.5 95.8 94.8
v=7.0 (CỰC (99.9,98.7) (100.0,99.5) (96.0,94.5) (98.1,96.5) (99.0,96.9) (99.2,98.7) (99.2,98.4) (100,93.4) (99.7,97.4) (97.5,96.3) (100.0,98.5) (100.0,99.5)
QUANG)
v = 7.0 (PRO) 96.1 95.0 64.2 85.1 94.2 98.5 99.2 93.3 93.3 85.7 95.5 94.7
v = 8.0 (99.9,98.7) (100.0,99.4) (95.4,94.1) (98.1,96.2) (98.9,97.0) (99.1,98.6) (99.2,98.4) (99.8,91.2) (99.7,97.3) (98.4,95.6) (100.0,98.4) (100.0,99.5)
(AUROC)
v = 8.0 (PRO) 96.5 94.9 63.4 85.0 93.4 98.4 99.3 93.3 93.5 81.5 95.3 94.2

Bảng 15. Tác động của điều hòa lên VisA [55] chỉ khi so sánh về khoảng cách pixel-wise. Chỉ số AUROC có định dạng (Ảnh: AUROC,
Pixel AUROC)

Loại Nến Viên Hạt điều Kẹo cao su Cá bột Macaroni1 Macaroni2 PCB1 PCB2 PCB3 PCB4 Ống chiên Avg
Điều hòa W/O - AURO (79.6,88.1) (80.5,99.4) (87.4,63.7) (92.5,70.6) (85.9,94.5) (73.8,92.7) (69.3,94.3) (90.8,88.7) (98.6,97.1) (99.7,97.1) (98.9,93.2) (86.5,77.4) (87.0, 88.1)
Điều hòa W / O - PRO 82.4 94.1 39.8 53.2 93.1 95.3 97.4 93.4 94.3 95.9 78.1 74.8 82.7
Điều hòa W - AUROC (91.9,95.9) (91.2,99.7) (87.4,63.7) (97.2,85.3) (94.9,95.4) (97.2,99.5) (80.4,98.2) (95.5,69.2) (98.8,95.4) (99.0,95.5) (98.9,96.1) (97.2,97.7) (94.1, 91.0)
Điều hòa W - PRO 94.3 97.7 39.8 77.1 93.6 99.7 99.4 88.4 92.5 94.5 90.3 97.2 88.7

Bảng 16. Tác động của việc thích ứng miền đối với VisA [55] chỉ khi được so sánh về khoảng cách tính năng. Chỉ số AUROC có định
dạng (ImageAUROC, PixelAUROC)

Loại Nến Viên Hạt điều Kẹo cao su Cá bột Macaroni1 Macaroni2 PCB1 PCB2 PCB3 PCB4 Ống chiên Avg
Điều hòa W/O - AURO (75.1,87.7) (54.5,86.8) (90.4,97.1) (96.5,95.6) (88.3,78.4) (61.5,69.9) (55.7,78.5) (55.1,71.2) (53.1,47.0) (59.2,37.7) (21.0,59.7) (50.4,29.5) (63.4,69.9)
Điều hòa W / O - PRO 65.3 45.5 83.4 72.9 55.1 22.1 39.2 4.0 4.2 0.4 8.4 13.0 34.5
Điều hòa W - AUROC (90.0,93.4) (90.4,97.6) (90.4,97.1) (96.5,95.6) (96.6,72.3) (85.8,98.1) (90.4,98.4) (88.1,97.8) (85.8,94.1) (78.4,91.8) (97.7,98.4) (76.0,69.5) (95.6,92.0)
Điều hòa W - PRO 79.6 82.1 83.4 72.9 60.9 95.4 95.5 86.7 80.7 63.1 86.7 59.8 78.9

Bảng 17. Hiệu suất của các trình trích xuất tính năng khác nhau trên MVTec [4], ở định dạng (Image AUROC, Pixel AUROC)

Loại Thảm Lưới Da thuộc Ngói Gỗ Chai Cáp Capsule Hạt phỉ Đai ốc kim Viên thuốc Vít Bàn chải Bóng bán Khoá kéo Avg
loại dẫn
ResNet-50 (96.7,98.4) (100,98.0) (99.9,97.0) (100,97.5) (85.4,89.2) (98.6,97.6) (93.4,97.3) (69.1,73.4) (78.8,92.6) (91.2,96.2) (57.8,82.6) (53.2,60.6) (75.6,95.8) (99.9,93.0) (95.2,88.4) (86.3,90.5)
ResNet-50 + DA (96.7,98.4) (100,98.8) (100,99.0) (100,97.5) (84.7,86.9) (99.4,98.0) (98.5,98.0) (98.8,94.0) (99.4,95.9) (99.4,97.4) (97.1,98.5) (94.1,98.7) (93.6,97.2) (100,93.8) (98.7,97.8) (97.4,96.7)
ResNet-50 + DA + pixel (97.6,98.3) (100,99.1) (100,99.3) (100,97.8) (94.3,91.0) (99.8,98.4) (99.4,98.0) (99.2,95.2) (100,97.9) (100,97.7) (99.4,99.2) (99.2,99.3) (100,98.2) (100,93.3) (99.9,98.0) (99.3,97.4)
WideResNet-50 (99.2,98.8) (100,98.2) (100,97.3) (100,97.5) (87.6,91.7) (98.9,97.8) (96.9,97.5) (71.1,71.4) (84.9,92.8) (89.5,95.6) (60.8,77.8) (58.6,53.5) (77.2,96.0) (99.9,94.2) (94.3,85.6) (88.0, 89.7)
WideResNet-50 + DA (99.2,98.8) (100,99.0) (100,99.3) (100,97.5) (95.5,93.2) (99.8,98.2) (98.5,98.0) (98.3,93.5) (98.6,95.6) (99.4,97.8) (93.6,97.8) (95.3,99.1) (93.3,97.8) (100,93.8) (99.8,96.6) (98.1,97.1)
WideResNet-50 + DA + (99.6,98.8) (100,99.3) (100,99.4) (100,97.8) (99.7,94.4) (100,98.5) (99.7,98.0) (98.7,95.1) (99.7,97.6) (99.9,98.0) (97.5,98.9) (98.2,99.4) (100,98.5) (100,94.8) (100,98.0) (99.5,91.2)
pixel

Bảng 18. Hiệu suất của các trình trích xuất tính năng khác nhau trên VisA [55], ở định dạng (Image AUROC, Pixel AUROC)

Loại Nến Viên Hạt điều Kẹo cao su Cá bột Macaroni1 Macaroni2 PCB1 PCB2 PCB3 PCB4 Ống chiên Avg
ResNet-50 (69.4,92.6) (63.8,91.9) (90.4,91.5) (94.9,94.0) (93.9,80.8) (76.3,75.7) (56.9,68.7) (46.9,68.4) (50.7,53.7) (60.6,45.8) (31.9,66.3) (47.4,28.6) (65.3,71.5)
ResNet-50 + DA (83.7,94.8) (92.0,98.8) (90.4,91.5) (94.9,94.0) (95.7,75.8) (87.5,93.8) (72.5,96.3) (84.4,95.7) (86.3,90.7) (79.8,77.5) (98.6,99.0) (76.0,67.0) (86.8,89.6)
ResNet-50 + DA + pixel (99.5,98.4) (99.9,99.4) (93.5,95.2) (97.7,94.5) (100,93.6) (97.4,94.9) (83.9,94.6) (100,92.7) (95.4,96.5) (97.7,97.1) (100,98.8) (99.1,99.4) (97.0, 96.3)
WideResNet-50 (70.8,92.4) (64.9,92.6) (91.9,93.0) (95.1,94.6) (88.4,77.8) (69.5,72.8) (57.8,65.2) (61.5,68.8) (56.1,45.8) (56.0,33.7) (26.6,65.2) (49.6,35.7) (65.7,69.8)
WideResNet-50 + DA (84.0,95.3) (89.2,98.9) (91.9,93.0) (95.1,94.6) (96.8,80.9) (93.3,97.9) (84.3,98.7) (86.7,97.8) (86.8,94.2) (82.5,88.4) (99.1,98.9) (80.5,73.6) (86.7,92.7 )
WideResNet-50 + DA + (99.7,98.2) (99.9,99.6) (97.0,94.2) (99.8,95.8) (100,93.2) (99.4,97.4) (87.6,90.1) (99.9,93.5) (98.0,95.2) (89.2,93.9) (100,98.7) (99.9,99.4) (97.5, 95.8)
pixel
WideResNet-101 (75.1,87.7) (54.5,86.8) (90.4,97.1) (96.5,95.6) (88.3,78.4) (61.5,69.9) (55.7,78.5) (55.1,71.2) (53.1,47.0) (59.2,37.7) (21.0,59.7) (50.4,29.5) (63.4,69.9)
WideResNet-101 + DA (91.9,95.9) (91.2,99.7) (87.4,63.7) (97.2,85.3) (94.9,95.4) (97.2,99.5) (80.4,98.2) (95.5,69.2) (98.8,95.4) (99.0,95.5) (98.9,96.1) (97.2,97.7) (94.1, 91.0)
WideResNet-101 + DA + (99.9,98.7) (100,99.5) (94.5,97.4) (98.1,96.5) (98.9,96.4) (99.2,98.7) (99.3, 98.4) (100,93.4) (99.7,97.4) (97.2,96.3) (100,98.5) (100,99.5) (98.9,97.6)
pixel

Bảng 19. Vai trò của λDL trong việc cải thiện kết quả trên MVTec [4]. Định dạng (ImageAUROC, PixelAUROC)

Loại Thảm Lưới Da thuộc Ngói Gỗ Chai Cáp Capsule Hạt phỉ kim loại Viên thuốc Vít Bàn chải Bóng bán dẫn Khoá kéo Avg
WO (99.3,98.7) (100,98.9) (100,97.9) (99.7,97.1) (92.1,94.8) (100,98.5) (99.4,98.1) (85.8,87.4) (96.6,97.4) (96.8,98.0) (75.1,90.3) (74.7,88.3) (100,98.6) (100,95.3) (99.7,95.1) (94.6,95.6)
λDL = 0 (99.3,98.7) (100,99.4) (100,99.1) (100,97.2) (96.7,89.1) (100,98.6) (99.4,98.1) (97.8,93.5) (99.4,98.8) (99.0,98.2) (99.5,98.1) (96.9,98.6) (100,98.7) (100,95.3) (99.9,95.6) (99.2,97.1)

1
0
λDL = 0.1 (99.3,98.7) (100,99.4) (100,99.4) (100,98.2) (100,95.3) (100,98.7) (99.4,98.1) (99.4,95.7) (100,98.3) (100,98.9) (100,99.1) (99.0,99.3) (100,98.7) (100,95.3) (100,98.2) (99.8,98.1)
λDL = 0.2 (99.3,98.7) (100,99.3) (100,99.4) (100,98.2) (100,95.4) (100,98.6) (99.4,98.3) (99.1,95.2) (100,98.3) (100,98.7) (99.7,99.0) (99.0,99.1) (100,98.7) (100,95.3) (100,98.2) (99.8, 98.0)

1
1
Hình 7. Vai trò của tổn thất chưng cất trong tinh chỉnh để tránh mất kiến thức được đào tạo trước.

Hình 8. Hiệu quả của các thành phần khác nhau trong mô hình của chúng tôi về phát hiện và phân đoạn bất thường. Trái: Hiệu quả của
điều hòa dựa trên so sánh hình ảnh theo pixel. Giữa: Tăng hiệu suất do điều chỉnh miền của trình trích xuất tính năng. Phải: Tác động của
việc hợp nhất so sánh hình ảnh theo tính năng và pixel-wise. Tất cả các kết quả được hiển thị trên tập dữ liệu VisA [55].

Input ImageReconstruction Mask 1 Mask 2 Hình ảnh đầu vào Tái thiết Mặt nạ 1 Mặt nạ 2

Hình 9. Một số kết quả định tính trong đó các mẫu nền được coi là bất thường khi sử dụng trình trích xuất tính năng được đào tạo trước.
Nó được hiển thị bởi Mặt nạ 1 trong Hình. Sau khi điều chỉnh miền, trình trích xuất tính năng trở nên mạnh mẽ với những thay đổi này.
Nó được hiển thị bởi Mặt nạ 2.

1
2
Feature-wise Input ImageReconstructioncomparison Feature-wise CombinationInput ImageReconstructioncomparison
Pixel-wise comparison Pixel-wise comparison
Combination

Hình 10. Các ví dụ bên trái mô tả các trường hợp trong đó so sánh pixel-wise không phát hiện và xác định chính xác các điểm bất
thường, trong khi so sánh tính năng khôn ngoan làm nổi bật thành công những điểm bất thường này. Ngược lại, các ví dụ bên phải chứng
minh các tình huống trong đó so sánh tính năng khôn ngoan bị thiếu, nhưng so sánh pixel-wise vượt trội trong việc phát hiện sự bất
thường.

Input ImageReconstruction GT Predicted MaskInput ImageReconstruction GT Predicted Mask

Hình 11. Các mẫu bóng bán dẫn từ MVTec [4] và các ví dụ về ống fryum từ [55]. Trong khi các hình ảnh được phân loại chính xác, có
một sự sai lệch rất lớn.

1
3
Hình ảnh Tái thiết GT Bản đồ Hình ảnh Tái thiết GT Bản đồ nhiệt
đầu vào nhiệt đầu vào

Hình 12. Tập dữ liệu MTD [22].

1
4

You might also like