Attention Modules Improve Image-Level Anomaly Detection for Industrial Inspection（翻译）

原创

已于 2024-08-23 11:45:52 修改 · 1k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #目标检测 #深度学习

于 2024-08-23 11:45:14 首次发布

摘要

在（半）自动化的视觉工业检测中，基于学习的方法评估视觉缺陷，包括深度神经网络，使得在高分辨率图像上的小至像素大小的缺陷模式得以处理。这些通常很少出现的缺陷模式的出现解释了对标记数据集的普遍需求。为了缓解这一问题并推进无监督视觉检测的最新技术，这项工作提出了一个基于DifferNet的解决方案，增强了注意力模块：AttentDifferNet。它在三个工业检测的视觉异常检测数据集上提高了图像级检测和分类能力：InsPLAD-fault、MVTec AD和半导体晶圆。与现有技术相比，AttentDifferNet取得了改进的结果，这些结果在我们的定性和定量研究中得到了强调。我们的定量评估显示，与DifferNet相比，在所有三个数据集的整体AUROC上平均提高了1.77 ± 0.25个百分点，在InsPLAD-fault上达到了最先进的结果，这是一个工业检测野外数据集。由于我们的AttentDifferNet变体在当前研究方法的背景下显示出巨大的前景，因此制定一个基线，强调了注意力在野外和受控环境中工业异常检测的重要性。

1. 引言

视觉缺陷检测的自动化可以降低多个行业的检测成本和安全风险。然而，像制造业[4,26,43]、医疗保健[14,28]、安全[1]、视频监控[8,25]和电力输送[11,37]这样的行业，由于缺陷样本的稀有性和它们对金融和社会的高影响，常常因为缺乏训练深度学习方法的缺陷样本而苦恼。这些因素严重阻碍了完全监督的机器学习方法的使用，同时增加了无监督/半监督异常检测方法的流行度[20]。异常检测方法通常依赖于模型训练期间的正常/无瑕样本。它们从这些样本中提取独特的信息，例如数据分布，以便在测试时，它们能够区分无瑕和异常样本。最近的MVTec AD[2]数据集为异常检测促进了这个主题的新研究，如基于归一化流的异常检测方法，这是一类用于密度估计的机器学习模型。这种方法因为可以使用更简单的分布（例如，正态分布）来模拟复杂的概率分布而变得流行。
尽管大多数最近的异常检测方法使用MVTec AD作为他们的主要数据集[8, 13, 25-27, 35, 43]，它只呈现了针对制造业的有限挑战。组件是在恒定的背景、照明、对象尺度、视角和图像分辨率的受控环境下捕获的。最近，一些新数据集解决了这个问题，例如AeBAD数据集[46]，它提供了同一数据类别内不同领域的多样性，以及MVTec LOCO-AD[3]，它评估了异常检测中的逻辑约束。对于野外工业检测的异常检测，例如电力线路检测，由于缺乏公共数据集和相关的计算机视觉挑战，这是一个开放性问题，这些挑战包括视角、尺度、方向、照明、背景和分辨率的变化，以及由于多个相机角度导致的杂乱和投影变形。
注意力模块可以通过改善空间和/或通道编码来增强人工神经网络的表示能力。换句话说，它们突出显示前景对象中的相关信息，同时隐藏背景和其他不太相关的图像区域和对象。注意力模块可以很容易地集成到大多数基于卷积神经网络（CNN）的方法中，提高特征提取质量，同时不牺牲计算性能。
本研究探讨了注意力模块在DifferNet上的应用，这是一种基于归一化流的现代异常检测方法。本研究的主要发现如下：

新的基于注意力的DifferNet，即AttentDifferNet，在所有来自三个不同工业检测领域的异常检测数据集的对象上均优于标准DifferNet；
AttentDifferNet在InsPLAD-fault数据集上达到了最先进的性能，该数据集用于野外图像级工业异常检测；
AttentDifferNet在质量上优于DifferNet；
将流行的注意力模块与基于现代特征嵌入的无监督异常检测进行了直接结合。

2 相关工作

传统上，经典的（半）自动化视觉检测方法包括以下内容[17, 29]：基于投影的主成分分析（PCA）、线性判别分析（LDA）或独立成分分析（ICA）的方法、基于滤波器的方法（如离散余弦变换（DCT）、傅里叶变换（FT）和小波变换等频谱估计和变换方法），以及混合方法[9, 32, 36, 44]。随着计算能力的提升和大量标注数据集的可用性，包括支持向量机（SVM）和人工神经网络（ANN）如多层感知机（MLP）在内的基于学习的方法，在过去几十年中已经取代了传统方法，成为主流[9, 16, 21, 41]。如今，深度神经网络（DNN）如卷积神经网络（CNN）[6,22,23,29]和视觉变换器（ViT）在检测和分类能力方面被认为是人类性能的先锋。
当前的研究将注意力机制应用于经典的图像级异常检测方法，包括基于卷积神经网络（CNN）[31, 33, 34]和生成对抗网络（GAN）[11]的方法。然而，由于公开了用于异常检测的数据集，如MVTec AD和Magnetic Tiles Defects（MTD）[18]，因此提出了一类新的异常检测方法。这些现代方法是基于MVTec AD和MTD构建的基准测试中的当前最先进方法。目前，一种流行的方法是提出从图像和像素级别提取的特征嵌入中受益的方法。两种最新的技术是通过归一化流进行分布映射[13, 26, 27, 43]和特征记忆库[7, 8, 25]。
归一化流通常用于密度估计。这种方法已经变得流行，因

最低0.47元/天解锁文章