摘要
基于重建的方法在异常检测任务中取得了显著成果。近年来流行的扩散模型(Diffusion Models)凭借其卓越的图像重建能力,激发了利用这些模型来增强异常图像重建的研究。然而,这些方法在处理多类别异常检测时可能面临保持图像类别和像素级结构完整性的问题。为了解决这些问题,本文提出了一种用于多类别异常检测的基于扩散的框架——DiAD (Diffusion-based Anomaly Detection)。该框架包括以下核心组件:
创新点
-
结合扩散模型与语义引导网络:提出了一种新的组合方式,将扩散模型的去噪能力与语义引导网络结合,解决了LDM在重建过程中语义信息丢失的问题。
-
空间感知特征融合模块(SFF):创新性地引入SFF模块,以集成不同尺度的特征,从而提高异常重建能力。这种方法能够同时处理小尺度纹理异常和大尺度结构异常。
-
多尺度特征提取与对比:利用预训练的特征提取器从不同尺度提取特征,通过对比输入和重建图像的差异来精确定位异常区域。
-
多类异常检测的高效解决方案:相较于传统方法,DiAD在处理多类异常检测时表现出更高的准确性和鲁棒性,尤其是在大规模和复杂场景下的应用。
模型
1. 像素空间自动编码器(Pixel-Space Autoencoder)
功能
- 提供初步的特征提取与重建。
- 将输入图像 x 0 x_0 x0 编码到潜在空间 z z z,并通过解码器将去噪后的潜在表示 z ^ \hat{z} z^重建回图像空间 x ^ 0 \hat{x}_0 x^0。
具体流程
- Encoder (E):
- 输入图像 x 0 ∈ R 3 × H × W x_0 \in \mathbb{R}^{3 \times H \times W} x0∈R3×H×W。
- 输出潜在表示 z ∈ R c × h × w z \in \mathbb{R}^{c \times h \times w} z∈Rc×h×w。
- 编码过程公式:
z = E ( x 0 ) z = E(x_0) z=E(x0)
- Decoder (D):
- 输入去噪后的潜在表示 z ^ \hat{z} z^。
- 输出重建图像 x ^ 0 \hat{x}_0 x^0。
- 解码过程公式:
x ^ 0 = D ( z ^ ) \hat{x}_0 = D(\hat{z}) x^0=D(z^)
2. 语义引导网络(Semantic-Guided Network, SG)
功能
- 提高异常区域重建能力,同时保持输入图像的语义信息。
- SG网络与稳定扩散(Stable Diffusion, SD)去噪网络协同工作。
具体流程
- 输入噪声扰动的潜在表示 z T z_T zT 和原始图像 x 0 x_0 x0。
- 使用 SG 网络的编码器和解码器分别处理 x 0 x_0 x0 和 z T z_T zT<