DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection

haodouxiansheng

已于 2025-01-11 07:20:57 修改

阅读量654

点赞数 7

文章标签： cnn 深度学习人工智能计算机视觉图像处理

于 2024-12-13 13:16:29 首次发布

本文链接：https://blog.youkuaiyun.com/haodouxiansheng/article/details/144437015

版权

论文地址

摘要

基于重建的方法在异常检测任务中取得了显著成果。近年来流行的扩散模型（Diffusion Models）凭借其卓越的图像重建能力，激发了利用这些模型来增强异常图像重建的研究。然而，这些方法在处理多类别异常检测时可能面临保持图像类别和像素级结构完整性的问题。为了解决这些问题，本文提出了一种用于多类别异常检测的基于扩散的框架——DiAD (Diffusion-based Anomaly Detection)。该框架包括以下核心组件：

创新点

结合扩散模型与语义引导网络：提出了一种新的组合方式，将扩散模型的去噪能力与语义引导网络结合，解决了LDM在重建过程中语义信息丢失的问题。
空间感知特征融合模块（SFF）：创新性地引入SFF模块，以集成不同尺度的特征，从而提高异常重建能力。这种方法能够同时处理小尺度纹理异常和大尺度结构异常。
多尺度特征提取与对比：利用预训练的特征提取器从不同尺度提取特征，通过对比输入和重建图像的差异来精确定位异常区域。
多类异常检测的高效解决方案：相较于传统方法，DiAD在处理多类异常检测时表现出更高的准确性和鲁棒性，尤其是在大规模和复杂场景下的应用。

模型

在这里插入图片描述

1. 像素空间自动编码器（Pixel-Space Autoencoder）

功能

提供初步的特征提取与重建。
将输入图像 $x_0$ 编码到潜在空间 $z$ ，并通过解码器将去噪后的潜在表示 $\hat{z}$ 重建回图像空间 $\hat{x}_0$ 。

具体流程

Encoder (E)：
- 输入图像 $x_0 \in \mathbb{R}^{3 \times H \times W}$ 。
- 输出潜在表示 $\in \mathbb{R}^{c \times h \times w}$ 。
- 编码过程公式：
  $z = E(x_0)$
Decoder (D)：
- 输入去噪后的潜在表示 $\hat{z}$ 。
- 输出重建图像 $\hat{x}_0$ 。
- 解码过程公式：
  $\hat{x}_0 = D(\hat{z})$