精读：PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization

最新推荐文章于 2025-04-17 11:20:51 发布

读读好的

最新推荐文章于 2025-04-17 11:20:51 发布

阅读量1.8k

点赞数 27

文章标签：计算机视觉视觉检测深度学习论文阅读

本文链接：https://blog.youkuaiyun.com/m0_64029579/article/details/139729601

版权

1 引子

本文介绍了PaDiM（Patch Distribution Modeling）框架，这是一种在单类学习环境中同时进行异常检测和定位的新方法。PaDiM利用预训练的卷积神经网络（CNN）进行图像块嵌入，并通过多元高斯分布获取正常类的概率表示。该方法还利用了CNN的不同语义层次之间的相关性，以更好地定位异常。PaDiM在MVTec AD和STC数据集上的表现超过了当前最先进的方法，并且具有较低的复杂度，适合工业应用。

图1 展示了MVTec AD数据集的图像样本。

· 左列：正常图像。

· 中列：带有地面真值的异常图像。

· 右列：PaDiM模型生成的异常热图，黄色区域表示检测到的异常，蓝色区域表示正常区域。

2 无监督方法

2.1 基于重建的方法

基于重建的方法通常使用自动编码器（AE）、变分自动编码器（VAE）或生成对抗网络（GAN）等神经网络架构，仅训练正常类图像。因此，异常图像由于无法良好地重建而被识别为异常。常用的方法包括使用重建误差作为异常分数，虽然基于重构的方法非常直观且可解释，但由于AE有时也会对异常图像产生良好的重构结果，因此其性能受到限制。

2.2 基于嵌入相似度的方法

这类方法利用深度神经网络提取有意义的特征向量，这些向量用于检测整个图像的异常。异常分数通常是测试图像嵌入向量与正常参考向量之间的距离。这些方法在检测精度上表现良好，但通常缺乏对异常区域的可解释性。推理复杂度与数据集的规模成线性关系。这可能会阻碍该方法的工业应用。

2.3 作者的方法PaDiM

PaDiM生成用于异常定位的patch嵌入，与现有方法类似。然而，PaDiM通过一组高斯分布来描述正常类，并对预训练CNN模型的语义层次之间的相关性进行建模。受到之前研究的启发，选择了ResNet、Wide-ResNet和EfficientNet作为预训练网络。这些网络能够提取丰富的图像特征，帮助提高异常检测和定位的精度。这种建模方法，PaDiM 的性能优于目前最先进的方法。此外，他的时间复杂度很低，而且与预测阶段的训练数据集大小无关。