AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/132674455

AnomalyGPT是一种新型的工业异常检测方法，利用大型视觉语言模型（LVLMs）进行检测。它解决了LVLM在特定领域知识和局部细节理解上的不足，以及传统IAD方法需要手动设定阈值的问题。AnomalyGPT通过生成异常图像和描述进行训练，使用图像解码器和提示学习器进行微调，实现了自动评估异常存在和位置的功能，无需手动阈值调整。在小样本学习和多回合对话中表现出色，且在MVTec AD数据集上达到最先进的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《AnomalyGPT: Detecting Industrial Anomalies using
Large Vision

摘要

大型视觉语言模型（LVLMs），如MiniGPT-4和LLaVA，已经证明了理解图像的能力，并在各种视觉任务中取得了显著的性能。尽管由于大量的训练数据集，他们在识别常见对象方面有很强的能力，但他们缺乏特定的领域知识，对对象内的局部细节理解较弱，这阻碍了他们在工业异常检测（IAD）任务中的有效性。另一方面，大多数现有的IAD方法只提供异常分数，并且需要手动设置阈值来区分正常样本和异常样本，这限制了它们的实际实施。在本文中，我们探索了利用LVLM来解决IAD问题，并提出了一种新的基于LVLM的IAD方法AnomalyGPT。我们通过模拟异常图像并为每个图像生成相应的文本描述来生成训练数据。我们还使用图像解码器来提供细粒度语义，并设计一个提示学习器来使用提示嵌入来微调LVLM。我们的异常GPT消除了手动阈值调整的需要，从而直接评估异常的存在和位置。此外，AnomalyGPT支持多回合对话，并表现出令人印象深刻的小样本上下文学习能力。只需一个正常的样本，AnomalyGPT就可以实现86.1%的准确率、94.1%的图像级AUC和95.3%的像素级AUC的最先进性能。在MVTec AD数据集上。代码可在https://github.com/CASIA-IVA-Lab/AnalomalyGPT。