本文是LLM系列文章,针对《AnomalyGPT: Detecting Industrial Anomalies using
Large Vision
摘要
大型视觉语言模型(LVLMs),如MiniGPT-4和LLaVA,已经证明了理解图像的能力,并在各种视觉任务中取得了显著的性能。尽管由于大量的训练数据集,他们在识别常见对象方面有很强的能力,但他们缺乏特定的领域知识,对对象内的局部细节理解较弱,这阻碍了他们在工业异常检测(IAD)任务中的有效性。另一方面,大多数现有的IAD方法只提供异常分数,并且需要手动设置阈值来区分正常样本和异常样本,这限制了它们的实际实施。在本文中,我们探索了利用LVLM来解决IAD问题,并提出了一种新的基于LVLM的IAD方法AnomalyGPT。我们通过模拟异常图像并为每个图像生成相应的文本描述来生成训练数据。我们还使用图像解码器来提供细粒度语义,并设计一个提示学习器来使用提示嵌入来微调LVLM。我们的异常GPT消除了手动阈值调整的需要,从而直接评估异常的存在和位置。此外,AnomalyGPT支持多回合对话,并表现出令人印象深刻的小样本上下文学习能力。只需一个正常的样本,AnomalyGPT就可以实现86.1%的准确率、94.1%的图像级AUC和95.3%的像素级AUC的最先进性能。在MVTec AD数据集上。代码可在