以 CLIP 为代表的视觉语言模型(VLM)在大规模图文数据上进行了预训练,具备强大的通用视觉识别能力。然而,在细粒度识别任务上,VLM 往往难以区分相近类别之间的细微差异,识别能力显著下降。
以 CLIP ViT-B/16 为例,在仅包含 10 个粗粒度类别的 CIFAR10 数据集上,其识别准确率可达到 90%;但在包含 200 个细粒度鸟类类别的 CUB 数据集上,准确率却只有约 50%。
为了提升 VLM 的细粒度识别能力,现有方法通常采用如下方式:i)引入可训练模块(Adapter/Prompt Tuning),并利用少量标注样本进行微调;ii)或是依赖参考样本构建类别原型缓存,通过检索原型信息辅助 VLM 进行识别。
虽然这些方法能够带来一定的性能提升,但对标注数据或参考样本的依赖在一定程度上削弱了 VLM 的通用性。
针对这一问题,在 AAAI 2026 的论文中,来自四川大学、南洋理工大学的研究团队受到人类认知模式的启发,提出了 SCAN(System-2 enhanced visual recognition),一种无需训练、不依赖标注数据或是参考样本、在推理时即插即用的 VLM 增强方法。

论文标题:
Endowing Vision-Language Models with System 2 Thinking for Fine-Grained Visual Recognition
论文链接:
https://pengxi.me/wp-content/uploads/2025/11/SCAN.pdf
代码链接:
https://github.com/XLearning-SCU/2026-AAAI-SCAN
一、研究背景 赋予 VLM 精细思考的能力
试想一下,如果需要从 200 种鸟类中判断一张图像所属的具体类别,人类会怎么做?
对于这类复杂的识别任务,人类通常难以直接做出精确判断,而是会经历一个从“粗步筛查”到“仔细辨别”的分析过程。
从认知科学的角度来看,这一分析过程依赖两个互补的认知系统,即快速决策的“系统 1” 和精细思考的“系统 2”。

💡 系统 1(快思考):一种直觉驱动的思维模式,依赖经验进行快速决策,响应迅速但容易受偏差影响。例如,在看到上图中的鸟后,大脑会立即形成“这是一只黑色的鸟”的初步判断,并迅速排除外观明显不符的类别,将候选范围限定在“黑色鸟类”相关的若干类别中。
本文实验发现,VLM 具备类似系统 1 的快速决策能力。
如下图所示,尽管 VLM 在细粒度识别任务上的 Top-1 准确率不高,和人类一样难以直接做出精确判断,但其 Top-20 候选集中往往极大概率包含正确类别,即 VLM 能够通过快速决策稳定地筛选出合理的候选类别集合。

🧠 系统 2(慢思考):一种分析驱动的思维模式,依赖精细思考处理复杂任务,决策更精确但耗时较长。
为了进一步确定具体类别,人类通常会查阅相关知识,获取候选类别的区分性特征,如羽毛纹路、头部颜色等,与图像中观察到的特征进行对比分析,并基于特征匹配程度推理出最终结果。
既然 VLM 天然具备类似系统 1 的快速决策能力,那能否通过增加一个具备精细分析能力的系统 2,模拟人类双系统协作的认知方式,来提升 VLM 的细粒度感知能力?
受此启发,论文提出了 SCAN(System-2 enhanCed visuAl recogNition),一个即插即用的测试时增强模块,在无需训练的前提下增强 VLM 的细粒度识别能力。
二、方法
SCAN 的核心思想是在不改变原有 VLM 的前提下,引入一个具备“系统 2” 慢思考能力的模块进行细致分析,从而提升 VLM 的细粒度识别能力。整体流程如下图所示。

(1)系统 1:基于 VLM 进行候选筛选
利用 VLM 在预训练阶段获得的通用识别能力,从所有类别中,排除与识别目标存在显著外观差异的类别,为后续推理提供合理的候选集合。
(2)系统 2:基于关键区分属性进行推理
为了进一步确定具体类别,人类通常会查阅相关知识,获取候选类别的区分性特征,并与图像中观察到的特征进行对比分析。
受此启发,论文中提出的系统 2 主要包含以下三个步骤。
推理关键区分属性:利用大语言模型(LLM)中内蕴的专业知识,自动生成一组能够区分候选类别的关键属性,如翅膀花纹,鸟喙形状等。
获取文本描述:类别名中蕴含的信息有限,利用 LLM 可以获得每个类别在特定属性下的外观描述,从而显式地表明细粒度类别之间的外观差异。此外,通过可视化 VLM 的注意力分布,发现在多模态信息处理的过程中,模型容易受到背景中无关纹理的干扰。
因此,对于待识别的图像,同样利用 LMM 基于特定属性进行描述,仅保留与类别区分相关的细节信息,过滤掉背景等无关因素。最终,如下图所示,获得了基于同一组区分属性的类别描述和图像描述。
文本空间下的分析推理:使用文本重排序模型将图像描述与候选集合中的类别描述进行比较推理,获得相似度分数。

(3)基于不确定度的系统 1&2 协同识别
通过系统 1 和系统 2 分别获得了快速决策和精细推理的相似度分数,核心问题在于如何确定二者的融合权重。
由于 VLM 对不同目标的识别能力存在差异,采用固定权重难以取得普遍最优的识别结果,更为理想的方式是能够根据 VLM 的预测结果进行动态调整。
现有方法基于证据理论,将模型为每个类别输出的 logit 视为“证据”,在预测类别的同时显式给出模型对预测结果的不确定度。但如下图(a)所示,在细粒度任务上,这种建模方式的区分能力有限。
在细粒度场景下,本文观察到:当不存在大量干扰类别时,VLM 往往能自信地给出预测,此时 Top-1 类别的相似度显著高于其余候选,即 Top1 与其他类别之间的相似度差值较大。
反之,当存在大量外观相近的干扰类别时,相似类别之间的相似度分数较为接近,Top1 与其他类别之间的相似度差值较小。
因此研究团队提出以 Top-1 与其余候选之间的相似度差值作为“证据”,设计了一种新的不确定度建模方法。如下图(c)所示,这种不确定度建模方式,在细粒度识别任务中,能够更清晰地区分预测正确与预测错误的情况。

三、实验
在 Flowers-102、CUB-200、Food-101 等八个细粒度数据集上,SCAN 能够在无需标注数据、无需参考样本、无需额外训练的前提下,显著地提升 VLM 的细粒度识别能力。
- 将 CLIP RN50 作为基座模型,引入 SCAN 能使平均识别准确率提升 15.70%(56.22%→71.92%)。
- 将 CLIP ViT-B/16 作为基座模型,引入 SCAN 能使平均识别准确率提升 10.53%(63.74%→74.27%)。

对于在更大规模数据上训练的 SigLIP 上,引入 SCAN 仍然能使平均识别准确率提升 3.35%,表明了 SCAN 作为一种即插即用方法的通用能力。

此外,对于在海量的生物数据上进行了针对性训练的 BioCLIP,它在 CUB 等生物数据集上识别能力远超 CLIP,SigLIP,达到了 78.48%。
在引入 SCAN 后,识别准确率仍能能提升至 79.13%(+0.65%),表明即使是经过精细训练的面向垂直领域的 VLM,仍然能通过 SCAN 提升推理时的识别能力。
进一步地,本文还与当前主流的多模态大模型进行对比。从下表中结果可以看出,即便是经过大量细粒度数据进行训练的 Qwen2.5-VL 仍劣于本文方法(SCAN)。
换言之,除了通过不断增大模型规模和训练数据量及多样性以期持续提升性能,在推理阶段中直接增强基础模型的能力亦不失为一种可行的方案。

四、总结
针对 VLM 在细粒度识别任务上的能力瓶颈,研究团队受到人类“系统 1 & 系统 2” 认知模式的启发,将 VLM 类比为快速决策的系统 1,通过引入一个具备精细思考能力的系统 2 来提升 VLM 的细粒度识别能力。
总体而言,SCAN 无需额外训练,也不依赖标注数据和参考样本,在推理阶段即插即用,即可为多类 VLM 带来性能提升。
相关实验结果不仅证明了 SCAN 的有效性和通用性,也表明在细粒度识别等具有挑战性的视觉任务中,除了通过扩大数据量和参数量构建更强大的预训练模型之外,同样有必要探索如何提升现有模型在推理时的能力。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
1124

被折叠的 条评论
为什么被折叠?



