【深度学习新浪潮】近三年零样本图像分类研发进展调研

在这里插入图片描述

近三年(2022-2025年),零样本图像分类任务在技术创新和应用拓展上取得了显著进展,核心突破主要体现在以下几个方面:

一、预训练模型与多模态对齐的深化

  1. CLIP家族的持续进化
    CLIP(Contrastive Language-Image Pretraining)作为零样本分类的基石,其后续模型通过架构优化和训练策略改进实现了性能跃升。例如,2025年发布的FG-CLIP(Fine Grained CLIP)采用显式双塔结构和双阶段训练策略:首阶段通过全局对比学习实现图文粗粒度对齐,次阶段引入区域对比学习与难细粒度负样本学习,显著提升了对局部特征的感知能力。在FG-OVD等评测中,FG-CLIP在开放词汇对象检测任务上的准确率较原始CLIP提升超过15%,尤其在处理“浅蓝色夹克”与“草绿色夹克”等细微语义差异时表现突出。

  2. 大语言模型(LLMs)与CLIP的深度融合
    2024年提出的LLM2CLIP方法将LLMs(如Llama-3.1-70B)作为教师模型,通过对比学习微调提升CLIP的文本辨别能力。该方法整合长文本描述(如“一只红翼黑鸟栖息在公园的树枝上”),使CLIP的视觉表征包含更丰富的语义信息,在ImageNet等数据集上的零样本分类准确率提升6.8%。此外,多模态大语言模型(如GPT-4)通过生成复杂文本提示(如结合颜色

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智能守恒_HengAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值