【深度学习新浪潮】近三年零样本图像分类研发进展调研

智能守恒_HengAI

于 2025-08-04 21:39:06 发布

阅读量172

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度学习新浪潮文章标签：深度学习人工智能零样本学习大模型扩散模型图像分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/agito_cheung/article/details/149915117

深度学习新浪潮专栏收录该内容

130 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

在这里插入图片描述

近三年（2022-2025年），零样本图像分类任务在技术创新和应用拓展上取得了显著进展，核心突破主要体现在以下几个方面：

一、预训练模型与多模态对齐的深化

CLIP家族的持续进化
CLIP（Contrastive Language-Image Pretraining）作为零样本分类的基石，其后续模型通过架构优化和训练策略改进实现了性能跃升。例如，2025年发布的FG-CLIP（Fine Grained CLIP）采用显式双塔结构和双阶段训练策略：首阶段通过全局对比学习实现图文粗粒度对齐，次阶段引入区域对比学习与难细粒度负样本学习，显著提升了对局部特征的感知能力。在FG-OVD等评测中，FG-CLIP在开放词汇对象检测任务上的准确率较原始CLIP提升超过15%，尤其在处理“浅蓝色夹克”与“草绿色夹克”等细微语义差异时表现突出。
大语言模型（LLMs）与CLIP的深度融合
2024年提出的LLM2CLIP方法将LLMs（如Llama-3.1-70B）作为教师模型，通过对比学习微调提升CLIP的文本辨别能力。该方法整合长文本描述（如“一只红翼黑鸟栖息在公园的树枝上”），使CLIP的视觉表征包含更丰富的语义信息，在ImageNet等数据集上的零样本分类准确率提升6.8%。此外，多模态大语言模型（如GPT-4）通过生成复杂文本提示（如结合颜色

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

智能守恒_HengAI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。