【论文阅读】CLIP:Learning Transferable Visual Models From Natural Language Supervision

andyc_03

于 2024-04-26 16:58:49 发布

阅读量402

点赞数 3

CC 4.0 BY-SA版权

文章标签：论文阅读 OpenAI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/andyc_03/article/details/138203043

根据题目，我们发现有两个关键字，一个是自然语言，另一个是可迁移性
目的就是想通过建立与语义之间的联系学一个泛化性很好的视觉模型！

总体方法

对比学习联合训练一个图像特征提取器和一个文本特征提取器
零样本预测：给定图像，通过图像特征提取和通过模板和类别构成的文本特征进行coisine 相似度比对

在这里插入图片描述

效果

在ImageNet上零样本预测精度很高，且迁移效果很好，有很强的语义性，证明了其与我们的语义世界产生了很强的联系
在这里插入图片描述
还引发了很多有趣的工作，例如StyleCLIP，CLIPDraw，Object Dection via knowledge
(open - vocabulary)

相关工作

NLP 中的 Text-to-Text 的模型使得我们不需要去专门设计输出头去完成相应的下游任务
而在CV领域这样的工作却很少见，更多的还是在有监督的数据集上进行固定类别的分类训练，有个别工作尝试去做无监督的zero-shot但是由于缺少大规模的数据集等原因，导致了其效果极差，没能够引起大家的热情。
而本篇论文就是去close this gap，将数据集推到足够大，来展现这种方法的惊人效果。

数据集构建

工作在自然语言上的方法可以被动地从互联网上海量文本中蕴含的监督中学习，数据更容易收集。
目前有MS-COCO，Visual Genome都是高质量的人群标注数据集，但是规模太小。
YF

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄8年

342
原创

238
点赞

258
收藏

156
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 深度学习入门(6) - 3DV 三维视觉

下一篇：: 深度学习入门(7) - Video Understanding

最新评论

【论文阅读】CLIP:Learning Transferable Visual Models From Natural Language Supervision
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】EgoPCA: A New Framework for Egocentric Hand-Object Interaction
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
机器学习小结
优快云-Ada助手: Python入门技能树或许可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
树链剖分
xyzcoolplayer: 不够详细，应该讲一下代码（代码看不懂）
【01trie】【启发式合并】P6072 『MdOI R1』Path
qq_54179200: 可以讲一下bel数组的用处嘛，没看懂，还有v是存什么的

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。