多模态大模型 | CLIP论文总结 | 2021.02.26 OpenAI | 打通图像-文本

???/cy

已于 2024-12-20 11:38:35 修改

阅读量1.3k

点赞数 21

分类专栏：大模型论文系列文章标签：人工智能 CLIP AI 大模型

于 2024-01-09 16:34:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_45842681/article/details/135379694

版权

本文介绍了大模型系列中的多模态技术，如GroundingDINO和CLIP，以及它们在端到端目标检测和生成模型领域的应用。着重讨论了预训练方法中的对比学习和提示工程，以及如何通过零-shot迁移实现模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

🐧大模型系列篇章

💖 多模态大模型 🔎 GroundingDINO 论文总结
 💖 端到端目标检测 🔎 从DETR 到 GroundingDINO
💖 多模态大模型 👉 CLIP论文总结
 💖 多模态大模型 👉 EVA-CLIP
💚 生成模型 👉 从 VAE 到 Diffusion Model （上）
💚 生成模型 👉 从 VAE 到 Diffusion Model （下）
💧 天气大模型

欢迎订阅专栏，第一时间掌握最新科技
专栏链接

文章目录

NLP的积淀
Method
Experiments

在这里插入图片描述

论文链接：https://arxiv.org/pdf/2103.00020

NLP的积淀

取之不尽用之不竭的自监督信号 = transformer + 自监督学习
训练出来的模型又大又好，而且又简单，泛化性又好，为多模态的训练铺平了道路。

只需要图片文本对，不需要标注，数据的规模就很容易大起来了。

现在的监督信号是一个文本，而不是n选1的这种标签了，所以模型的输入输出啊，自由度就大很多。

用文本监督信号，来帮助训

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。