朝花夕拾：多模态图文预训练的前世今生

沉迷单车的追风少年

已于 2024-10-10 10:35:48 修改

阅读量881

点赞数 16

分类专栏：深度学习-计算机视觉 Diffusion Models与深度学习文章标签：人工智能多模态预训练

于 2024-10-10 08:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41895747/article/details/142316792

版权

Diffusion Models与深度学习同时被 2 个专栏收录

296 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

深度学习-计算机视觉

82 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Diffusion Models专栏文章汇总：入门与实战

前言：时间来到2024年，多模态大模型炙手可热。在上一个时代的【多模态图文预训练】宛若时代的遗珠，本文的时间线从2019年到2022年，从BERT横空出世讲到ViT大杀四方，再到MLLM大放异彩，全面梳理一下多模态图文预训练的前世今生。

目录

图文预训练

什么是图文预训练？

图文预训练下游任务：VQA

图文预训练下游任务：NLVR

图文预训练下游任务：图文检索

开山鼻祖：2018年Bert

大杀四方：2020年 ViT

增光添彩：2021年 CLIP

暴力美学：Florence

图文预训练

什么是图文预训练？

图文预训练是一种多模态学习方法，它通过结合图像和文本数据进行训练，以学习跨模态的语义表示。这种方法能够使模型同时理解图像内容和相关联的文本信息，从而在多种下游任务中实现更好的性能。图文预训练模型通常包含两个主要部分：图像编码器（Image Encoder）和文本编码器ÿ

了解本专栏

超级会员免费看

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

沉迷单车的追风少年 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。