朝花夕拾:多模态图文预训练的前世今生

Diffusion Models专栏文章汇总:入门与实战

前言:时间来到2024年,多模态大模型炙手可热。在上一个时代的【多模态图文预训练】宛若时代的遗珠,本文的时间线从2019年到2022年,从BERT横空出世讲到ViT大杀四方,再到MLLM大放异彩,全面梳理一下多模态图文预训练的前世今生。

目录

图文预训练

什么是图文预训练?

图文预训练下游任务:VQA

图文预训练下游任务:NLVR

图文预训练下游任务:图文检索

小结

发展脉络

开山鼻祖:2018年Bert

大杀四方:2020年 ViT 

增光添彩:2021年 CLIP

暴力美学:Florence


图文预训练

什么是图文预训练?

图文预训练是一种多模态学习方法,它通过结合图像和文本数据进行训练,以学习跨模态的语义表示。这种方法能够使模型同时理解图像内容和相关联的文本信息,从而在多种下游任务中实现更好的性能。图文预训练模型通常包含两个主要部分:图像编码器(Image Encoder)和文本编码器ÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沉迷单车的追风少年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值