【多模态学习:第0期】多模态学习路线规划和经典论文阅读计划

最近在学习多模态的算法和工程优化,以下是个人的一些总结,对多模态大模型有兴趣的朋友欢迎讨论交流~

1 多模态学习路线规划

2 经典论文阅读计划

模型

论文链接

发布时间

一句话描述贡献

Transformer(Attention Is All You Need)

arXiv:1706.03762

2017-06

提出 Transformer 架构,完全基于自注意力机制,无需 RNN/CNN,奠定后续所有 LLM 与多模态大模型的通用底座。

ViT

arXiv:2010.11929

2020-10

首次证明“纯 Transformer 直接作用于 16×16 图像块序列”即可在大规模预训练后取得 SOTA 分类效果,无需卷积。

CLIP

arXiv:2103.00020

2021-02

利用 4 亿图文对训练双塔 Transformer,实现“零样本”图像分类与图文检索,把视觉概念映射到文本语义空间。

Flamingo

arXiv:2204.14198

2022-04

在冻结的 LLM 前插入交叉注意力池化层,仅用少量图文交错数据就能让模型输出开放式文本描述,奠定“冻结 LLM + 视觉连接器”范式。

BLIP-2

arXiv:2301.12597

2023-01

提出轻量 Q-Former 把 ViT 特征压缩成 32 个查询 token,零样本指令下也能让冻结的 LLM 生成准确字幕并回答视觉问题。

LLaVA

arXiv:2304.08485

2023-04

图片切块经 ViT 线性投影后与文本 prompt 拼接,端到端微调 LLM,首次展示 GPT-4 级多模态对话能力且代码开源。

GPT-4V

无论文(技术报告)

2023-09

OpenAI 公布的 GPT-4 视觉接口,用同一套 Transformer 同时接受图像+文本输入并生成文本,首次把大规模多模态能力产品化。

Gemini

arXiv:2312.11805

2023-12

Google 发布的多模态 Gemini 系列,用原生 Transformer 端到端训练文本、图像、音频、视频统一 tokenizer,在多项基准上超越 GPT-4V。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值