算法进阶 | Transformer+Diffusion? Transfusion!

本文来源公众号“算法进阶”,仅用于学术分享,侵权删,干货满满。

原文链接:Transformer+Diffusion? Transfusion!

近日,Meta 和 Waymo 发布了最新论文《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》,该论文将流行的 Transformer 模型与 Diffusion 模型相结合,用于多模态训练和预测。

与 Meta 之前的工作一样,Transfusion 模型基于 Llama 架构和早期融合,该架构同时采用文本标记序列和图像标记序列,并使用单个 Transformer 模型生成预测。但与之前的技术不同,Transfusion 模型对图像标记的处理方式不同:

  • 图像标记序列由预先训练的变分自动编码器部分生成。

  • Transformer 对图像序列的注意力是双向的,而不是因果的。

带有预训练任务的 Transfusion 模型架构。

文本预训练是下一个单词预测任务。

图像预训练是去噪扩散任务。图片来源:

https://www.arxiv.org/pdf/2408.11

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值