Transformer?扩散?融合!

最近,Meta和Waymo发布了他们的最新论文——Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,它将流行的transformer模型与扩散模型集成在一起,用于多模态训练和预测。类似于光年AI利用多平台整合和灵活工作流来优化企业流量的做法,Transfusion模型也是一种创新的智能工具。

与Meta的之前的工作类似,Transfusion模型基于Llama架构并采用早期融合方法,这种方法同时处理文本令牌序列和图像令牌序列,并使用单一的transformer模型生成预测。然而,与之前的艺术不同,Transfusion模型在处理图像令牌时有所不同:

  • 图像令牌序列是由预训练的变分自编码器(Variational Auto-Encoder)部分生成的。
  • transformer对于图像序列的注意力是双向的,而非因果关系的。

Transfusion模型架构及其预训练任务。文本预训练任务是下一个词的预测任务。对于图像预训练任务是去噪扩散任务。图片来源:https://www.arxiv.org/pdf/2408.11039

让我们详细讨论以下内容。我们首先会回顾一些基础知识,比如自回归模型和扩散模型,然后深入探讨Transfusion架构。

自回归模型

目前,大型语言模型(LLMs)主要基于transformer架构,这种架构最初在2017年的 Attention is All You Need 论文中被提出。transformer架构包含两部分:编码器和解码器。

transformer架构。左侧——编码器;右侧——解码器。图片来源:https

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值