统一 transformer 与 diffusion ！Meta 融合新方法剑指下一代多模态王者

最新推荐文章于 2025-08-18 15:25:44 发布

原创

最新推荐文章于 2025-08-18 15:25:44 发布 · 897 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能

本文引入了 Transfusion，这是一种可以在离散和连续数据上训练多模态模型的方法。

来源丨机器之心

一般来说，多模态生成模型需要能够感知、处理和生成离散元素（如文本或代码）和连续元素（如图像、音频和视频数据）。

在离散模态领域，以预测下一个词为目标的语言模型占据主导地位，而在生成连续模态方面，扩散模型及其泛化形式则是当前最先进技术。

研究者一直试图将语言模型与扩散模型结合，一种方法是直接扩展语言模型，使其能够利用扩散模型作为一个工具，或者将一个预训练的扩散模型嫁接到语言模型上。另一种替代方案是对连续模态进行量化处理，然后在离散的 token 上训练一个标准的语言模型，这种方法虽然简化了模型架构，但也会造成信息的丢失。

在这项工作中，来自 Meta 、 Waymo 等机构的研究者展示了通过训练单个模型来预测离散文本 token 和扩散连续图像，从而实现两种模态的完全集成，且不会丢失任何信息。

具体而言，本文引入了一个训练模型的新方法 Transfusion，能够无缝地生成离散和连续的模态。Transfusion 将语言模型损失函数与扩散相结合，在混合模态序列上训练单个 transformer。

该研究还在文本和图像数据混合基础上从头开始预训练多个 Transfusion 模型，最多可达到 7B 参数量，并针对各种单模态和跨模态基准建立扩展定律

论文地址：https://arxiv.org/pdf/2408.11039

论文标题：Transfusion: Predict the Next Token and Diffuse Im

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。