本文来源公众号“算法进阶”,仅用于学术分享,侵权删,干货满满。
原文链接:Transformer+Diffusion? Transfusion!
近日,Meta 和 Waymo 发布了最新论文《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》,该论文将流行的 Transformer 模型与 Diffusion 模型相结合,用于多模态训练和预测。
与 Meta 之前的工作一样,Transfusion 模型基于 Llama 架构和早期融合,该架构同时采用文本标记序列和图像标记序列,并使用单个 Transformer 模型生成预测。但与之前的技术不同,Transfusion 模型对图像标记的处理方式不同:
-
图像标记序列由预先训练的变分自动编码器部分生成。
-
Transformer 对图像序列的注意力是双向的,而不是因果的。
带有预训练任务的 Transfusion 模型架构。
文本预训练是下一个单词预测任务。
图像预训练是去噪扩散任务。图片来源:
https://www.arxiv.org/pdf/2408.11