字节开源Tar 统一多模态大模型速览：Tar-7B/1.5B

最新推荐文章于 2025-07-31 21:20:36 发布

原创最新推荐文章于 2025-07-31 21:20:36 发布 · 1.4k 阅读

·

38

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #人工智能 #语言模型 #开源 #多模态

前沿专栏收录该内容

361 篇文章

订阅专栏

一、研究背景与问题动机

近年来，视觉理解（如视觉问答）与视觉生成（如文本到图像）通常被拆分为两条独立的研究路线，各自采用不同的模型架构、损失函数与训练范式。这种割裂带来了三大痛点：

参数冗余：两套模型各自维护大量权重，难以共享知识。
接口复杂：跨模态任务需额外桥接模块（如视觉投影层），增加系统复杂度。
训练低效：不同目标函数导致梯度冲突，收敛慢。

本文提出“视觉即方言”的观点，认为视觉信号可以像一门新语言那样，直接融入大语言模型的统一离散空间，从而把理解与生成整合到单一的自回归框架内。

二、总体框架：Tar 统一多模态大模型

Tar 由以下三个核心组件构成：

TA-Tok（Text-Aligned Tokenizer）：将图像编码为与 LLM 词表对齐的离散 token。
自回归 LLM：沿用现有大语言模型（如 Qwen2），仅通过扩充词表即可同时处理文本 token 与视觉 token。
视觉 De-Tokenizer：把离散视觉 token 还原为高保真图像，提供两种可选实现——自回归模型与扩散模型。

三、TA-Tok：文本对齐的视觉分词器

3.1 设计思想

传统 VQVAE 等离散 tokenizer 使用独立学习到的码本，导致视觉 token 与文本 token 语义空间不一致。TA-Tok 直接把预训练 LLM 的词嵌入矩阵当作码本，使得视觉 token 天然携带文本语义。

3.2 结构细节

以 SigLIP2 为视觉编码器，提取连续特征 z。
在 SigLIP2 顶部附加矢量量化（VQ）层，将 z 映射到最近的 LLM token 嵌入 e_k。
由于 LLM 词表有限，采用“投影-扩展”策略：先用线性投影将高维视觉特征压缩到词嵌入维度，再允许码本在训练中轻微扩展，兼顾粒度与计算开销。

四、可扩展的视觉解码器（De-Tokenizer）

TA-Tok 本身不能直接从 token 还原像素图像，因此 Tar 引入两种互补的 de-tokenizer：

类型	技术路线	优点	适用场景
自回归解码器	基于离散 token 的自回归 Transformer	与 LLM 训练目标一致、推理延迟低	快速草稿或低分辨率输出
扩散解码器	在潜空间内执行扩散过程	高保真、细节丰富	最终高分辨率输出

五、训练策略：统一预训练任务

为增强视觉-文本融合，Tar 在标准下一个 token 预测之外引入三项辅助任务：

掩码图像建模（MIM）：随机遮盖部分视觉 token，让模型自回归恢复。
文本-图像匹配（ITM）：判断给定文本是否与图像 token 描述一致。
图像-文本重排：给定打乱顺序的图像 token，要求恢复正确空间布局。

这些任务均以 token 级交叉熵损失实现，无需额外网络分支。

六、实验结果

6.1 视觉理解

在 POPE、MME-P、MME-C 等基准上，Tar-1.5B 与 Tar-7B 均优于同量级模型，且仅用 1.5B 参数就逼近 7B 模型的精度。

6.2 视觉生成

GenEval 整体得分：

Tar-1.5B 达到 0.78
Tar-7B 达到 0.85
加入 Self-Reflection 机制后进一步提升至 0.84/0.87。

6.3 训练效率

由于视觉 token 与文本 token 共享嵌入空间，模型收敛步数减少约 30%，显存占用降低 20%。

七、结论

Tar 通过文本对齐的离散视觉表示，首次在 1.5B~7B 参数量级上实现视觉理解与生成统一建模。其模块化设计（TA-Tok + 双路 De-Tokenizer）为未来多模态 LLM 提供了可插拔、易扩展的新范式。

八、核心技术汇总表

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Open-source-AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。