字节开源Tar 统一多模态大模型速览:Tar-7B/1.5B

一、研究背景与问题动机

近年来,视觉理解(如视觉问答)与视觉生成(如文本到图像)通常被拆分为两条独立的研究路线,各自采用不同的模型架构、损失函数与训练范式。这种割裂带来了三大痛点:

  1. 参数冗余:两套模型各自维护大量权重,难以共享知识。

  2. 接口复杂:跨模态任务需额外桥接模块(如视觉投影层),增加系统复杂度。

  3. 训练低效:不同目标函数导致梯度冲突,收敛慢。

本文提出“视觉即方言”的观点,认为视觉信号可以像一门新语言那样,直接融入大语言模型的统一离散空间,从而把理解与生成整合到单一的自回归框架内。


二、总体框架:Tar 统一多模态大模型

Tar 由以下三个核心组件构成:

  1. TA-Tok(Text-Aligned Tokenizer):将图像编码为与 LLM 词表对齐的离散 token。

  2. 自回归 LLM:沿用现有大语言模型(如 Qwen2),仅通过扩充词表即可同时处理文本 token 与视觉 token。

  3. 视觉 De-Tokenizer:把离散视觉 token 还原为高保真图像,提供两种可选实现——自回归模型与扩散模型。


三、TA-Tok:文本对齐的视觉分词器

3.1 设计思想

传统 VQVAE 等离散 tokenizer 使用独立学习到的码本,导致视觉 token 与文本 token 语义空间不一致。TA-Tok 直接把预训练 LLM 的词嵌入矩阵当作码本,使得视觉 token 天然携带文本语义。

3.2 结构细节

  1. 以 SigLIP2 为视觉编码器,提取连续特征 z。

  2. 在 SigLIP2 顶部附加矢量量化(VQ)层,将 z 映射到最近的 LLM token 嵌入 e_k。

  3. 由于 LLM 词表有限,采用“投影-扩展”策略:先用线性投影将高维视觉特征压缩到词嵌入维度,再允许码本在训练中轻微扩展,兼顾粒度与计算开销。


四、可扩展的视觉解码器(De-Tokenizer)

TA-Tok 本身不能直接从 token 还原像素图像,因此 Tar 引入两种互补的 de-tokenizer:

类型技术路线优点适用场景
自回归解码器基于离散 token 的自回归 Transformer与 LLM 训练目标一致、推理延迟低快速草稿或低分辨率输出
扩散解码器在潜空间内执行扩散过程高保真、细节丰富最终高分辨率输出

五、训练策略:统一预训练任务

为增强视觉-文本融合,Tar 在标准下一个 token 预测之外引入三项辅助任务:

  1. 掩码图像建模(MIM):随机遮盖部分视觉 token,让模型自回归恢复。

  2. 文本-图像匹配(ITM):判断给定文本是否与图像 token 描述一致。

  3. 图像-文本重排:给定打乱顺序的图像 token,要求恢复正确空间布局。

这些任务均以 token 级交叉熵损失实现,无需额外网络分支。


六、实验结果

6.1 视觉理解

在 POPE、MME-P、MME-C 等基准上,Tar-1.5B 与 Tar-7B 均优于同量级模型,且仅用 1.5B 参数就逼近 7B 模型的精度。

6.2 视觉生成

GenEval 整体得分:

  • Tar-1.5B 达到 0.78

  • Tar-7B 达到 0.85

  • 加入 Self-Reflection 机制后进一步提升至 0.84/0.87。

6.3 训练效率

由于视觉 token 与文本 token 共享嵌入空间,模型收敛步数减少约 30%,显存占用降低 20%。


七、结论

Tar 通过文本对齐的离散视觉表示,首次在 1.5B~7B 参数量级上实现视觉理解与生成统一建模。其模块化设计(TA-Tok + 双路 De-Tokenizer)为未来多模态 LLM 提供了可插拔、易扩展的新范式。


八、核心技术汇总表

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Open-source-AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值