视觉Token无缝对齐LLMs词表！V²Flow：基于LLMs实现高保真自回归图像生成

QbitAl

于 2025-04-03 10:13:24 发布

阅读量4

点赞数

文章标签：回归数据挖掘人工智能机器学习算法

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247786314&idx=4&sn=9ee9947619cf82d6a5f9ff7f04e0713d&chksm=e97c59a5c6541dedcf7833d93ff92bc4aab724e8a3f21215d3445fdbbedea93919816f0d697a&scene=126&sessionid=0

版权

V²Flow团队发自凹非寺
量子位 | 公众号 QbitAI

视觉Token可以与LLMs词表无缝对齐了！

V²Flow，基于LLMs可以实现高保真自回归图像生成。

^{随着ChatGPT掀起自回归建模革命后，近年来研究者们开始探索自回归建模在视觉生成任务的应用，将视觉和文本数据统一在“next-token prediction”框架下。}

实现自回归图像生成的关键是设计向量化(Vector-Quantization)的视觉Tokenizer，将视觉内容离散化成类似于大语言模型词表的离散Token。

现有方法虽取得进展，却始终面临两大桎梏：

1、传统视觉tokenizer生成的离散表征与LLM词表存在显著的分布偏差。

2、维度诅咒：图像的二维结构迫使大语言模型以逐行方式预测视觉token，与一维文本的连贯语义预测存在本质冲突。

结构性与特征分布性的双重割裂，暴露了当前自回归视觉生成的重大缺陷：缺乏能够既保证高保真图像重建，又能与预训练LLMs词汇表在结构上和特征分布上统一的视觉tokenizer。解决这一问题对于实现有效的多模态自回归建模和增强的指令遵循能力至关重要。

因此，一个核心问题是：

能否设计一种视觉tokenizer，使生成的离散视觉token在保证高质量视觉重建的同时，与预训练LLMs词汇表实现无缝融合？

统一视觉Token与大语言模型词表

最新开源的V²Flow tokenizer，首次实现了将视觉内容直接嵌入现有大语言模型的词汇空间，在保证高质量视觉重建的同时从根本上解决模态对齐问题。总体而言，V²Flow主要包括三点核心贡献：

视觉词汇重采样器。

如图1(a) ，将图像压缩成紧凑的一维离散token序列，每个token被表示为大语言模型（例如Qwen、LLaMA系列）词汇空间上的软类别分布。这一设计使得视觉tokens可以无缝地嵌入现有LLM的词汇序列中。换言之，图像信息被直接翻译成LLM“听得懂”的语言，实现了视觉与语言模态的对齐。

在图1(b)中，经由重采样器处理后，视觉tokens的潜在分布与大型语言模型（LLM）的词汇表高度一致。这种在结构和潜在分布上的高度兼容性，能够降低视觉tokens直接融入已有LLM的复杂性。

△ 图 1 视觉词汇重采样器的核心设计。

掩码自回归流匹配编码器。

为了实现离散化视觉token的高保真视觉重建，V²Flow提出了掩码自回归流匹配解码器。该解码器采用掩码Transformer编码-解码结构，为视觉tokens补充丰富的上下文信息。增强后的视觉tokens用于条件化一个专门设计的速度场模型，从标准正态先验分布中重建出连续的视觉特征。在流匹配采样阶段，该解码器采用类似MA的方式，以“next-set prediction”的方式逐步完成视觉重建。

相比于近期提出的仅依赖掩码编码器-解码器结构的TiTok，V2Flow自回归采样的优势是能够在更少的视觉token数量下实现更高的重建质量，有效提高了压缩效率。