【WIP】T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT-优快云博客

Paper: https://arxiv.org/abs/2505.00703
Code: https://github.com/CaraJ7/T2I-R1

1. Introduction

1.1 CoT Reasoning 在多个领域的应用

先进的**大语言模型（Large Language Models, LLMs）**的出现，如 OpenAI 的 o1 和 DeepSeek-R1，已经在包括数学和编程等多个领域展现出了显著的推理能力。通过强化学习（Reinforcement Learning, RL），这些模型能够在给出答案前，采用详尽的思维链（Chain-of-Thought, CoT）逐步分析问题，从而显著提升输出的准确性。

这种 CoT 推理策略也已被扩展到视觉领域。近年来，**大型多模态模型（Large Multi-modal Models, LMMs）**逐渐将该范式适配于视觉理解任务。这些先进的 LMMs 能够联合处理图像及其相关文本查询，对视觉细节进行逐步分析，并结合推理过程，得出最终答案。

下图展示了 CoT 在 Image Understanding 领域的应用：

与此同时，类 CoT 推理也开始在视觉生成任务中得到初步探索。开创性的研究《Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step》（这篇工作使用的模型是 Show-o，其图像的生成部分是 Diffusion 架构）将图像 token 的逐步生成视为一种类似于文本 token 的 CoT，并提出对这一中间过程进行优化，以提升图像质量。

下图展示了《Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step》中提及的三种 Reward Model：

本文对自回归文生图过程进行拆解，识别出两种可以用于提升图像生成效果的不同层次的 CoT 推理，如下图所示：

语义级 CoT（Semantic-level CoT） 指的是在图像生成前，对待生成图像所进行的文本层面的推理。语义级 CoT 负责设计图像的整体结构，例如每个物体的外观和位置。
- 在生成需要推理的提示词时，语义级 CoT 还能帮助推导出应生成的物体。
- 优化语义级 CoT 有助于在生成图像 token 之前，显式地对提示词进行规划和推理，从而简化后续的图像生成过程。
Token 级 CoT（Token-level CoT） 是指图像生成过程中逐块（patch-by-patch）进行的中间生成步骤。它可被视为一种 CoT 形式，因为每一个后续 token 的生成都是在离散空间中基于所有先前 token 的条件完成的，这与文本的 CoT 推理方式类似。
- 与语义级 CoT 不同，Token 级 CoT 更关注低层次细节，例如像素的生成和相邻 patch 之间的视觉连贯性。
- 优化 Token 级 CoT 可以同时提升图像生成质量和提示词与生成图像之间的对齐度。

1.2 统一多模态模型（Unified Large Multi-modal Models, ULMs）的现状

如何在文本生成图像任务中有效增强并协调这两种 CoT 推理呢？

目前主流的生成模型，例如 LLaMaGen、VAR、LDM、Flux 等，通常仅在生成目标上进行训练，缺乏实现语义级 CoT 推理所需的显式文本理解能力。

比较简单的解决方案是，再额外引入一个专门用于理解提示词的独立模型（例如大语言模型，LLM），但这种方法会显著增加计算成本、系统复杂性和部署难度。

近年来，大一统思想在业界非常流行，业界开始倾向于在一个模型中同时融合视觉理解与生成能力。在此基础上，**统一多模态模型（Unified Large Multi-modal Models, ULMs）**应运而生。这类模型不仅能够理解视觉输入，也能根据文本提示生成图像。

然而目前的 ULM 对于理解和生成的支持更像是仅从结构上有所支持，两种能力目前仍然是解耦的，通常在两个独立阶段分别进行预训练，尚无明确证据表明其理解能力能够直接促进生成质量。

鉴于前文所述，本文从一个 ULM 出发，对其进行增强，使其在文本生成图像任务中能够在统一框架下融合语义级 CoT 与 Token 级 CoT，从而实现更高效、更协调的图像生成过程。

1.3 BiCoT-GRPO 框架

为实现上述目标，本文提出了 BiCoT-GRPO，一种用于统一多模态模型（ULM）的强化学习（RL）方法，能够联合优化语义级和 Token 级两个层次的 CoT 推理能力。

本文选择强化学习而非监督微调（SFT），主要有两个原因：

当前的 ULM 已具备语义级和 Token 级 CoT 所需的基础能力，本文的目标是通过引导模型的自我探索来激发并融合这两种能力；
强化学习方法在提升推理能力方面表现出极高的效果，而推理能力正是实现这两个 CoT 层次的核心。

具体而言，本文首先引导 ULM 根据提示词进行 " 想象 " 与 " 规划 "，以生成语义级 CoT；随后将其作为条件输入，驱动模型进行 Token 级图像生成。本文对每个提示同时生成多张图像（Group G），并计算组内相对奖励（group-relative reward），以在同一训练迭代中优化两个层次的 CoT。

与图像理解任务中拥有明确奖励准则不同，图像生成缺乏统一的标准化评价体系。因此，本文提出使用多个不同的视觉专家模型组成的奖励模型集群来评估生成图像。这一奖励设计有两个关键作用：

从多个维度评估图像质量，确保评估结果的可靠性；
同时起到正则化作用，防止模型通过 " 投机取巧 " 优化单一奖励模型。

通过这一推理增强策略，本文构建了 T2I-R1，这是首个将语义级与 Token 级 CoT 融合的推理增强型文本生成图像模型。实验证明，本文的方法在 T2I-CompBench 和 WISE 基准上分别超越基线模型 13% 和 19%，并进一步超过了此前的最先进模型 FLUX。定性分析显示，该方法能帮助模型更好地理解提示词背后的真实意图，生成更符合人类预期的结果，同时在处理罕见场景时展现出更强的鲁棒性。

2. Method

2.1 GRPO 概述

DeepSeek 于 DeepSeekMath 中提出了 GRPO，其在传统的 PPO 基础上进行了改进，通过去除 value function并以**组相对（group-relative）方式估算优势（advantage）**来提升性能。

2.1.1 PPO

**近端策略优化（Proximal Policy Optimization, PPO）通过最大化以下代理目标函数（surrogate objective）**来优化 LLM：

$\begin{equation}\tag{1} \mathcal{J}_{P P O}(\theta)=\mathbb{E}\left[q \sim P(Q), o \sim \pi_{\theta_{o l d}}(O \mid q)\right] \frac{1}{|o|} \sum_{t=1}^{|o|} \min \left[\frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}\left(o_t \mid q, o_{<t}\right)} A_t, \operatorname{clip}\left(\frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}\left(o_t \mid q, o_{<t}\right)}, 1-\varepsilon, 1+\varepsilon\right) A_t\right] \end{equation}$

其中， $\pi_{\theta}和$ $\pi_{\theta_{o l d}}$ 是当前和旧的 policy model， $q, o$ 则是从 question dataset 和旧 policy model $\pi_{\theta_{old}}$ 中采样的 questions 和 outputs， $\epsilon$ 则是一个 clipping 相关的超参，用于稳定训练， $A_t$ 是 advantage，其基于 rewards $\{r_{\geq t}\}$ 以及一个学习得到的 value function $V_\psi$ 通过应用 Generalized Advantage Estimation（GAE）来计算。因此，在 PPO 中，需要与 policy model 同时训练一个 value function。

为了缓解对奖励模型的过度优化，标准做法是在每个 token 的奖励中引入来自参考模型的逐 token 的 KL 惩罚项：

$\begin{equation}\tag{2} r_t=r_{\varphi}\left(q, o_{\leq t}\right)-\beta \log \frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{r e f}\left(o_t \mid q, o_{<t}\right)}, \end{equation}$

其中， $r_{\varphi}$ 是 reward model， $\pi_{r e f}$ 是 reference model，通常就是初始的 SFT model， $\beta$ 是 KL penalty 的系数。

2.1.2 GRPO

在 PPO 中，value function 通常是一个与 policy model 规模相当的独立模型，因此会带来显著的内存和计算开销。此外，在强化学习训练过程中，价值函数被作为计算优势（advantage）时的基线，用于减少方差。

然而，在大语言模型（LLM）的训练场景中，reward model 通常只对最后一个 token 分配奖励分数，这使得训练一个**在每个 token 上都准确的 value function 变得更加复杂。

奖励模型（reward model）在大语言模型（LLM）训练中只对最后一个 token 分配奖励分数，主要是出于以下几个原因：

奖励通常是对整个输出的整体评价
在很多使用强化学习（如 RLHF, Reinforcement Learning from Human Feedback）的 LLM 训练中，我们的目标是优化整个回答（whole response）的质量。例如：

生成一句回答 " 你好，世界 " 后，人类标注者只对这整句话进行打分，比如 8 分或 2 分；
奖励模型也学习模仿这种整体评判方式，对整段生成的结果给出一个总分。
→ 所以奖励是针对「整段话」而不是每个词或 token 单独给出的。

奖励只能在生成完成后才能评估
很多时候，我们只有等模型输出完整的句子或段落后，才能判断它是否有用、有害、礼貌、有逻辑等。例如：

生成了一半的句子，我们可能还不知道它想说什么；
有时候直到最后一个 token 才透露了整句的意图或立场（比如 "……所以我不同意你的观点 "）。
→ 因此，奖励自然只能在最后一个 token 才 " 出现 "。

训练方式简化了建模难度
让奖励模型对每个 token 给出一个分数会让训练变得更复杂，因为：

人类标注者很难逐 token 打分；
学习每个 token 的价值函数需要更复杂的机制（比如 credit assignment，时序归因）；
当前主流 RLHF 方法（如 PPO）主要是基于 " 整个句子→一个 reward" 这种结构实现的。

在大语言模型（LLM）的训练中，通常使用的奖励模型（reward model）只会在生成整段文本后，对 " 最后一个 token"（即整段话的最后一个词）给出一个整体的评分。这意味着：

模型生成了完整的一段文字后，才知道这段话好不好；
但我们想训练一个 " 价值函数 "（value function），它能够在每一步生成时就知道当前这个 token 好不好；
然而，只在最后一个 token 上有奖励，导致我们缺乏每一步的 " 中间反馈 "，这就让训练一个对每个 token 都准确的价值函数变得更难。
简单类比：你写一篇作文，只在最后才知道 " 好 " 或 " 差 "，却不知道中间哪些句子写得好、哪些不好，那你就很难知道该怎么逐步改进。

为了解决上述问题，DeepSeek 提出了Group Relative Policy Optimization（GRPO）。与 PPO 不同，GRPO 不再依赖额外的 value function estimation，而是使用针对同一个问题采样出的多个输出的平均奖励作为基线。

具体而言，对于每一个问题 $q$ ，GRPO 从旧策略 $\pi_{\theta_{\text{old}}}$ 中采样一组输出 $\{o_1, o_2, \cdots, o_G\}$ ，然后通过最大化以下目标函数来优化策略模型：

$KaTeX parse error: Undefined control sequence: \label at position 25: …quation}\tag{3}\̲l̲a̲b̲e̲l̲{eq3} \begin{al…$

$\hat{A}_{i, t}$ 是基于每个组内的输出生成的相对奖励而计算得到的 advantage。

GRPO 所采用的组相对方式来计算 advantage，与 reward model 的比较性本质高度契合，因为 reward model 通常是在同一问题下对不同输出进行比较的数据集上训练得到的。

此外，需要注意的是，与在奖励中添加 KL 惩罚项不同，GRPO 通过将训练中的策略与参考策略之间的 KL 散度直接添加到损失函数中来进行正则化，从而避免了对优势估计 $\hat{A}_{i,t}$ 的计算造成额外复杂性。

另外，GRPO 对 KL 散度的估计使用的是无偏估计：

$\begin{equation}\tag{4} \mathbb{D}_{K L}\left[\pi_\theta| | \pi_{r e f}\right]=\frac{\pi_{r e f}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_\theta\left(o_{i, t} \mid q, o_{i,<t}\right)}-\log \frac{\pi_{r e f}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_\theta\left(o_{i, t} \mid q, o_{i,<t}\right)}-1 \end{equation}$

下面给出 $\hat{A}_{i, t}$ 的计算方式。

对于每个问题 $q$ ，从旧的策略模型 $\pi_{\theta_{\text{old}}}$ 中采样一组输出 $\{o_1, o_2, \cdots, o_G\}$ 。随后，使用 reward model 对这些输出进行打分，得到对应的 $G$ 个奖励 $\{r_1, r_2, \cdots, r_G\}$ 。

接下来，将这些奖励进行归一化处理：用组内平均值作差，并除以组内标准差。结果监督（outcome supervision）在每个输出 $o_i$ 的末尾提供归一化后的奖励，并将该归一化奖励作为该输出中所有 token 的优势值（ $\hat{A}_{i,t}$ ），即：

$\begin{equation}\tag{5} \hat{A}_{i,t} = r^{ei} = \frac{r_i - \text{mean}(r)}{\text{std}(r)} \end{equation}$

然后，通过最大化公式 $KaTeX parse error: Undefined control sequence: \eqref at position 1: \̲e̲q̲r̲e̲f̲{eq3}$ 中定义的目标函数来优化策略模型。

本文给出的 GRPO 计算公式如下：

$KaTeX parse error: Undefined control sequence: \label at position 25: …quation}\tag{6}\̲l̲a̲b̲e̲l̲{eq6} \begin{al…$

公式 $KaTeX parse error: Undefined control sequence: \eqref at position 1: \̲e̲q̲r̲e̲f̲{eq6}$ 其采用了 DAPO 中提出的 Token-level loss 计算方式，其和公式 $KaTeX parse error: Undefined control sequence: \eqref at position 1: \̲e̲q̲r̲e̲f̲{eq3}$ 在计算均值时的顺序有所差异，这会导致两者在处理长短序列时表现会存在一些差异。

公式 $KaTeX parse error: Undefined control sequence: \eqref at position 1: \̲e̲q̲r̲e̲f̲{eq3}$ 会平等地对待每一个序列，无论其长短，长序列中各个 token 对 loss 的贡献程度会低于短序列中各个 token 的贡献程度。

而公式 $KaTeX parse error: Undefined control sequence: \eqref at position 1: \̲e̲q̲r̲e̲f̲{eq6}$ 则是平等对待每一个 token，其对于 loss 的贡献程度是一样的，这对于 Long-CoT 比较重要。

2.2 Semantic-level 和 Token-level CoT

2.2.1 Semantic-level CoT

Semantic-level CoT 被定义为在图像生成之前进行的文本推理过程，起到对目标图像进行整体语义规划的作用。这个过程类似于人类的艺术创作：当艺术家收到一个简短的提示时，首先会思考场景构建，涉及对象属性、空间关系和交互等方面。

除了对常规提示进行规划外，本文还观察到 Semantic-level CoT 在另外两种场景中也具有显著优势：

当提示语未直接描述要生成的对象时，Semantic-level CoT 能推理出用户提示背后的真实意图，从而生成更符合期望的图像。例如原论文中 Figure 2 所示，Semantic-level CoT 推理出 " 阿姆斯特丹所在国家种植的花 " 是 " 郁金香 "。若缺乏这种语义推理，Janus-Pro 无法给出有效结果。
在处理非常规或具有歧义性的场景时，Semantic-level CoT 也显示出其重要性。例如原论文中 Figure 2 底部的例子中，提示为 “A pig on the bottom of a train”（一只猪在火车底部），语义层级的 CoT 推理出 " 猪是躺着的 " 这一动作，从而构建出更合理的场景。而直接生成的图像则因缺乏这种解释性想象而造成明显混乱。

形式上，每一个 Semantic-level CoT $s_i$ 都由 $s_i|$ 个文本 token 组成，即： $s_i = \{s_{i}, s_{i}, \dots, s_{i,|s_i|}\}$ 。

2.2.2 Token-level CoT

图像生成任务特有的一点在于：在生成过程中存在一种 token-level step-by-step thinking。图像 token 的生成过程类似于 CoT：图像是以 patch 为单位逐步生成的，每个当前 patch 的生成都依赖于前面生成的内容。本文将这种图像 token 的顺序生成过程定义为token-level CoT。

这一过程类似于艺术家逐步填满画布的方式，生成的 patch 组成一条视觉推理链，确保整幅图像在内容和结构上的连贯性。随后，这条由 patch 组成的链会被重构为一个二维网格 $\in \mathbb{R}^{h \times w \times c}$ ，并输入到图像解码器 $D$ 中以生成最终图像。

与负责整体规划的语义层级 CoT 不同，token-level CoT 侧重于局部细节的表达以及图像空间中视觉内容的连贯性。

形式上，每一个 token-level CoT $t_i$ 由 $M$ 个图像 token 组成： $t_i = \{t_{i}, t_{i}, \dots, t_{i,M}\}$ 。

其中 $M$ 表示生成图像的分辨率，即 $\times w$ 。

2.3 BiCoT-GRPO 框架

为了在图像生成中同时兼顾 Semantic-level 和 token-level CoT，本文提出了 BiCoT-GRPO，在一次图像生成过程中让模型进行两次推理：本文引导模型首先进行全局规划（semantic-level CoT），随后深入到局部细节中进行逐步生成（token-level CoT）。

本文使用的 UML 是 Janus-Pro。

BiCoT-GRPO 流程分为两个阶段：

第一阶段：生成 Semantic-level CoT
输入 prompt，指示模型想象并推理图像细节，从而生成 Semantic-level CoT，记为 ${{s_i}\}_{i=1}^G$ 。
第二阶段：生成 Token-level CoT
将 prompt、第一阶段生成的 Semantic-level CoT 以及图像起始 token <img_start> 一同输入 ULM，引导其生成图像 token，记为 ${{t_i}\}_{i=1}^G$ 。随后将这些图像 token 输入图像解码器以得到图像 $I$ 。

由于本文方法中存在两个阶段的 CoT（首先是语义层级，然后是 token 层级），每个模型响应 $o_i$ 被划分为两个部分，即 $o_i = (s_i, t_i)$ 。

因此，原先用于计算 PPO 目标函数中的采样比值项 $r_{i,j}(\theta)$ 变为如下形式：

$\begin{equation}\tag{7} \begin{aligned} r_{i,j}(\theta) = \frac{\pi_{\theta}(o_{i,j} \mid q, o_{i,<j})}{\pi_{\theta_{\text{old}}}(o_{i,j} \mid q, o_{i,<j})} = \begin{cases} \frac{\pi_{\theta}(s_{i,j} \mid q, s_{i,<j})}{\pi_{\theta_{\text{old}}}(s_{i,j} \mid q, s_{i,<j})}, & 0 \le j \le |s_i| \\ \frac{\pi_{\theta}(t_{i,j} \mid q, s_i, t_{i,<j})}{\pi_{\theta_{\text{old}}}(t_{i,j} \mid q, s_i, t_{i,<j})}, & |s_i| < j \le |s_i| + M \end{cases} \end{aligned} \end{equation}$

最后通过最大化公式 $KaTeX parse error: Undefined control sequence: \eqref at position 1: \̲e̲q̲r̲e̲f̲{eq6}$ 来更新 ULM。

2.4 Rewards 聚合

考虑到图像质量评估的复杂性，本文引入了一个视觉专家集成系统，从多个方面对生成图像进行评估。同时，采用多个奖励函数也起到了正则化的作用，可防止 ULM 针对某一个特定的奖励模型进行投机取巧。

上图展示了本文使用的四种 Reward Model：

2.4.1 Human Preference Model

人类偏好模型（HPMs），如 HPS 和 ImageReward，被训练用于模拟人类的审美偏好。这些模型通过人工对合成图像的排名数据进行训练，其中标注者对生成的图像进行评估和比较。在推理阶段，这些模型会评估生成图像的美学质量及其与提示语的匹配程度，从而生成一个综合的人类偏好评分 $R_{HPM}$ 。这一专家模型从整体角度提供了全面的奖励信号。本文选用的 HPM 是 HPS 模型。

2.4.2 Object Detector

另一种奖励模型的选择是目标检测器，例如 GroundingDINO 和 YOLO-world。这些开放词汇的检测模型以图像和目标查询为输入，输出检测到目标的空间位置和置信度得分。这类视觉专家非常适合用于评估目标的存在性、空间关系以及数量等因素。

在具体实现上，本文首先从训练图像的提示语中提取出所有目标 ${obj_i\}_{i=1}^{K}$ ，其中 $K$ 表示目标的总数。然后，本文使用目标检测器在生成图像中识别这些目标。对于每个目标，若检测到则赋予其存在性得分为 1，否则为 0，并对提示语中所有目标的得分取平均。

如果提示语中包含空间关系，则进一步利用检测到的位置验证其正确性。本文计算目标之间的相对距离和 IoU（交并比）来获得空间得分 $R_{spatial}$ 。如果提示语中具体指明了某个目标的数量 $n_{obj_i}$ ，则将其与检测器识别出的数量 $\hat{n}_{obj_i}$ 进行比较。

最终，从目标检测器获得的奖励 $R_{Det}$ 定义如下：

$\begin{equation}\tag{8} \mathcal{R}_{\text {Det }}= \begin{cases}\alpha \mathcal{R}_{\text {spatial }}+(1-\alpha) \frac{1}{K} \sum_{i=1}^K \mathbb{I}\left(o b j_i \text { detected }\right), & \text { if spatial relationship in the prompt }, \\ \frac{1}{n} \sum_{i=1}^K \mathbb{I}\left(n_{o b j_i}=\hat{n}_{o b j_i}\right), & \text { if number in the prompt }, \\ \frac{1}{n} \sum_{i=1}^K \mathbb{I}\left(o b j_i \text { detected }\right), & \text { else },\end{cases} \end{equation}$

其中，若目标之间的相对距离大于阈值且方向正确，则 $R_{spatial} = 1$ ；若方向错误，则奖励为 0；否则使用 IoU 作为空间奖励。本文设置 $a lp ha = 0.6$ 来强调空间关系的准确性。

2.4.3 Visual Question Answering Model

视觉问答（VQA）模型旨在基于图像输入回答问题。这些模型包括早期的非大语言模型（LLM）方法，例如 BLIP 和 GIT，以及多模态大模型（LMM）如 LLaVA。本文利用这些模型来判断目标的存在性及其属性。

例如，若 prompt 是 " 一只红色的狗和一只黄色的猫 "，本文会将每个带有属性的目标 $obj_i$ 转换成一个问题，输入给 VQA 模型，比如：“a red dog?” 和 “a yellow cat?”。然后，记录模型回答 “Yes” 的概率 $P_i^{\text{Yes}}$ 和 “No” 的概率 $P_i^{\text{No}}$ 。

该若 prompt 是对应的奖励计算公式如下：

$\begin{equation}\tag{9} R_{\text{VQA}} = \frac{1}{K} \sum_{i} \frac{P_i^{\text{Yes}}}{P_i^{\text{Yes}} + P_i^{\text{No}}} \end{equation}$

其中， $K$ 表示若 prompt 是中目标的总数。

2.4.4 Output Reward Model

最后，本文还采用了论文《Can we generate images with cot? let’s verify and reinforce image generation step by step》中提出的输出奖励模型（Output Reward Model, ORM）作为奖励模型。ORM 是从一个多模态大模型（如 LLaVA-OneVision）微调而来，专门用于评估图像与提示语之间的一致性。微调的目标是指导模型在图像完全符合提示语时输出 “Yes”，否则输出 “No”。

这里使用与 $R_{\text{VQA}}$ 类似的方法来计算 $R_{\text{ORM}}$ ，区别在于将整个 Prompt 直接输入 ORM，而不对提示语进行重格式化。

可以选择上述的一种或多种奖励函数，并取其平均值作为该样本的最终奖励。

3. Experiment Results

3.1 Experiment Setup

3.1.1 Training Settings

本文训练数据集由 T2I-CompBench 和文献《Can we generate images with cot? let’s verify and reinforce image generation step by step》的训练集中收集的文本提示语构成，共计 6,786 条提示语，不包含图像。在训练前，本文使用 GPT4o mini 从提示语中提取物体及其属性，以便于奖励的计算。

部分示例数据如下：

{"task_type": "color", "prompt": "a yellow cat and a brown dog", "nouns": ["cat", "dog"], "attr_nouns": ["yellow cat", "brown dog"]}

{"prompt": "a photo of a cake above a tv", "nouns": ["cake", "tv"], "spatial_info": {"obj1": "cake", "obj2": "tv", "locality": "above"}, "task_type": "spatial"}

{"prompt": "a photo of a car above a broccoli", "nouns": ["car", "broccoli"], "spatial_info": {"obj1": "car", "obj2": "broccoli", "locality": "above"}, "task_type": "spatial"}

{"task_type": "non", "prompt": "A woman is holding a pen and writing in a notebook.", "nouns": ["pen", "notebook"]}

本文采用 Janus-Pro-7B 作为基础模型，使用的学习率为 1e-6，β 值为 0.01。

3.1.2 Benchmark

本文在 T2I-CompBench 和 WISE 上进行测试，以验证方法的有效性。

T2I-CompBench 包含 6,000 条组合型文本提示，评估三个大类（属性绑定、对象关系、复杂组合）和六个子类（颜色绑定、形状绑定、纹理绑定、空间关系、非空间关系和复杂组合）。

WISE 包含 1,000 条文本提示，涵盖三个类别（文化常识、时空推理和自然科学），用于评估文本生成图像模型的世界知识能力。为了正确生成图像，模型需要对提示中所描述的具体对象或场景进行推理。

3.2 Results

3.2.1 Main Results

下图依次展示了各个模型在 T2I-CompBench 和 WISE 上的结果：

T2I-CompBench 上的改进主要得益于 Semantic-level CoT 带来的规划能力，该机制在生成前为复杂场景进行设计。而 WISE 上的提升则归功于 Semantic-level CoT 的推理能力，它能推断出提示词背后真正描述的对象或场所。与此同时，Token-level CoT 对于忠实还原设计并确保图像视觉效果也起到了关键作用。

下图进一步可视化展示了两种 CoT 的作用：

缺乏语义级 CoT 时，模型无法真正理解应生成的对象或场景，导致生成结果与提示不一致。
缺乏 token-level CoT 时，图像中出现了多种伪影，图像质量明显下降。

3.2.2 Reward Analysis

下图展示了不同 Reward Model 对于结果的影响，以及 Reward Model 集成带来的作用：

3.2.2 Ablation Study

下表展示了两种 CoT 的有效性：

4. Conclusion

本文提出了 T2I-R1，这是首个通过双层 CoT（Chain of Thought）推理过程增强的文本生成图像模型。本文区分了用于高层规划的 Semantic-level CoT 和用于逐块生成的 token-level CoT，并通过提出的 BiCoT-GRPO 强化学习框架将两者集成于同一训练步骤中。该框架利用具备视觉理解与生成能力的统一大模型（ULM），避免了依赖多个专门模型的需求，同时显著提升了性能——在 T2I-CompBench 基准上提升 13%，在 WISE 基准上提升 19%，甚至超越了 FLUX。定性分析表明，T2I-R1 对复杂提示的理解更深入，能够更好地推理用户意图，并更稳健地应对非常见场景，开创了以推理为核心的生成系统新范式。