本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。
原文链接:https://mp.weixin.qq.com/s/ArMN7QUb18RjRF6Z7C-Gbw

Image
文章篇幅略长,分为上、中和下!
4 训练后阶段
4.1 训练方案
作者的后训练(post-training)流程是一个三阶段过程,旨在提升模型对指令的理解与执行能力,增强其推理能力,并使其与人类偏好对齐。各阶段的具体数据和方法将在后续章节中详细说明。
监督微调(Supervised Fine-Tuning, SFT)。第一阶段旨在赋予模型遵循指令的能力,并激活其潜在的推理能力。该阶段分为两个阶段:初始阶段使用32k上下文长度,随后扩展至256k上下文窗口,重点处理长文档和长视频数据。为满足不同需求,作者将训练数据分为两类:面向非思考型模型的标准格式,以及面向思考型模型的思维链(Chain-of-Thought, CoT)格式,后者显式建模推理过程。
强到弱蒸馏(Strong-to-Weak Distillation)。第二阶段采用知识蒸馏,其中强大的教师模型将自身能力传递给作者的学生模型。关键在于,作者使用仅包含文本的数据来微调LLM Backbone 网络。该方法被证明非常有效,在以文本为中心和多模态任务中均显著提升了模型的推理能力。
强化学习(Reinforcement Learning, RL)。最终阶段利用RL进一步提升模型性能与对齐度。该阶段分为推理强化学习(Reasoning RL)和通用强化学习(General RL)。作者在涵盖文本和多模态领域的广泛任务上应用大规模强化学习,包括但不限于数学推理、光学字符识别(OCR)、视觉-语言对齐(grounding)以及指令遵循任务,以提升模型在细粒度能力上的表现。
4.2 冷启动数据
4.2.1 SFT 数据
作者的主要目标是赋予模型应对广泛现实场景的能力。在 基础能力的基础上——该模型已在约八个核心领域和三十个细粒度子类别中表现出色——作者战略性地扩展了其功能范围。这一扩展通过整合社区反馈、学术文献以及实际应用中的洞察实现,从而引入了一系列新能力。这些能力包括但不限于:面向具身智能的空间推理、面向细粒度视觉理解的图像引导推理、面向视频中鲁棒目标跟踪的时空定位,以及对涵盖数百页内容的长上下文技术文档的理解能力。基于这些目标任务,并以真实应用场景为依据,作者通过从开源数据集和网络资源中精心筛选与合成样本,系统性地构建了SFT数据集。这一针对性的数据工程工作对于确立 Qwen3-VL 作为更全面、更强大的多模态基础模型起到了关键作用。
该数据集包含约120万条样本,经过精心设计以促进强大的多模态能力。该数据集被划分为单模态和多模态数据,其中三分之一为纯文本条目,其余三分之二由图像-文本对和视频-文本对构成。多模态内容的整合旨在使模型能够理解复杂的现实场景。为确保全局适用性,该数据集不仅涵盖主要的中文和英文语料,还包含多样化的多语言样本,从而扩展其语言覆盖范围。此外,通过引入单轮和多轮对话,并将其置于从单图像到多图像序列的多种视觉场景中,数据集模拟了真实的对话动态。尤为重要的是,数据集还包含交错排列的图像-文本示例,旨在支持High-Level Agent 行为,例如工具增强的图像搜索和基于视觉的推理。这种异构的数据构成确保了全面的覆盖范围,并增强了数据集在训练可泛化且复杂的多模态 Agent 方面的代表性。
由于 Qwen3-VL 原生支持 256K token 的上下文长度,作者采用分阶段训练策略以优化计算效率。该策略包含两个阶段:第一阶段为单次训练周期,序列长度为 32K token;第二阶段则在完整的 256K token 长度下进行。在第二阶段,模型在一种课程学习(curriculum)策略下进行训练,该策略将长上下文输入与 32K token 长度的数据交替混合。长上下文输入包括数百页的技术文档、整本教科书以及长达两小时的视频内容。
训练数据的质量是决定视觉-语言模型性能的关键因素。来自开源和合成来源的数据集通常存在显著的变异性和噪声,包括冗余、无关或低质量的样本。为缓解这些缺陷,实施严格的数据过滤协议至关重要。因此,作者的数据精炼流程包含一个两阶段的过滤 Pipeline :Query过滤和Response过滤。
Query 过滤。在这一初始阶段,作者利用 Qwen2.5-VL 识别并剔除那些难以直接验证的 Query 。对于指令模糊的 Query ,仅进行最小程度的修改以提升清晰度,同时保留其原始语义意图。此外,所有源自网络且缺乏实质性内容的 Query 均被系统性地剔除。至关重要的是,所有剩余 Query 还需经过复杂度与上下文相关性的最终评估,以确保仅保留适当难度且相关性强的样本进入下一阶段。
响应过滤(Response Filtering)。此阶段融合了两种互补的策略:
-
• 基于规则的过滤:应用一组预定义的启发式规则,以消除存在定性缺陷的响应,例如重复、不完整或格式不正确的情况。为保持语义相关性并遵循伦理原则,作者还会丢弃任何偏离主题或可能生成有害内容的 Query -响应对。
-
• 基于模型的过滤:通过采用源自 Qwen2.5-VL 系列的 Reward 模型(reward models),对数据集进行进一步精炼。这些模型对多模态问答对进行多维度评估。具体而言:(a) 对答案根据正确性、完整性、清晰度和帮助性等多个标准进行评分;(b) 对于视觉基础任务,评估特别强调对视觉信息的准确理解与有效利用;(c) 该基于模型的方法能够检测出通常难以被基于规则的方法发现的细微问题,例如不恰当的语言混用或突兀的风格转变。
这一多维度过滤框架确保只有符合严格质量、可靠性及伦理完整性的数据才能进入SFT阶段。
4.2.2 Long-CoT 冷启动数据
作者思维模型的基础是一个精心构建的长链式思维(Long Chain-of-Thought, CoT)冷启动数据集,该数据集旨在激发并优化复杂推理能力。该数据集基于涵盖纯文本与多模态数据的多样化 Query 构建,视觉-语言样本与纯文本样本的比例保持在约1:1,以确保技能发展的均衡性。
多模态组件虽然涵盖了视觉问答(Visual Question Answering, VQA)、光学字符识别(Optical Character Recognition, OCR)、2D/3D定位(grounding)以及视频分析等成熟领域,但特别注重增强与STEM(科学、技术、工程和数学)及 Agent 型工作流(agentic workflows)相关的任务。这一战略重点旨在推动模型在需要复杂、多步骤推理的问题上的表现。纯文本部分则紧密参照Qwen3所使用的数据,包含数学、代码生成、逻辑推理以及通用STEM领域的挑战性问题。
为确保高质量并保持适当的难度水平,作者实施了严格的多阶段过滤协议。
-
• 难度筛选:作者有选择性地保留那些 Baseline 模型表现较差(通过率低)或生成更长、更详细回答的样本。这使得数据集包含当前模型真正难以应对的问题,从而提升了数据集的挑战性。
-
• 多模态必要性过滤:针对视觉-语言数学问题,作者引入了一个关键的过滤步骤:对于作者的 Qwen3-30B-nothink 模型在不依赖视觉输入的情况下也能正确解答的样本,作者予以剔除。这一措施确保剩余样本确实需要多模态理解能力,而不能仅通过文本线索解决。
-
• 响应质量控制:遵循 Qwen3 的方法论,作者对生成的响应进行净化处理。对于存在多个候选答案的 Query ,作者首先剔除包含错误最终结果的响应。随后,过滤掉表现出不良模式的响应,例如过度重复、语言混用不当,或在缺乏充分推理步骤的情况下明显存在猜测行为的答复。
这一严格的筛选流程生成了一个高质量、具有挑战性的数据集,专为推动High-Level多模态推理能力的自举(bootstrapping)而设计。
4.3 强到弱蒸馏
作者采用 Qwen3 中描述的强模型到弱模型蒸馏(Strong-to-Weak Distillation)流程,以进一步提升轻量级模型的性能。该蒸馏过程包含两个主要阶段:
-
• 离策略蒸馏(Off-policy Distillation):在第一阶段,由教师模型生成的输出被整合,用于提供响应蒸馏。这有助于轻量级学生模型获取基本的推理能力,为后续的在策略训练(on-policy training)奠定坚实基础。
-
• 在策略蒸馏(On-policy Distillation)中,第二阶段学生模型根据提供的 Prompt 生成响应。这些在策略(on-policy)序列随后用于微调学生模型。通过最小化KL散度来对齐学生模型和教师模型预测的logits。
4.4 强化学习
4.4.1 推理强化学习
作者在多样化的文本和多模态任务上训练模型,包括数学、编程、逻辑推理、视觉定位以及视觉谜题。每个任务的设计均确保其解决方案可以通过规则或代码执行器进行确定性验证。
数据准备
作者从开源和专有数据源中收集训练数据,并施加严格的预处理和人工标注,以确保高质量的强化学习(Reinforcement Learning, RL) Query 。对于多模态 Query ,作者使用最先进的视觉-语言模型(Qwen3-VL-235BA22B)的初步预训练权重,为每个 Query 生成16个响应;若所有响应均错误,则丢弃该 Query 。
随后,作者针对每个任务开展初步的强化学习(Reinforcement Learning, RL)实验,以识别并剔除改进潜力有限的数据来源。该过程共生成约 30K 个 RL Query ,覆盖多种文本及多模态任务。在训练每个模型时,作者为所有 Query 采样 16 个响应,并过滤掉通过率超过 的简单 Query 。作者将特定任务的数据集打乱并合并,构建混合任务批次,确保每项任务的样本比例保持一致且预先设定。该比例通过大量初步实验确定。
Reward 系统
作者实现了一个统一的 Reward 框架,以在所有任务中提供精确的反馈。该系统提供共享基础设施——包括数据预处理、实用函数以及 Reward 管理器,用于整合多种 Reward 类型——而核心 Reward 逻辑则按任务独立实现。作者使用任务特定的格式 Prompt (format prompts)来引导模型输出符合要求的格式,因此无需依赖显式的格式 Reward 。为缓解语言切换(code-switching)问题,当响应语言与 Prompt 语言不一致时,系统会施加惩罚。
强化学习算法 作者采用 SAPO,一种平滑且自适应的策略梯度方法,用于强化学习训练。SAPO 在多种文本和多模态任务中均表现出一致的性能提升,并适用于不同模型规模和架构。
4.4.2 通用强化学习
通用强化学习(General Reinforcement Learning, RL)阶段旨在提升模型的泛化能力与运行鲁棒性。为此,作者采用多任务强化学习范式,其中 Reward 函数基于监督微调(SFT)阶段的综合性任务构建,涵盖视觉问答(VQA)、图像描述(image captioning)、光学字符识别(OCR)、文档解析(document parsing)、视觉定位(grounding)以及钟表识别(clock recognition)。 Reward 机制的设计旨在优化模型性能的两个核心维度:
• 指令遵循:该维度评估模型对用户明确指令的遵守程度。它衡量模型处理内容、格式、长度及结构化输出(如JSON)等复杂约束的能力,确保生成的响应精确符合用户需求。
• 偏好对齐(Preference Alignment):对于开放式或主观性问题,该维度通过优化模型输出的有用性、事实准确性以及风格恰当性,使其与人类偏好保持一致。这有助于实现更自然、更具吸引力的用户交互体验。
此外,该阶段充当一种校正机制,用于消除在SFT(监督微调)过程中形成的强烈但存在缺陷的知识先验。作者通过引入专门设计的、可验证的任务来解决这一问题,这些任务旨在触发特定错误,例如违反直觉的物体计数和复杂的钟表时间识别。这种有针对性的干预旨在用事实性知识取代错误的先验知识。
另一个关键目标是缓解诸如不恰当的语言混合、过度重复和格式错误等不良行为。然而,这些问题的出现频率较低,使得通用的强化学习(Reinforcement Learning, RL)策略在样本利用效率上表现不佳。为克服这一局限,作者在该阶段构建了一个专用数据集。该数据集专门隔离了已知会引发此类不良行为的 Prompt (prompt)。通过这种聚焦训练,能够施加针对性且高频的惩罚机制,从而有效抑制这些残余错误。
强化学习(RL)过程的反馈通过一种混合 Reward 机制实现,该机制结合了两种互补的方法:
• 基于规则的 Reward (Rule-Based Rewards):对于具有可验证真实标签(ground truth)的任务(如格式合规性和指令遵循性),该方法能够提供明确且高精度的反馈。通过使用定义清晰的启发式规则,该方法为评估正确性提供了一种稳健的机制,并能有效缓解 Reward 劫持(reward hacking)问题,即模型可能利用学习到的 Reward 函数中的模糊性进行策略性欺骗。
• 基于模型的 Reward (Model-Based Rewards):该方法采用 Qwen2.5-VL-72B-Instruct 或 Qwen3 作为复杂的评判模型。这些评判模型将每个生成的响应与真实参考答案进行对比,从多个维度评估其质量。该方法在评估复杂或开放性任务时表现出更强的灵活性,尤其适用于那些难以通过严格、基于规则的匹配来评判的场景。它特别有效于减少误判为负例的情况,从而避免对格式或表达方式非传统的有效响应造成不合理的惩罚。
4.5 借助图像进行思考
受“用图像进行思考”(Wu et al., 2025a; Jin et al., 2025; Zheng et al., 2025; Lai et al., 2025)这一系列开创性工作的启发,作者通过一种两阶段训练范式,赋予 Qwen3-VL 类似的Agent(agentic)能力。
在第一阶段,作者合成一个冷启动的Agent数据集,包含约 个基础示例——主要为简单的两轮视觉问答任务,例如属性检测。随后,作者对 Qwen2.5-VL-32B 进行监督微调(SFT),以模拟视觉Agent的行为: 分析反馈并给出答案。为进一步提升其推理能力,作者采用多轮、工具融合的强化学习(RL)方法。
在第二阶段,作者将第一阶段训练得到的 Qwen2.5-VL-32B 视觉 Agent (visual agent)进行知识蒸馏,生成一个规模更大、多样性更高的数据集,包含约 120k 条多轮 Agent 交互(multi-turn agentic interactions),覆盖更广泛的视觉任务。随后,作者采用类似的冷启动 SFT 与工具集成的强化学习(tool-integrated RL)流程(此时同时使用蒸馏数据与合成数据)对 Qwen3-VL 进行后训练(post-training)。
多轮、工具集成的强化学习(RL)过程在两个阶段中几乎完全相同,仅在底层数据上有所差异。在 阶段,作者采用三种互补的 Reward 信号,以促进鲁棒的、基于工具的推理:
• Answer Accuracy Reward 使用 Qwen3-32B 来衡量最终答案是否正确。
• 多轮推理 Reward (Multi-Turn Reasoning Reward)利用 Qwen2.5-VL-72B 评估助手是否正确理解工具或环境反馈,并通过连贯、分步的推理得出答案。工具调用 Reward (Tool-Calling Reward)通过将实际工具调用次数与专家估算的目标次数进行比较,鼓励恰当的工具使用。该目标次数由 Qwen2.5-VL-72B 根据任务复杂度离线确定。
早期实验表明,模型倾向于退化为仅进行一次工具调用以获取前两项 Reward ,而无视任务的实际需求。为缓解这一问题,作者显式地引入工具调用 Reward (tool-calling reward),以促进与任务复杂度相适应的工具探索行为。
4.6 基础设施
作者在阿里云的PAI-Lingjun AI计算服务上训练Qwen3-VL系列模型,该服务提供了AI和高性能计算等计算密集型场景所需的高性能计算能力。
在预训练阶段,系统基于 MegatronLM 框架采用了一种混合并行策略,整合了张量并行(Tensor Parallelism, TP)、流水线并行(Pipeline Parallelism, PP)、上下文并行(Context Parallelism, CP)、专家并行(Expert Parallelism, EP)以及 ZeRO-1 数据并行(Data Parallelism, DP)。该配置在模型规模、计算负载与通信开销之间实现了细粒度的平衡,从而实现了高硬件利用率,并在高达 10,000 张 GPU 的规模下仍能保持高吞吐量与低通信延迟。
在局部部署与性能评估方面,作者采用基于 vLLM 或 SGLang 的部署策略。vLLM 利用 PagedAttention 实现内存高效的管理与高吞吐量推理,而 SGLang 在结构化生成和复杂 Prompt 处理方面表现优异。两者结合,提供了高效、稳定、灵活的模型推理与评估能力。
参考
[1]. Qwen3-VL Technical Report
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。
1373

被折叠的 条评论
为什么被折叠?



