快手团队发布8B Kwai Keye-VL！技术报告速递~-优快云博客

点击下方卡片，关注“大模型之心Tech”公众号

快手团队发布8B Kwai Keye-VL

尽管多模态大语言模型（Multimodal Large Language Models, MLLMs）在静态图像处理方面展现出卓越的能力，但在理解动态性强、信息密度高的短视频内容方面仍存在明显不足——而短视频正是当今数字生态中的主流媒介。为弥补这一差距，快手团推推出了 Kwai Keye-VL，这是一款参数规模达 8B的多模态基础模型，专为实现领先的短视频理解能力而设计，同时保持强大的通用视觉-语言处理能力。

Keye-VL 的构建基于两大核心支柱：一是包含超过 6000 亿 token 的大规模高质量数据集，其中以视频数据为核心；二是创新性的训练策略。该训练策略包括一个四阶段的预训练流程，以实现稳固的视觉与语言对齐；随后是一个精心设计的两阶段后训练过程。第一个后训练阶段旨在增强模型的基础能力，如指令跟随等；第二阶段则专注于激发其高级推理能力。

在第二阶段中，我们的关键创新之一是一种五模式“冷启动”数据混合策略，包括“思考型”、“非思考型”、“自动思考型”、“图文思考型”以及高质量视频数据。这种混合方式教会模型判断何时以及如何进行推理。随后的强化学习（Reinforcement Learning, RL）和对齐步骤进一步提升了模型的推理能力，并纠正了异常行为，例如重复输出等问题。

为了验证我们的方法，我们进行了广泛的评估实验，结果显示 Keye-VL 在公开视频基准测试中达到了最先进的性能水平，同时在通用图像任务上也保持高度竞争力（见图1）。此外，我们开发并发布了 KC-MMBench，这是一个针对真实世界短视频场景定制的新基准，在该基准上 Keye-VL 展现出显著优势。全面的人类评估也证实，与其他同规模领先模型相比，我们的模型在用户体验方面更胜一筹。

本文详细介绍了 Keye-VL 的架构设计、数据构建策略及训练方法，为构建面向视频时代的下一代 MLLMs 提供了宝贵的实践经验与洞见。

项目主页：https://kwai-keye.github.io/
huggingface：https://huggingface.co/Kwai-Keye
代码链接：https://github.com/Kwai-Keye/Keye

Kwai Keye-VL 的开发依托于几项核心技术。首先构建了一个大规模且多样化的数据集，总量超过 6000 亿 token，特别侧重于高质量的视频数据。这些数据经过了一套严格的处理流程，包括过滤、使用先进模型进行重描（re-captioning）以生成更精确的描述，以及帧级别标注（frame-level annotation），以确保整体质量。

其次，我们设计了一种创新性的训练方法，其中包括一个四阶段的预训练过程，旨在为视觉与语言之间的对齐打下坚实基础。在预训练完成后，我们进一步通过两阶段的后训练流程提升 Keye-VL 的能力：

◆ 第一阶段：优化基础能力
我们专注于提升模型在指令遵循等基本任务上的表现。这一阶段主要通过监督微调（Supervised Fine-Tuning, SFT）和混合偏好优化（Mixed Preference Optimization, MPO）在高质量数据上实现。

◆ 第二阶段：激发并增强推理能力
我们首先构建了高质量的“冷启动”数据，包含五种模式：常规问答（conventional question-answering）、长链思维链（long chain-of-thought）、自动推理决策（auto-reasoning decision）、“图文思考”（think with an image，例如生成用于图像处理的代码）以及高质量视频数据。我们在这些模式的混合数据上训练模型，使其学会选择最合适的回应方式。这种方式使模型能够在面对复杂推理任务时深入思考，在面对简单问题时快速作答。随后，我们采用强化学习（Reinforcement Learning, RL）进一步强化其复杂推理能力。最后，我们利用 MPO 算法进行多轮迭代对齐，以纠正诸如重复输出和逻辑推理错误等问题。

本文均出自《大模型之心Tech》知识星球，更多学习资料欢迎加入获取！技术干货在置顶链接，全面覆盖了大模型开发和通用大模型使用教程~

预训练

预训练pipeline：

第一阶段：跨模态对齐（Cross-Modal Alignment）
语言模型初始化自 Qwen3-8B（Yang 等，2025）。在此阶段，视觉模型和语言模型的参数均被冻结，训练重点在于优化投影 MLP 层。借助大规模数据集，我们建立了跨模态特征之间的强对齐关系，为后续的学习阶段奠定基础。

第二阶段：多任务预训练（Multi-Task Pre-Training）
本阶段对所有模型参数进行解冻，并使用多样化的多任务训练数据进行端到端优化。该阶段的数据涵盖多种常见的视觉-语言任务，包括图像描述生成（Image Captioning）、光学字符识别（Optical Character Recognition, OCR）、定位（Grounding）、视觉问答（Visual Question Answering, VQA）以及图文混合数据。这一过程显著提升了模型的基础视觉理解能力。

第三阶段：退火优化（Annealing）
此阶段为退火优化阶段，模型在一组精选的高质量数据上进行微调。其主要目标是解决第二阶段大规模、广覆盖训练中对高质量样本曝光不足的问题。通过优化学习策略与数据混合方式，我们进一步提升模型对细节的理解能力和整体表现。

模型融合（Model Merging）
预训练模型在下游任务上的表现高度依赖于训练数据的混合比例，这种影响在较小规模模型中尤为显著（Li 等，2025b）。若仅依靠基于验证集选定的固定数据比例进行训练，可能会放大模型本身的偏差，导致基准测试表现与实际应用之间存在差距。为缓解这一问题，在预训练的最后阶段，我们探索了一种“同构-异构”融合技术。具体而言，我们将采用不同数据混合策略训练出的多个退火模型的权重进行平均。这种方法不仅保留了各个模型的多样化能力，还有效降低了整体偏差，增强了模型的鲁棒性。

后训练

如图4和图5所示，Kwai Keye-VL 的后训练过程是一个精心设计的两阶段方法，旨在培养模型全面的能力体系。第一阶段包含前两个步骤，专注于建立在自然图像理解与文本交互方面的基础性能。第二阶段则包括最后三个步骤，重点在于逐步提升模型的复杂推理能力。

训练基础设施

为了确保十亿参数级别模型的高效且稳定训练，我们在三个关键领域进行了深度优化：并行策略、负载均衡和容错机制。

优化的混合并行策略（Optimized Hybrid Parallelism）
我们采用结合数据并行（Data Parallelism, DP）与序列并行（Sequence Parallelism, SP）的混合并行策略，以在大规模计算集群上实现高效扩展。我们的 DP 实现深度集成了 ZeRO 优化器（Rajbhandari 等，2020）。这不仅通过分片存储优化器状态、梯度和参数来降低每个设备上的内存压力，更重要的是实现了计算与通信的有效重叠。在反向传播过程中，梯度计算可以与梯度同步通信并行进行，从而有效隐藏通信延迟，提升整体训练吞吐量。

动态负载均衡（Dynamic Load Balancing）
为应对多模态训练中因输入尺寸（图像/视频）变化带来的严重计算负载不均衡问题，我们实施了一种全局贪心负载均衡策略。在每一个全局训练步中，该策略评估全局批次中每个样本的浮点运算量（FLOPs），按 FLOPs 降序排序所有样本，并贪心地将样本分配给当前计算负载最低的并行组。这一机制动态平衡了各节点之间的负载，减少了硬件空闲时间，显著提升了整体训练速度。

样本级自动恢复机制（Sample-level Auto-Resume）
大规模训练容易引发频繁的硬件和软件故障。为此，我们构建了一个样本级别的自动恢复机制。该系统对训练状态和数据 I/O 状态进行联合检查点保存（checkpointing），使训练任务能够在中断的确切样本处自动恢复，无需人工干预。这大大提高了训练的稳定性与资源利用效率。

后训练框架增强（Post-training Framework Enhancements）
在后训练阶段，除上述策略外，我们还对 vLLM进行了适配性更新，使其兼容 Keye 的模型架构及视频输入，从而实现快速采样。此外，我们部署了多个奖励模型（reward models），并在奖励计算过程中采用随机调度策略，以降低强化学习（RL）阶段的时间开销。