快手开源Keye-VL 1.5:开启视频理解新纪元,千万级场景落地指日可待
【免费下载链接】Keye-VL-1_5-8B 项目地址: https://ai.gitcode.com/hf_mirrors/Kwai-Keye/Keye-VL-1_5-8B
近日,快手正式开源了具备视频理解与跨模态推理能力的大模型Keye-VL 1.5。这款模型在原有预览版基础上实现了多项关键升级,不仅时序定位精度大幅提升,跨模态推理能力显著增强,更创新性地引入Slow-Fast双路编码机制,成功将上下文窗口扩展至128k,在保证处理速度的同时兼顾了细节理解。凭借这些优势,Keye-VL 1.5在Video-MME短视频基准测试中一举斩获73.0的高分,并在通用、视频及推理等多个场景的Benchmark中表现突出,领跑同级别模型。
如上图所示,图片中央是快手Keye-VL多模态推理模型的标志,蓝绿渐变环形图标搭配黑色“Keye”字样,底部清晰标注“Keye-VL-1.5-8B”等信息。这一标志不仅代表着模型的身份,更象征着快手在多模态视频理解领域的技术实力与创新精神,为开发者和行业人士提供了直观的品牌认知。
Keye-VL-1.5的核心优势集中体现在三个方面:128k超长上下文窗口、卓越的短视频理解能力以及强大的推理能力。在视频理解的实际应用中,这三项能力相辅相成,共同构建了模型的核心竞争力。
在时序信息理解上,Keye-VL-1.5展现出惊人的精准度,能够将视频元素的定位精确到0.1秒级别。例如,在一段26秒的带货视频中,当介绍到将充电宝装入包包以展示其便携性时,模型准确识别出包包出现的时间区间为22.3-23.8秒。相比之下,其他同类模型要么时间定位仅能精确到秒且误差较大,要么干脆无法给出时间信息,只能简单统计镜头数量。
描述能力方面,Keye-VL-1.5同样表现出色,能够对视频画面的场景和细节进行详尽且准确的描述。更值得一提的是其强大的视频推理能力,能够依据视频的前序内容合理推断后续事件发生的原因。在一个宠物视频场景中,大狗做出咬小狗耳朵的动作,模型不仅找到了视频中以文字形式给出的答案,还给出了更为详细的解释,并结合视频后续发展进一步佐证了自己的观点。
性能跑分上,Keye-VL-1.5在多项公开基准测试及内部评测中均取得同尺寸模型的最高分。在MMBench、OpenCompass等综合类基准中,其成绩超越了Qwen2.5-VL 7B,多次刷新SOTA记录。在与图像推理紧密相关的AI2D、OCRBench等数据集上,同样领先于同级其他模型。针对视频理解的专项测试,如Video-MME、TempCompass和LongVideoBench,Keye-VL-1.5也以显著优势超越Qwen2.5-VL 7B等竞品。在包含视觉的数学与逻辑推理维度,模型依旧保持领先地位。此外,快手团队还构建了包含200条样本的短视频应用内部多维度评测集,Keye-VL-1.5-8B在正确性、完整性、相关性、流畅度、创造性五项人类标注指标上获得3.53分的综合成绩,较预览版本提升0.51分,同时也超过了作为对比的竞品模型。
如上图所示,该图通过雷达图与柱状图的形式,清晰展示了Keye-VL 1.5-8B在General、Video、Reasoning三大类基准测试(包括MMBench、Video-MME、MathVerse等)中的性能表现。这一可视化对比充分体现了Keye-VL 1.5-8B相较于Qwen2.5-VL-7B等模型的显著优势以及自身版本间的性能提升,为读者直观理解模型的综合实力提供了有力依据。
Keye-VL-1.5的卓越性能源于其精妙的技术架构与创新的训练策略。在模型架构上,Keye-VL-1.5采用“视觉Transformer(ViT)+MLP投影器+语言解码器”的三段式结构。ViT将输入的图像或视频帧切割为14×14的patch序列,通过自注意力机制捕捉全局空间关系。该ViT初始化时直接继承SigLIP-400M参数,借助SigLIP这种图文对比预训练方法,使视觉特征天然具备语义对齐能力。为实现对任意分辨率的无裁剪处理,团队为ViT添加了“原生分辨率”支持,通过将绝对位置向量插值到任意尺寸,并引入2DRoPE(二维旋转位置编码)来增强高分辨率外推能力。ViT输出的patch特征经由两层MLP投影器送入语言解码器,语言端采用Qwen3-8B,并在其位置编码中加入3DRoPE。3DRoPE在传统二维旋转角基础上增加一维“时间/深度”角度,确保文本token与视觉token按统一时序排序。
针对视频处理中高帧率与高分辨率的固有矛盾,Keye-VL-1.5创新性地提出了Slow-Fast编码策略。模型首先对连续帧进行patch级余弦相似度计算,若与最近一次“慢帧”(变化帧,低帧数高分辨率)相似度超过95%,则判定为“快帧”(静止帧,高帧数低分辨率),否则标记为新的“慢帧”。处理时,慢帧保留高分辨率,快帧分配慢帧30%的token预算,结合二分搜索,使总预算精确控制在限制范围内,并在序列中插入时间戳特殊符号标注帧界。这一策略有效平衡了模型性能与计算成本。
预训练方面,Keye-VL-1.5采用四阶段渐进式流水线,遵循“先单模后多模、先对齐后扩窗”的顺序进行。Stage0为视觉编码器预训练,仅使用SigLIP对比损失继续训练ViT,强化视觉语义以适应内部数据分布;Stage1进行跨模态对齐,冻结ViT与Qwen,仅训练MLP投影器实现大规模跨模态对齐;Stage2开展多任务预训练,解冻全网络,在8K上下文下端到端优化,增强模型基础视觉理解能力;Stage3实施退火训练,在精选高质量数据上微调,引入长上下文模态数据,将上下文窗口扩展至128K。整个预训练语料规模超过1万亿token,涵盖LAION、DataComp、CC12M等公开多语言图文库以及大规模自建图像、视频与文本数据。四阶段训练完成后,团队对不同数据配比训练的“同质”权重与针对OCR、数学等薄弱项单独强化得到的“异质”权重进行模型融合,以减小偏差并提升鲁棒性。“同质模型”指退火期采用相同网络结构和相似任务目标,但调整数据配比、样本难度或随机种子训练出的多份主干权重;“异质模型”则是利用专用数据域进一步精调生成的专家权重,如针对车牌、票据和街景文字训练的OCR-Expert。由于架构一致,融合通过直接权重插值实现,不增加推理额外开销,却能将专家的局部能力注入通用模型。
训练后处理同样至关重要,Keye-VL-1.5包含四个主要阶段:首先,通过监督微调结合多偏好优化(MPO)建立输出质量基线;其次,借助五步流水线的大规模链式思考数据冷启动,为模型提供可靠推理示范;然后,在可验证奖励框架下采用GSPO算法并配合渐进提示采样进行多轮强化学习,系统化提升通用推理能力;最后,以规则-生成式-模型三源奖励完成对齐强化学习,重点加强指令遵循、格式一致性与用户偏好一致性。在监督微调阶段,团队构建了包含750万多模态问答的候选池,用TaskGalaxy将样本映射到七万种任务标签,并刻意提高高难度类型的占比。随后进入MPO阶段,以25万开源、15万纯文本和2.6万人工样本为基底,利用Keye-Reward模型分数和人工评估构造高低质配对,通过偏好损失函数引导模型倾向得分更高的答案,进一步提升回答质量。
快手的Keye团队是专注于多模态大语言模型研发的核心AI部门,主攻视频理解、视觉感知与推理等前沿方向。团队坚信,整合视觉、语言和行为等多源数据的智能体是解锁更深层次认知和决策的关键。今年以来,Keye团队在多个顶级学术会议上密集发布研究成果。ICML 2025上,提出多模态RLHF框架MM-RLHF,通过120k人类偏好对比与批评式奖励模型,显著提升MLLM安全性及对齐性能;KDD 2025上,视觉语言模型治理框架VLM as Policy获得最佳论文提名,该框架通过VLM驱动内容质量与风险判定,大幅提高短视频审核效率与准确率;CVPR 2025上,发布交错图文多模态数据集CoMM和视觉token压缩加速算法LibraMerging;ICLR 2025中,有三项研究成果亮相,包括MoE模型优化算法STGC、视频对话理解基准SVBench和视觉任务指令数据集TaskGalaxy。
在快手内部,Keye团队的这些成果正为短视频内容审核、智能剪辑、搜索与互动推荐等业务场景提供底层AI能力。Keye-VL系列模型正稳步将多模态技术从实验环境推向千万级日常应用场景,有力验证了复杂视频理解在真实业务中的可行性与高效性,为同类技术的工程化落地提供了宝贵的实践样本。随着技术的不断迭代与完善,Keye-VL模型在短视频领域的应用前景将更加广阔,有望为行业发展带来更多革命性的突破。
【免费下载链接】Keye-VL-1_5-8B 项目地址: https://ai.gitcode.com/hf_mirrors/Kwai-Keye/Keye-VL-1_5-8B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



