代码智能新突破:快手KAT系列模型刷新SWE-Bench榜单,开源闭源双线领跑

代码智能新突破:快手KAT系列模型刷新SWE-Bench榜单,开源闭源双线领跑

【免费下载链接】KAT-Dev-FP8 【免费下载链接】KAT-Dev-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Kwaipilot/KAT-Dev-FP8

2025年9月26日,北京——机器之心从快手Kwaipilot团队获悉,该团队正式发布两款Agentic Coding领域的突破性大模型——开源32B参数模型KAT-Dev-32B与闭源旗舰模型KAT-Coder。这对"双雄组合"分别在轻量化高性能与极致编码能力上实现技术突破,其中KAT-Dev-32B在SWE-Bench Verified评测中以62.4%的解决率跻身开源模型前五,而KAT-Coder更以73.4%的优异成绩比肩全球顶尖闭源模型,标志着国内代码智能领域迎来新的技术里程碑。

开源生态与商业服务双轨并行

技术创新的生命力在于开放与应用。Kwaipilot团队同步推进模型的开源共享与商业化落地:32B参数的KAT-Dev已在Hugging Face平台正式开源,开发者可通过仓库地址https://gitcode.com/hf_mirrors/Kwaipilot/KAT-Dev-FP8获取完整模型权重与训练代码;闭源旗舰模型KAT-Coder则通过"快手万擎"企业级大模型服务平台开放API接入,用户可通过官方渠道申请密钥,直接在Claude Code等开发工具中调用其强大的编码能力。团队技术博客详细披露了模型训练的核心技术细节,为行业提供了宝贵的技术参考。

四阶段训练架构的突破性创新

KAT系列模型的卓越性能源于其创新性的四阶段训练架构,团队在Mid-Training、监督微调(SFT)、强化微调(RFT)和大规模智能体强化学习(RL)四个关键环节实现技术突破:

在Mid-Training阶段,团队发现针对工具使用能力、多轮交互逻辑和指令遵循能力的早期训练投入,虽不会立即体现在SWE-bench等榜单成绩上,却为后续微调阶段奠定了关键基础。这种"潜伏式"能力培养策略,使得模型在后续训练中展现出更强的学习效率和泛化能力。

SFT阶段创新性地构建了"八任务八场景"训练体系,覆盖从功能实现、缺陷修复到安全工程等八大编程任务类型,以及从应用开发到安全工程的八大专业场景,确保模型具备全面的工程化编码能力。而在传统RL流程前增设的RFT阶段,则通过人类工程师标注的"教师轨迹"数据,为模型提供了高质量的探索引导,大幅提升了后续强化学习的稳定性。

面对智能体强化学习扩展的三大核心挑战——非线性轨迹历史学习、内在信号利用和高吞吐量基础设施构建,团队提出三大创新解决方案:对数概率前缀缓存技术实现轨迹历史的高效复用,基于熵的轨迹剪枝机制聚焦高价值训练信号,自研SeamlessFlow框架则构建了工业级规模的强化学习训练基础设施。

分阶段技术解析:从基础能力到智能涌现

Mid-Training:智能体基础能力锻造 团队将预训练模型的能力提升分解为系统性的"能力锻造"过程。在工具调用能力培养上,构建了沙盒环境中的真实工具执行数据,使模型掌握从调用触发到结果解析的完整工具使用逻辑;多轮交互训练采用最长达数百轮的人机工具交互数据,显著增强模型在复杂场景下的上下文理解能力;编码知识注入环节则精选高质量领域数据,配合真实Git仓库的PR提交记录,使模型形成符合工程实践的编码思维。30+类用户指令数据与通用思考数据的加入,进一步完善了模型的意图理解与推理能力。

SFT:工程化轨迹数据训练 监督微调阶段聚焦真实开发场景的端到端问题解决能力。团队收集整理了大量人类工程师的实际需求交付轨迹,并基于此合成高质量训练数据。这种以真实开发流程为蓝本的训练设计,使模型不仅掌握编码技巧,更形成了完整的软件工程思维。从功能实现、性能优化到测试用例生成,从数据库系统开发到安全工程,模型在多样化任务与场景的训练中构建起全面的工程化能力体系。

RFT:教师轨迹引导的探索启蒙 强化微调阶段创新性地引入"教师轨迹"概念,在模型进入自由探索前,先由人类专家标注的最优轨迹数据进行引导训练。这种"手把手教学"模式,将人类解决问题的思维路径内化为模型的探索策略,有效避免了传统RL中常见的探索效率低下问题。如果说Mid-Training是基础能力培养,SFT是任务执行训练,那么RFT则是探索方法的启蒙,为后续大规模RL训练构建了关键桥梁。

大规模Agentic RL:三大核心技术突破 为实现智能体强化学习的规模化应用,团队在三个维度实现技术突破:基于熵的树剪枝技术将轨迹压缩为前缀树结构,通过熵值分析和节点重要性评估,在有限计算预算下保留高价值训练信号,使吞吐量提升3倍以上;SeamlessFlow框架通过轨迹树管理中间层实现智能体逻辑与RL训练的解耦,配合标签驱动调度机制,最大化异构计算集群的资源利用率;统一环境接口设计则实现了不同执行环境的无缝集成,配合企业级代码库构建的高质量训练数据,使模型在处理复杂业务逻辑时展现出卓越性能。

工业级代码能力的全景展示

KAT-Coder展现出令人惊叹的全栈开发能力,用户只需输入自然语言需求描述,模型即可独立完成从架构设计到代码实现的完整开发流程。在实际测试中,模型成功交付了星空动态效果生成、水果忍者游戏开发等交互式项目,并能对 legacy 代码进行自动化重构优化。这种端到端的开发能力,大幅降低了软件开发的技术门槛,有望重塑未来的软件开发模式。

强化学习催生的智能涌现现象

经过大规模Agentic RL训练后,模型展现出两项显著的智能涌现能力:对话轮次较SFT阶段平均减少32%,实现更高效的任务完成;同时具备多工具并行调用能力,突破传统串行调用模式的效率瓶颈。团队研究发现,这源于轨迹树结构带来的双重优化效应:短路径轨迹在训练中被更多样本共享,形成效率优化压力;而多工具调用节点的高熵特性在剪枝过程中被优先保留,使模型自然习得并行处理能力。这种"结构引导智能"的现象,为大模型能力培养提供了全新研究视角。

未来技术演进方向

展望未来,Kwaipilot团队将在四个方向深化代码智能的技术探索:与主流IDE、版本控制系统的深度集成,打造无缝的开发体验;扩展对新兴编程语言与框架的支持,保持技术前瞻性;构建多智能体协作系统,实现复杂软件项目的协同开发;引入多模态理解能力,使模型能直接处理架构图、UI设计稿等视觉输入,进一步降低开发门槛。这些探索不仅将推动代码智能技术的边界,更将深刻改变软件产业的生产方式。

在AI驱动软件开发的浪潮中,KAT系列模型的突破不仅展现了国内团队的技术实力,更通过开源开放推动整个行业的技术进步。随着模型能力的持续进化与应用场景的不断拓展,我们有理由相信,代码智能将在不久的将来成为软件开发的核心生产力工具,为数字经济发展注入强劲动力。

【免费下载链接】KAT-Dev-FP8 【免费下载链接】KAT-Dev-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Kwaipilot/KAT-Dev-FP8

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值