【论文笔记】Kimi 1.5 技术报告

和 DeepSeek-R1 一样强调 RL 的作用,但更强调 prompt 的重要性。
整体 RL 架构:
在这里插入图片描述

整体训练流程:
在这里插入图片描述

RL

prompt

进行了 prompt 多样性、难度评估、随机猜测答案 三个方面进行了优化。
‒ 多样性:关注覆盖。
‒ 难度:用同一参数+高温度系数进行采样,评估 prompt 的难度。
‒ 正确性:删除一些容易猜对的答案

Cot SFT

拒绝采样来生成长 CoT 数据用于模型监督微调,并用四方面的内容强化模型:
‒ 规划:执行前先规划步骤
‒ 评估:不断规划评估中间步骤
‒ 检查:重新思考并改进回答
‒ 探索:鼓励进行替代方案的搜索
通过这些长 CoT 作冷启动,模型内化了这些能力。

RL 算法

基础目标是最大化回答的收益:在这里插入图片描述

x 为 prompt,y* 为标准答案,πθ 是 LLM 网络参数, z 为中间规划的步骤,y~πθ(·|x,z),r 为奖励函数计算方法;
注意到这里 z 其实是一个两阶段采样,先根据 prompt 采样出完成任务的计划,再根据提示词和计划,采样得到答案。实际测试中, 再简单的问题都要经历这两步采样过程。
在这里插入图片描述

为了确保收敛的效果,使用 PG 时引入了 reference model 并用 KL 散度进行约束:
在这里插入图片描述
理想情况下,最优策略 π*应当满足:在这里插入图片描述
其中 Z 为归一化参数:在这里插入图片描述

两边取对数:在这里插入图片描述

如此就可以定义 L2 损失函数:在这里插入图片描述

问题是中间项难以计算,于是进行 K 次不同的采样,来实现对 Z 的近似。并且为了训练时的稳定性,将 K 次采样的奖励 r 作平均,得到了作为奖励函数的 baseline。
对 L(θ) 求梯度,就得到了最终的策略梯度:
在这里插入图片描述

其它技术

长度惩罚

为了避免像 Qwen 和 DeepSeek-R1 那样,随着训练模型输出结果越来越长,Kimi 引入了长度惩罚来减少成本。对于一个问题的 k 次答案正确的采样,计算每一个回答的长度,并给回答正确的答案增加一个长度正则:
在这里插入图片描述

当 len(i)= min_len 时,奖励为 0.5;当 len(i)=max_len 时,奖励为-0.5。整体而言,该奖励函数鼓励模型输出较短的回答。

采样策略

‒ 课程采样:采样那些当前模型难度适中的 prompt。从简单的任务开始训练,然后逐渐进入更有挑战性的任务。
‒ 错题优先:跟踪每个问题i的成功率si和与1 - si成比例的样本问题,以便成功率较低的问题获得较高的采样概率。

Long2Short

压缩模型输出长度的技术
‒ 模型合并:将长 Cot 和短 Cot 模型直接混合
‒ 最短拒绝采样:生成 8 次答案,选择其中答案最短的那条进行监督微调
‒ DPO:将短且正确的答案作为正样本,长、或者错误的答案作为负样本
‒ 长度惩罚,即之前提到的 λ

参考链接:

https://arxiv.org/abs/2501.12599

### 关于 Kimi1.5 API 的使用教程 #### 目录结构与初始化设置 对于Kim-Free-API项目,其基本的目录结构、启动文件以及配置文件已经得到了详细的介绍[^1]。这有助于开发者快速上手并理解如何构建基于此框架的应用程序。 #### 接口调试与集成指南 针对API的具体应用,在线调用之外还有更深入的方式可供探索。以TextIn通用文档解析为例,不仅支持在线操作,同时也提供详尽的API接口用于开发者的本地测试和集成工作[^2]。此类API通常会给出完整的请求格式(包括但不限于HTTP方法、URL路径)、所需参数列表及其意义解释等内容;同时也会展示可能返回的结果形式——无论是成功还是失败情况下所对应的响应消息体样式及状态码定义等重要细节。 #### Python 实现案例分析 当涉及到具体编程语言层面的操作时,可以参考Python环境下利用Kimi大模型完成特定任务的方法论。比如为了达成上传文档并与之交互的目标,可以通过编写相应的脚本来实现这一过程中的各个环节:从准备待发送的数据包直至接收来自服务器端反馈信息为止的一系列动作都可以被封装成易于管理的功能模块[^3]。 ```python import requests def upload_document(file_path, prompt_text): url = "https://api.kimifree.com/v1/upload" files = {'file': open(file_path,'rb')} data = {"prompt": prompt_text} response = requests.post(url, files=files, json=data) return response.json() result = upload_document('example.pdf', '请总结这份报告的主要观点') print(result) ``` #### 开发环境搭建提示 考虑到某些高级功能或许依赖额外的技术栈作为支撑条件之一,如MoonPalace所提供的服务就需要确保环境中已正确安装Go编译器及相关组件才能顺利执行后续步骤[^4]。因此建议初次接触这类平台的新用户提前做好相应准备工作,以免遇到不必要的麻烦。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhengdao9906

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值