[Arxiv 2025] O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Introduction

  • 作者提出 O1-Pruner,通过将长度和精度同时纳入奖励函数,鼓励模型进行高效推理

Method

  • Length Disharmony. 对于相同的问题,推理模型中采样得到的更长回复的正确率未必高于更短回复,说明推理步骤中存在大量冗余
    在这里插入图片描述在这里插入图片描述
  • Length-Harmonizing Fine-Tuning (O1-Pruner). 优化目标如下所示,既要保证模型输出长度比 reference model 更短,又要保证精度更高
    在这里插入图片描述上述条件优化目标可以转化为如下形式:
    在这里插入图片描述其中, λ ≥ 0 \lambda\geq 0 λ0 A ( ⋅ ) A(\cdot) A() 根据回答正确与否返回 0 或 1, L ˉ r e f ( x ) = E y ′ ∼ π r e f ( y ∣ x ) L ( y ′ ) \bar L_{ref}(x)=\mathbb E_{y'\sim\pi_{ref}(y|x)}L(y') Lˉref(x)=Eyπref(yx)L(y) A ˉ r e f ( x ) = E y ′ ∼ π r e f ( y ∣ x ) A ( x , y ′ ) \bar A_{ref}(x)=\mathbb E_{y'\sim\pi_{ref}(y|x)}A(x,y') Aˉref(x)=Eyπref(yx)A(x,y) 可以通过采样做近似:
    在这里插入图片描述最终的优化目标为:
    在这里插入图片描述为了降低训练开销,作者训练时采用 off-policy training,全部数据都提前采样自 reference model,将上述优化目标直接作为 advantage function R L H ( x , y ) R_{LH}(x,y) RLH(x,y) 使用 PPO-style loss 进行训练
    在这里插入图片描述其中,在这里插入图片描述

在这里插入图片描述

Experiments

  • Training Dataset. MATH (randomly sample 5k samples from 10k math problem of high school level)
  • Baselines. (i) Fast-Solving Prompt. (ii) SFT: 对于每个问题,从采样回复中选择最短的两个正确回复组成数据集. (iii) DPO: 最短的两个正确回复作为正样本,最长回复作为负样本
  • Evaluation Metric. 作者定义 Accuracy-Efficiency Score (AES)
    在这里插入图片描述其中, γ > β > 0 \gamma>\beta>0 γ>β>0 用于惩罚精度下降
    在这里插入图片描述

  • Main Results. 神奇的是,o1-pruner 训练后模型精度不降反增有可能是因为这两个模型都是 unsaturated model,继续做强化学习本身就能提点,进而掩盖了回复长度减少带来的精度损失。应该在训练程度更高的一些模型上进行实验 (e.g. QwQ-32B)
    在这里插入图片描述
  • Ablation Study. (1) Ablation on Hyper-parameter Sensitivity.
    在这里插入图片描述(2) Ablation on Difficulty Levels. 在更难数据上训练有利于增加模型精度,但也会使得模型输出长度更长
    在这里插入图片描述

References

资源下载链接为: https://pan.quark.cn/s/9e7ef05254f8 在网页设计中,为图片添加文字是一种常见的需求,用于增强视觉效果或传达更多信息。本文将介绍两种常用的方法:一种是将图片设置为背景并添加文字;另一种是利用<span>标签结合CSS定位来实现。 这种方法通过CSS实现,将图片设置为一个容器(通常是<div>)的背景,然后在容器中添加文字。具体步骤如下: 创建一个包含文字的<div>元素: 使用CSS设置<div>的背景图片,并调整其尺寸以匹配图片大小: 如有需要,可使用background-position属性调整图片位置,确保文字显示在合适位置。这样,文字就会显示在图片之上。 另一种方法是将文字放在<span>标签内,并通过CSS绝对定位将其放置在图片上。步骤如下: 创建一个包含图片和<span>标签的<div>: 设置<div>为相对定位,以便内部元素可以相对于它进行绝对定位: 设置<span>为绝对定位,并通过调整top和left属性来确定文字在图片上的位置: 这种方法的优点是可以精确控制文字的位置,并且可以灵活调整文字的样式,如颜色和字体大小。 两种方法各有优势,可根据实际需求选择。在实际开发中,还可以结合JavaScript或jQuery动态添加文字,实现更复杂的交互效果。通过合理运用HTML和CSS,我们可以在图片上添加文字,创造出更具吸引力的视觉效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值