LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models

在这里插入图片描述

论文主要内容与创新点总结

一、主要内容
  1. 研究背景与问题
    强化学习(RL)是提升大语言模型(LLM)推理能力的关键技术,但数据效率低下是主要瓶颈。现有数据选择方法多针对监督微调(SFT),在RL场景下效果有限,且存在计算效率低的问题(如需要对完整数据集进行多轮训练)。

  2. 提出方法:LearnAlign

    • 基于改进的梯度对齐,通过估计数据点对模型训练的影响,智能选择具有高可学习性和代表性的推理数据。
    • 引入基于成功率(success rate)的数据可学习性指标 ( V(\xi) = p(1-p) ),解决梯度范数中响应长度偏差(response-length bias)的问题,避免模型偏向选择短序列数据。
    • 计算流程:通过热身训练(warmup training)估计梯度信息,结合梯度对齐分数与可学习性指标
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值