TROLL: TRUST REGIONS IMPROVE REINFORCEMENT LEARNING FOR LARGE LANGUAGE MODELS

在这里插入图片描述

一、文章主要内容总结

本文针对大语言模型(LLMs)基于奖励的强化学习(RL)微调中,PPO类算法依赖“裁剪(Clipping)”机制导致更新不稳定、性能欠佳的问题,提出了名为TROLL(Trust Region Optimization for Large Language Models) 的优化方法。其核心是用“离散可微信任域投影”替代传统裁剪,通过token级KL散度约束确保新旧策略的接近性,同时结合稀疏化方案解决大词汇量(超10万token)带来的计算与内存开销问题。

在实验验证中,TROLL在多类模型(Qwen3、Qwen2.5、LLaMA 3等)、多数据集(DAPO-Math、GSM8K、Eurus-2-RL-Math等)及多优势估计方法(GRPO、Dr.GRPO、PPO、GSPO)上均表现更优,具体体现在训练速度提升、稳定性增强,最终成功率平均提高3%-10%,且推理阶段无额外开销。

二、文章核心创新点

  1. 替代裁剪的信任域投影:摒弃PPO的启发式裁剪,提出基于token级KL约束的离散可微信任域投影,通过凸优化问题求解,确保新策略在旧策略的信任域内更新,避免策略偏移或崩溃。
  2. 适配大词汇量的稀疏化方案:利用LLM token预测“高概率token少、低概率token多”的特性,仅保留5-
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值