
一、文章主要内容总结
本文针对大语言模型(LLMs)基于奖励的强化学习(RL)微调中,PPO类算法依赖“裁剪(Clipping)”机制导致更新不稳定、性能欠佳的问题,提出了名为TROLL(Trust Region Optimization for Large Language Models) 的优化方法。其核心是用“离散可微信任域投影”替代传统裁剪,通过token级KL散度约束确保新旧策略的接近性,同时结合稀疏化方案解决大词汇量(超10万token)带来的计算与内存开销问题。
在实验验证中,TROLL在多类模型(Qwen3、Qwen2.5、LLaMA 3等)、多数据集(DAPO-Math、GSM8K、Eurus-2-RL-Math等)及多优势估计方法(GRPO、Dr.GRPO、PPO、GSPO)上均表现更优,具体体现在训练速度提升、稳定性增强,最终成功率平均提高3%-10%,且推理阶段无额外开销。
二、文章核心创新点
- 替代裁剪的信任域投影:摒弃PPO的启发式裁剪,提出基于token级KL约束的离散可微信任域投影,通过凸优化问题求解,确保新策略在旧策略的信任域内更新,避免策略偏移或崩溃。
- 适配大词汇量的稀疏化方案:利用LLM token预测“高概率token少、低概率token多”的特性,仅保留5-

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



