清华等机构提出:一种用于促进LLM多步骤推理的离线RL方法·OREO

随着o1的问世以及在test-time compute趋势下,在提高大型语言模型(LLM)的多步骤推理能力方面,其中通过离线强化学习(offline-RL)方法作为其中一种技术方法甚至形成范式正变得至关重要,这有助于模型快速适应并通过构建全局探索与利用机制匹配复杂任务。

尽管直接偏好优化(DPO)在使LLM与人类偏好一致方面显示出潜力,但它在“多步骤”推理任务的泛化分布以及稀疏奖励反馈上存在着天然的局限性,因为:

(1) DPO依赖于配对偏好数据,而这种数据在多步骤推理任务中并不容易获得;

(2) 它在奖励反馈所主导的策略或价值网络或显或隐式函数过程中对所有过程性步骤或即标记一视同仁,导致在多步骤推理任务中信用分配效果不佳,这些任务通常伴随着稀疏的奖励。

针对于此,清华大学,UC San Diego,Salesforce Research及Northwestern University等研究者近期提出Offline Reinforcement Learning for LLM Multi-Step Reasoning,OREO一种用于促进LLM多步骤推理的离线RL方法,借鉴先前关于最大熵强化学习的研究成果,通过优化软Bellman方程来联合学习策略模型和价值函数,证明了这种方法减少了收集成对数据的需求,并实现了更好的奖励信号分配。

3a5208f2bd834b289132e3d79a693e24.jpg

 

实验证明,OREO在数学推理任务(GSM8K、MATH)和具身智能代理控制(ALFWorld)等多步骤推理基准测试中超越了现有的离线学习方法。当有额外资源时,该方法可以扩展到多迭代框架。此外,学习到的价值函数可以用来指导树搜索,从而进一步提高性能。

我想:OREO通过这种借鉴软soft Q-Learning的思想,其通过优化为soft bellman方程以最大化目标通过引入熵项来鼓励探索并提高学习策略的鲁棒性,从而在步骤级过程中凸现显式价值函数的作用以及和LLM策略合并,并针对稀疏的过程奖励实现推理步骤之间的精细奖励分配这种优化方向为未来深入RL领域持续优化打开了理论探索的又一扇门,也意味着在未来RL领域中其策略与价值网络之间的平衡与统一将有很多可深挖探索的潜在空间与可能。

 

5d1601cbd31d4f0a9af95cd804e9c535.jpg

7213838b9c024e1baa5e0e3dc1feb5c2.jpg 

de300ebbd34e462281b8955751d44204.jpg 

ac610c10ce4c4b70950de04e9e27be12.jpg 

33fcfabc9ae24e8cbb20d2a2171ac33b.jpg 

ad911c8ed8cb4585b2bcb0b1c4856017.jpg 

2702e90a03ce40e3a56001142ec44425.jpg 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值