LLM RL
文章平均质量分 85
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Earl: Efficient Agentic Reinforcement Learning Systems for Large Language Models
智能体强化学习(Agentic RL)是大模型(LLM)后训练的关键技术,能通过多轮交互和工具使用提升模型推理、决策能力,但训练中存在两大瓶颈。上下文长度爆炸:多轮交互使上下文长度快速增长,导致内存占用激增(如Llama-3.1-70B模型在8192上下文长度下需354GB显存),易触发内存溢出(OOM),现有“硬限制+长度惩罚”方案会制约模型性能。原创 2025-11-15 08:30:00 · 129 阅读 · 0 评论 -
TROLL: TRUST REGIONS IMPROVE REINFORCEMENT LEARNING FOR LARGE LANGUAGE MODELS
本文针对大语言模型(LLMs)基于奖励的强化学习(RL)微调中,PPO类算法依赖“裁剪(Clipping)”机制导致更新不稳定、性能欠佳的问题,提出了名为的优化方法。其核心是用“离散可微信任域投影”替代传统裁剪,通过token级KL散度约束确保新旧策略的接近性,同时结合稀疏化方案解决大词汇量(超10万token)带来的计算与内存开销问题。原创 2025-10-30 08:30:00 · 130 阅读 · 0 评论 -
Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models
研究背景大型推理模型(LRMs)在复杂任务中表现出色,但存在“过度思考”问题,生成冗长内容,增加计算成本且可能引入更多错误。现有基于强化学习(RL)的解决方案多通过惩罚token数量来追求简洁,但存在两大问题:token少不代表推理步骤少;训练后期模型可能为减少token而省略推理步骤,出现“作弊”行为。核心方法:Step Pruner(SP)框架步骤感知奖励函数:优先考虑推理正确性,对冗余推理步骤进行惩罚,同时对错误响应不给予奖励,避免错误推理被强化。动态停止机制。原创 2025-10-28 08:30:00 · 128 阅读 · 0 评论 -
QERL: BEYOND EFFICIENCY – QUANTIZATIONENHANCED REINFORCEMENT LEARNING FOR LLMS
资源消耗极高(需多模型并行运行,GPU内存占用大)、训练速度慢(尤其是rollout阶段,需处理长序列采样)。现有解决方案存在局限:LoRA虽减少可训练参数,但未解决rollout速度瓶颈;FlashRL用量化模型加速rollout,却因精度不匹配需同时运行多精度模型,增加内存负担;QLoRA(NF4量化)则因格式特性使rollout速度降低1.5-2倍。本文提出QeRL(量化增强强化学习框架),用于大语言模型(LLMs)的训练。原创 2025-10-26 08:30:00 · 49 阅读 · 0 评论 -
Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation
本文聚焦大语言模型(LLMs)在无标签场景下的自主进化问题,针对现有无标签方法(如置信度最小化、自一致性、多数投票目标)易导致“熵坍缩”(生成内容更短、多样性降低、鲁棒性差)的缺陷,提出了EVOL-RL(Evolution-Oriented and Label-free Reinforcement Learning,面向进化的无标签强化学习)框架大型语言模型(LLMs)越来越多地通过带可验证奖励的强化学习(RLVR)进行训练,但现实世界部署要求模型在无标签或无外部评判的情况下实现自改进。原创 2025-09-29 11:30:00 · 292 阅读 · 0 评论 -
A Survey of Reinforcement Learning for Large Reasoning Models
本文综述了强化学习(RL)在大型语言模型(LLMs)推理能力提升中的最新进展。RL在拓展LLM能力边界方面取得了显著成功,尤其在解决数学、编码等复杂逻辑任务中表现突出,已成为将LLMs转化为大型推理模型(LRMs)的基础方法。随着该领域的快速发展,RL在LRMs中的规模化应用目前不仅面临计算资源的基础挑战,还受制于算法设计、训练数据与基础设施等多重限制。鉴于此,当前亟需回顾该领域的发展历程、重新评估其演进轨迹,并探索提升RL可扩展性以迈向通用人工智能(ASI)的策略。原创 2025-09-22 09:30:00 · 254 阅读 · 0 评论 -
Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing
去中心化架构:打破传统分布式RL的中心化协调模式,允许异构节点自主管理模型与数据,支持节点"孤立运行",彻底规避同步开销与通信瓶颈。轻量经验共享机制:通过共享解码后的文本轨迹而非模型权重,实现跨节点经验传递,使"顿悟时刻(Aha moments)"在集群中传播,加速整体学习进程,且兼容不同模型架构与硬件。灵活采样策略:节点可自主过滤无价值轨迹(如零优势样本)并平衡本地与外部数据比例,兼顾个性化训练需求与集体经验增益。泛化性与扩展性:不依赖数据模态,可扩展至多模态场景;原创 2025-09-22 08:30:00 · 160 阅读 · 0 评论 -
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
本文针对视觉语言模型(VLMs)中视觉令牌数量激增导致的效率问题,提出了一种名为的新范式。研究发现,大多数通用视觉问答(VQA)任务仅需1/4分辨率的图像即可保持性能,而OCR相关等精细任务则依赖高分辨率输入。动态分辨率调整:先处理低分辨率图像,若信息不足则输出特殊令牌请求高分辨率图像。强化学习优化:采用LLM-as-Judge策略解决通用VQA的评估难题,并扩展多轮GRPO算法适应多轮交互。奖励机制设计:结合准确率奖励、格式奖励和惩罚控制,稳定图像缩放请求比例,避免模型坍缩。原创 2025-09-07 09:30:00 · 226 阅读 · 0 评论 -
Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
本文由OPPO AI Agent团队提出Chain-of-Agents(CoA,智能体链)新范式,旨在解决现有多智能体系统(MAS)和工具集成推理(TIR)模型的局限性,实现单模型内端到端的复杂问题解决。近年来,大型语言模型(LLM)和多智能体系统在深度研究、代码生成、数学推理等复杂问题解决任务中展现出卓越能力。然而,现有多智能体系统大多依赖人工提示/工作流设计与复杂的智能体框架构建,导致计算效率低下、能力有限,且无法从数据驱动学习中获益。本文提出Chain-of-Agents(CoA,智能体链)原创 2025-09-03 09:30:00 · 182 阅读 · 0 评论 -
AGENTIC REINFORCED POLICY OPTIMIZATION
本文针对基于大型语言模型(LLMs)的多轮智能体训练,提出了一种新的智能体强化学习算法——。现有强化学习(RL)算法在平衡LLMs的长程推理能力和多轮工具交互能力方面存在不足。作者通过实验发现,LLMs在与外部工具交互后,生成token的熵值会显著增加(表现出高度不确定性),而现有轨迹级RL算法往往忽视这种步骤级的不确定性,导致工具使用行为的探索不充分。为此,ARPO引入了基于熵的自适应rollout机制,动态平衡全局轨迹采样和步骤级采样,在工具使用后的高不确定性步骤中促进多样化探索;同时,通过。原创 2025-08-30 09:30:00 · 201 阅读 · 0 评论 -
GUI-G2: GAUSSIAN REWARD MODELING FOR GUI GROUNDING
图形用户界面(GUI)定位将自然语言指令映射到精确的界面位置,以实现自主交互。当前强化学习方法使用二进制奖励,将元素视为“命中或未命中”的目标,产生的稀疏信号忽略了空间交互的连续性。受人类点击行为(在目标元素中心周围自然形成高斯分布)的启发,我们提出了GUI高斯定位奖励(GUI-G²)——一个原则性的奖励框架,将GUI元素建模为界面平面上的连续高斯分布。GUI-G²包含两种协同机制:高斯点奖励通过以元素质心为中心的指数衰减分布建模精确的定位;覆盖奖励通过测量预测高斯分布与目标区域的重叠度评估空间对齐。原创 2025-08-31 08:30:00 · 155 阅读 · 0 评论 -
Group Sequence Policy Optimization
本文提出了一种名为的强化学习算法,用于训练大型语言模型(LLMs)。该算法针对现有强化学习算法(如GRPO)在训练大型语言模型时存在的稳定性问题(如模型崩溃),通过重新设计重要性比率的定义和优化目标,实现了更稳定、高效且性能更优的训练。实验表明,GSPO在训练效率、性能上显著优于GRPO,能稳定混合专家(MoE)模型的强化学习训练,并有望简化强化学习基础设施设计,其优势已助力最新Qwen3模型的性能提升。本文介绍了组序列策略优化(GSPO),这是一种用于训练大型语言模型的稳定、高效且性能优异的强化学习算法。原创 2025-08-30 08:30:00 · 418 阅读 · 0 评论 -
R-Zero: Self-Evolving Reasoning LLM from Zero Data
本文提出了一种名为R-Zero的完全自主自进化框架,旨在解决现有自进化大语言模型(LLMs)依赖大量人类标注任务和标签的局限。挑战者通过Group Relative Policy Optimization(GRPO)算法训练,生成接近求解者能力边缘的任务,其奖励信号基于求解者对任务的不确定性(通过多次回答的自我一致性衡量);求解者同样通过GRPO算法优化,基于多数投票产生的伪标签解决挑战者生成的任务;两者通过迭代循环协同进化,形成自我改进的学习课程,无需任何人类干预。原创 2025-08-27 08:30:00 · 144 阅读 · 0 评论 -
Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model
本文针对大型语言模型(LLMs)的强化微调(RFT)中存在的计算效率问题展开研究。现有RFT方法多基于在线策略(on-policy)强化学习(如PPO、GRPO),无法充分利用训练过程中生成的历史数据,导致计算成本高、训练效率低。为此,作者提出了一种名为的通用方法,通过整合离线策略(off-policy)数据,提升RFT的效率,同时保持模型性能。原创 2025-08-22 09:30:00 · 165 阅读 · 0 评论 -
MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs
近年来,大型语言模型(LLMs)推理能力的研究进展表明,采用群体相对策略优化(GRPO)算法进行强化学习(RL)训练,能让模型使用更多的思考/推理token生成更优响应。然而,LLMs在维持对先前生成token的注意力时,所能生成的token数量是有限的。这一限制(即LLM的上下文长度)是其在处理任意多token推理任务时的瓶颈。为了突破上下文长度的限制,LLM必须采用模块化思维策略进行多轮推理。原创 2025-08-04 16:00:00 · 448 阅读 · 0 评论 -
AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training
本文提出了AsyncFlow,一种异步流式强化学习(RL)框架,旨在解决大型语言模型(LLM)后训练过程中的效率和可扩展性问题。现有RL后训练框架分为任务合并型(如DeepSpeed-Chat)和任务分离型(如OpenRLHF),但存在资源闲置、负载不平衡、与特定训练/推理引擎耦合等缺陷。分布式数据存储与传输模块(TransferQueue):实现细粒度数据流调度,支持任务间自动流水线重叠和动态负载均衡,无需预定义数据依赖链。生产者-消费者异步工作流。原创 2025-08-03 09:30:00 · 204 阅读 · 0 评论 -
MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent
尽管在长度外推、高效注意力和记忆模块方面已有改进,但以线性复杂度处理无限长文档且在外推过程中不出现性能退化,仍是长文本处理中的终极挑战。我们以端到端方式直接优化长文本任务,提出了一种新颖的代理工作流MemAgent,它以分段方式读取文本,并使用覆盖策略更新记忆。我们扩展了DAPO算法,通过独立上下文多对话生成促进训练。MemAgent已展示出卓越的长上下文能力,能够从8K上下文(在32K文本上训练)外推到350万token的QA任务,性能损失<5%,并在512K的RULER测试中达到95%以上的准确率。原创 2025-07-24 08:30:00 · 197 阅读 · 0 评论 -
GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS
大型语言模型(LLMs)的对齐严重依赖于在昂贵人类偏好数据上训练的奖励模型。尽管近期研究探索通过AI反馈绕过这一成本,但这些方法往往缺乏严谨的理论基础。本文发现,一种强大的通用奖励模型已潜在存在于任何通过标准下一个token预测训练的LLM中。我们证明,这种内生奖励并非启发式方法,而是理论上等价于通过离线逆强化学习学到的奖励函数。这一关联使我们能够直接从基础(预训练或有监督微调)模型中提取高质量奖励信号,无需任何额外训练。原创 2025-07-12 08:30:00 · 63 阅读 · 0 评论 -
Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning
本文针对大型语言模型(LLMs)在具身任务规划中存在的不足,提出了一种基于强化学习的框架Embodied Planner-R1,旨在通过自主探索提升LLMs的交互式规划能力。现有方法依赖静态知识生成开环动作脚本,难以学习动作与环境反馈的因果关系,尤其在部分可观测环境中表现不佳。群体滚动(Group Rollout):无需人类标注,通过并行探索实现环境内交互,高效积累多样化的交互轨迹;完成驱动的稀疏奖励:仅基于任务是否完成给予奖励(完成得1分,未完成得0分),避免奖励欺骗,鼓励自主探索;原创 2025-07-10 09:30:00 · 110 阅读 · 0 评论 -
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning
研究背景与目标大语言模型(LLMs)在复杂任务中仍存在局限性,传统微调方法依赖大量标注数据或合成数据,但在数据稀缺时难以应用。本文提出通过自我反思(Self-Reflection)和强化学习(Reinforcement Learning, RL)结合的框架,让模型通过反思失败案例提升任务表现,且仅需二进制反馈(成功/失败)。方法框架:Reflect, Retry, Reward阶段一:失败反思:模型首次任务失败后,生成自我反思文本,分析错误原因。阶段二:重试与奖励:基于反思文本重试任务,若成功则通过。原创 2025-07-07 09:30:00 · 223 阅读 · 0 评论 -
TreeRL: LLM Reinforcement Learning with On-Policy Tree Search
本文提出了TreeRL,这是一种将在线树搜索与强化学习(RL)相结合的框架,旨在提升大型语言模型(LLM)的复杂推理能力。传统RL方法通常采用独立链采样并依赖最终结果监督,而TreeRL通过熵引导的树搜索策略EPTree,在相同推理预算下生成更多样化的响应,并利用树结构提供细粒度的过程监督信号,避免了单独训练奖励模型的需求。实验表明,TreeRL在数学和代码推理基准上显著优于传统的ChainRL方法,验证了树搜索在LLM强化学习中的潜力。带树搜索的强化学习(RL)在传统推理任务中已展现出卓越性能。原创 2025-07-05 09:30:00 · 168 阅读 · 0 评论 -
LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models
一、主要内容研究背景与问题强化学习(RL)是提升大语言模型(LLM)推理能力的关键技术,但数据效率低下是主要瓶颈。现有数据选择方法多针对监督微调(SFT),在RL场景下效果有限,且存在计算效率低的问题(如需要对完整数据集进行多轮训练)。提出方法:LearnAlign基于改进的梯度对齐,通过估计数据点对模型训练的影响,智能选择具有高可学习性和代表性的推理数据。原创 2025-06-27 08:30:00 · 172 阅读 · 0 评论 -
MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
带可验证奖励的强化学习(RLVR)最近成为大型语言模型(LLMs)训练后的强大范式,在具有结构化、可验证答案的任务上实现了最先进的性能。将RLVR应用于多模态LLMs(MLLMs)带来了重大机遇,但视觉-语言任务的广泛性和异质性使其复杂化,这些任务需要细致的视觉、逻辑和空间能力。因此,使用RLVR在多个数据集上训练MLLMs可能是有益的,但不同数据集之间的交互会产生目标冲突,这凸显了需要最优数据集混合策略来提高泛化和推理能力。原创 2025-06-13 08:30:00 · 187 阅读 · 0 评论 -
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
结合上述分析,我们得出三个关键观察结果。首先,RLVR模型解决的问题基础模型也可以解决;观察到的平均分数改进源于这些已解决问题的更高效采样,而不是学习解决新问题。其次,RLVR训练后,模型的推理覆盖范围通常比其基础模型更窄。第三,RLVR模型利用的所有推理路径已经存在于基础模型的采样分布中。这些发现表明,RLVR并没有引入根本上新的推理能力,训练模型的推理能力仍然受其基础模型的限制。原创 2025-05-29 11:04:59 · 431 阅读 · 0 评论 -
A Large Language Model-Enhanced Q-learning for Capacitated Vehicle Routing Problem with Time Windows
带时间窗的容量限制车辆路径问题(CVRPTW)是经典的NP难组合优化问题,广泛应用于物流配送和运输管理。其复杂性源于车辆容量和时间窗约束,给传统方法带来巨大挑战。大语言模型(LLMs)的发展为寻找CVRPTW的近似解提供了新可能。本文提出一种新颖的LLM增强Q学习框架,以解决具有实时紧急约束的CVRPTW。我们的方案引入自适应两阶段训练机制,从LLM引导的探索阶段过渡到Q网络的自主优化阶段。为确保可靠性,我们基于思维链(CoT)为LLMs设计了三层自校正机制:语法验证、语义验证和物理约束执行。原创 2025-05-23 11:07:09 · 100 阅读 · 0 评论 -
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
本文提出了首个基于统一多模态思维链(CoT)的奖励模型UNIFIEDREWARD-THINK,旨在通过显式长链推理提升多模态奖励模型的可靠性和鲁棒性。冷启动阶段:使用少量图像生成偏好数据蒸馏GPT-4o的推理过程,使模型学习CoT推理的格式和结构。拒绝采样阶段:利用大规模统一多模态偏好数据激发模型在各类视觉任务中的推理能力,保留正确推理样本以强化准确模式。组相对策略优化(GRPO)阶段:对错误预测样本进行基于GRPO的强化微调,推动模型探索多样化推理路径,优化推理准确性。原创 2025-05-21 08:30:00 · 1018 阅读 · 0 评论 -
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
本文提出了一种名为的强化学习新范式,旨在解决现有强化学习方法依赖人工标注数据的问题。核心是让模型通过自我博弈(self-play)自主生成任务并解决,无需任何外部数据。核心框架:Absolute Zero推理器(AZR)模型同时担任**任务提议者(proposer)和问题解决者(solver)**双重角色。提议者生成三种类型的编程任务(演绎、归纳、溯因),对应不同推理模式,并通过代码执行器验证任务有效性和答案正确性,提供可验证的奖励信号。原创 2025-05-17 09:30:00 · 172 阅读 · 0 评论 -
TTRL: Test-Time Reinforcement Learning
原创 2025-05-16 08:30:00 · 233 阅读 · 0 评论 -
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
原创 2025-05-13 09:30:00 · 595 阅读 · 0 评论 -
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
原创 2025-05-11 09:30:00 · 182 阅读 · 0 评论 -
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
原创 2025-05-09 09:30:00 · 274 阅读 · 0 评论 -
Inference-Time Scaling for Generalist Reward Modeling
强化学习(RL)已大规模应用于大语言模型(LLMs)的后训练。最近,通过RL激励LLMs的推理能力表明,合适的学习方法可以实现有效的推理时可扩展性。RL的一个关键挑战是为LLMs在各种领域(超出可验证问题或人工规则)中获得准确的奖励信号。在这项工作中,我们研究如何通过更多的推理计算来改进通用查询的奖励建模(RM),即通用RM的推理时可扩展性,以及如何通过合适的学习方法提高性能 - 计算缩放的有效性。对于RM方法,我们采用点向生成式奖励建模(GRM),以实现对不同输入类型的灵活性和推理时缩放的潜力。原创 2025-05-07 09:30:00 · 358 阅读 · 0 评论 -
Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
我们介绍Open-Reasoner-Zero(ORZ),这是首个聚焦可扩展性、简单性和可访问性的大规模推理导向强化学习(RL)训练的开源实现。通过大量实验,我们证明了一种极简方法——使用广义优势估计(GAE,λ=1,γ=1)的朴素近端策略优化(PPO)算法,结合简单的基于规则的奖励函数(无需任何KL正则化)——足以扩展响应长度和基准性能,这与DeepSeek-R1-Zero中观察到的现象类似。原创 2025-04-14 08:30:00 · 393 阅读 · 0 评论 -
WHEN DEBATE FAILS: BIAS REINFORCEMENT IN LARGE LANGUAGE MODELS
本文研究了大型语言模型(LLMs)在战略决策任务中存在的偏见强化问题,指出传统自我修正方法(如自我一致性和自我精炼)及多智能体辩论(MAD)的局限性。偏见强化现象:LLMs在辩论中倾向于放大固有偏见而非纠正错误,导致次优决策。视角单一性:现有MAD框架依赖同一模型的多个实例,缺乏真正的视角多样性。MetaNIM Arena基准:设计了一个基于组合博弈论的严格评估环境,用于量化LLMs的战略推理能力。DReaMAD框架。原创 2025-04-10 09:30:00 · 163 阅读 · 0 评论 -
Visual-RFT: Visual Reinforcement Fine-Tuning
强化微调(RFT)在像OpenAI o1这样的大型推理模型中,通过对答案的反馈进行学习,这在微调数据稀缺的应用中尤为有用。最近的开源工作如DeepSeek R1表明,使用可验证奖励的强化学习是复现o1的一个关键方向。虽然R1风格的模型在语言模型中取得了成功,但其在多模态领域的应用仍未得到充分探索。本文引入了视觉强化微调(Visual-RFT),进一步扩展了RFT在视觉任务上的应用领域。原创 2025-03-15 08:30:00 · 362 阅读 · 0 评论 -
Self-rewarding correction for mathematical reasoning
我们研究了具有自奖励推理能力的大语言模型(LLMs),这类模型能够在推理时,在没有外部反馈的情况下,逐步生成推理过程,并评估输出的正确性。这种一体化的方法,使单个模型能够独立地引导其推理过程,为模型部署带来了计算优势。我们特别关注自我修正这一具有代表性的任务,在这个任务中,模型能够自主检测其回答中的错误、修改输出,并决定何时终止迭代优化循环。为了实现这一目标,我们提出了一种两阶段算法框架,仅使用模型自身生成的数据,构建具有自奖励推理能力的模型。原创 2025-03-12 11:00:00 · 183 阅读 · 0 评论 -
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
最近DeepSeek-R1的发布展示了强化学习(RL)在提升大语言模型(LLMs)通用推理能力方面的巨大潜力。虽然DeepSeek-R1及后续工作主要聚焦于将RL应用于竞赛编程和数学问题,但本文介绍了SWE-RL,这是第一种将基于RL的LLM推理扩展到实际软件工程中的方法。原创 2025-03-12 09:30:00 · 247 阅读 · 0 评论 -
The Differences Between Direct Alignment Algorithms are a Blur
直接对齐算法(DAAs)通过用直接策略优化取代人类反馈强化学习(RLHF)中的强化学习(RL)和奖励建模(RM)来简化语言模型对齐。DAA可以根据其排名损失(成对与逐点)、这些损失中使用的奖励(例如,政策和参考政策的似然比或比值比)或是否需要监督微调(SFT)阶段(两阶段与一阶段)进行分类。我们首先证明了单阶段方法不如两阶段方法。为了解决这个问题,我们引入了一个显式的SFT阶段,并在单级ORPO和ASFT中引入了控制偏好优化强度的β参数。原创 2025-02-19 10:00:00 · 375 阅读 · 0 评论 -
Online Preference-based Reinforcement Learning with Self-augmented Feedback from LLM
基于偏好的强化学习(PbRL)提供了一种强大的范式,通过学习基于人类偏好的奖励来避免细致的奖励工程。然而,在在线任务中很难获得实时的人工反馈。大多数工作都假设有一个“脚本式教师”,利用特权预定义的奖励来提供偏好反馈。在这篇论文中,我们提出了一种RL自增强大语言模型反馈(RL-SaLLM-F)技术,该技术不依赖于在线PbRL的特权信息。RL-SaLLM-F利用LLM的反射和辨别能力来生成自增强轨迹,并为奖励学习提供偏好标签。原创 2025-02-04 09:00:00 · 211 阅读 · 0 评论 -
Reinforcement Learning Enhanced LLMs: A Survey
本文调查了通过强化学习(RL)增强大型语言模型(LLM)这一快速增长领域的研究,强化学习是一种技术,它使LLM能够通过根据其输出质量以奖励形式接收反馈来提高其性能,从而使其能够生成更准确、连贯和符合上下文的响应。在这项工作中,我们对RLenhanced LLM的最新知识状态进行了系统回顾,试图巩固和分析该领域快速增长的研究,帮助研究人员了解当前的挑战和进展。具体来说,我们(1)详细介绍了强化学习的基础知识;(2) 引入流行的强化学习LLM;原创 2025-01-25 09:15:00 · 340 阅读 · 0 评论
分享