超长输出强化学习提升大语言模型推理能力

最新推荐文章于 2025-12-11 20:59:23 发布

原创最新推荐文章于 2025-12-11 20:59:23 发布 · 169 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #强化学习 #大语言模型 #推理能力 #程序那些事

UloRL：一种提升大语言模型推理能力的超长输出强化学习方法

摘要
近期大语言模型（LLMs）的发展表明，基于可验证奖励的强化学习（RLVR）能通过扩展输出序列增强推理能力。然而传统RL框架在处理超长输出时面临长尾序列分布和训练过程中的熵崩溃问题。为此，我们提出**超长输出强化学习（UloRL）**方法，具体包括：

将超长输出解码划分为短片段，通过缓解长尾样本导致的延迟实现高效训练
引入动态掩码技术处理已掌握的正向标记（MPTs）以防止熵崩溃

实验证明该方法显著提升性能：

在Qwen3-30B-A3B模型上，分段训练使训练速度提升2.06倍
处理128k标记输出时，模型在AIME2025的准确率从70.9%提升至85.1%，BeyondAIME从50.7%提升至61.9%，甚至超越Qwen3-235B-A22B模型

技术架构

分段滚动机制：将长序列分解为可管理的子段进行局部优化
动态掩码模块：实时识别并屏蔽高置信度标记，维持策略多样性
混合奖励设计：结合片段级即时奖励和序列级最终奖励

开源计划
相关代码和模型将向社区开放。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

codeshare1135

关注关注

6
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

DeepSeek-R1技术革命：用强化学习重塑大语言模型的推理能力

智能守恒_HengAI

02-09

3390

DeepSeek-R1的成功验证了算法创新比算力堆砌更重要的技术哲学。通过GRPO算法与规则奖励系统的精妙设计，团队用1%的成本实现了顶尖性能，这为开源社区提供了可复现的技术范本。随着更多研究者加入这场推理能力的进化竞赛，我们正在见证AGI发展路径的根本性转向——从依赖人类标注的被动学习，走向自主探索的智能涌现时代。

【DeepSeek论文精读】6. DeepSeek R1：通过强化学习激发大语言模型的推理能力

youcans的博客

02-03

9583

本文由 youcans@xidian 对论文 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 进行摘编和翻译。该论文版权属于原文期刊和作者，本译文只供研究学习使用。

参与评论您还未登录，请先登录后发表或查看评论

DeepSeek-R1：通过强化学习提升大型语言模型推理能力的探索

斯人若彩虹，遇上方知有！

02-04

2248

此外，通过模型蒸馏技术，研究者成功地将DeepSeek-R1的推理能力赋予了小型模型，使其在推理任务上的表现得到了显著提升。推理导向的强化学习：在冷启动数据的基础上，DeepSeek-R1采用了与DeepSeek-R1-Zero相同的强化学习训练过程，专注于提升模型在推理密集型任务中的表现。性能提升：在AIME 2024基准测试中，DeepSeek-R1-Zero的Pass@1分数从最初的15.6%提升至71.0%，经过多数投票后，分数进一步提升至86.7%，与OpenAI-o1-0912的性能相当。

DeepSeek-R1：通过强化学习激励大语言模型的推理能力

m0_56341622的博客

02-28

1176

近年来，大语言模型（LLMs）正在经历快速的迭代和进化，并正在逼近通用人工智能（AGI）。最近，后训练已成为完整训练流程中的一个重要组成部分。研究表明，它可以提高推理任务的准确性，与社会价值观保持对齐，并适应用户偏好，同时相较于预训练所需的计算资源相对较少。在推理能力方面，OpenAI 的 o1 系列模型通过增加思维链推理过程的长度，首次引入了推理时扩展的方法。这种方法在数学、编程和科学推理等多种推理任务中，取得了显著的进步。然而，有效的测试时扩展仍然是社区面临的一个未解问题。

DeepSeek-R1：通过强化学习激发大语言模型的推理能力

weixin_52610848的博客

02-24

1436

【重磅AI论文】DeepSeek-R1：通过强化学习激励大语言模型（LLMs）的推理能力

m0_66899341的博客

01-24

5954

本文提出了两种推理模型：DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个未经过监督微调（SFT）直接通过大规模强化学习训练的模型，展现了强大的推理能力。然而，它也面临可读性差和语言混杂等挑战。为了解决这些问题，DeepSeek-R1在强化学习之前融入了多阶段训练和冷启动数据，进一步提升了推理性能。

Logic-RL: 小模型也能强推理，通过基于规则的强化学习提升大语言模型结构化推理能力

deephub

02-26

4527

通过利用受控的逻辑谜题、精心设计的奖励系统和改进的REINFORCE++算法，研究人员已经使模型能够开发出基于规则的强化学习正在为可以进行深刻而透明推理的LLM铺平道路。通过利用受控的逻辑谜题、精心设计的奖励系统和改进的REINFORCE++算法，研究人员已经使模型能够开发出可转移到各种现实世界任务的高级推理策略。这种方法不仅提升了模型在原始训练任务上的表现，更重要的是培养了一种通用的推理能力，使模型能够在完全不同的领域展示出增强的问题解决能力。

强化学习真能提升大语言模型推理能力？研究发现可能并非如此！

AI生成曾小健3

04-28

930

在采样次数较少（k值较小）时，强化学习训练的模型表现优于基础模型，但在所有基准测试中，随着k值增大，基础模型始终超越它们，甚至能获得更高的pass@k分数。通过人工检查发现，基础模型可以通过生成多样化的推理路径来解决那些原本认为需要强化学习训练才能解决的问题，每个问题至少能找到一个正确的解决方案。这表明，与基础模型进行大量采样相比，强化学习训练并没有增强，甚至可能限制了大语言模型的推理潜力。

Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升

llm_way的博客

02-06

1490

1. 主要贡献论文提出了DeepSeek-R1(DeepSeek R1：开启 AI 推理新时代的开源先锋)和DeepSeek-R1-Zero两种新型模型，它们通过大规模强化学习方法提升推理能力，旨在减少对监督数据的依赖，并探索纯强化学习对推理能力的优化潜力。DeepSeek-R1-Zero特别引人注目，因为它是第一个完全通过强化学习训练，而无需任何监督微调数据的模型，且在推理基准测试上表现优异。2. 研究背景在深入探讨DeepSeek-R1之前，有必要了解当前大型语言模型推理能力的研究背景。

精选资源

大型语言模型推理能力增强：通过强化学习构建与开源DeepSeek-R1及其衍生小模型

01-30

内容概要：本文介绍了一个旨在提升大型语言模型（LLM）推理能力的研究项目——DeepSeek-R1系列模型。DeepSeek团队首先推出了纯基于大规模强化学习（RL）、不经过监督精调（SFT）训练的第一代无指导推理模型DeepSeek-...

DeepSeek-R1：通过强化学习激发大语言模型的推理能力.pdf

02-19

DeepSeek-R1项目是一项旨在通过强化学习...DeepSeek-R1项目展示了一种新的利用强化学习提升语言模型推理能力的方法，并通过开源的方式支持研究社区，为未来在推理能力提升方面的研究提供了新的工具和参考。

如何用AI处理音乐音频消除作品信息里的 AI 痕迹-程序员音乐人卓伊凡

一颗优雅草科技-央千澈的优快云博客~只想无穷无尽的学习~作息早8-晚8

12-11

615

如何用AI处理音乐音频消除作品信息里的 AI 痕迹-程序员音乐人卓伊凡

精品数据分享 | 锂电池数据集（七）同济大学电池数据集

最新发布

12-11

414

本期继续分享一篇Nature communicationTop论文公开锂离子电池数据，划重点-数据集开源，代码开源！！！

【论文速递】2025年第34周(Aug-17-23)(Robotics/Embodied AI/LLM)

淋曦的进击手记

12-07

1739

自我监督的学习有望消除对手动数据注释的需求，从而使模型能够毫不费力地扩展到大规模的数据集和较大的体系结构。通过不针对特定的任务或领域量身定制，这种训练范式有可能使用单个算法从不同的来源学习视觉表示形式，从自然到航空图像。该技术报告介绍了Dinov3，这是通过利用简单而有效的策略来实现这一愿景的主要里程碑。首先，我们利用仔细的数据准备，设计和优化来扩展数据集和模型大小的好处。其次，我们介绍了一种称为GRAM锚定的新方法，该方法有效地解决了长期训练时间表中已知但未解决的密集特征映射降解的问题。

宝马，如何建设一座AI汽车工厂？｜产业AI案例

chanyejiawang的博客

12-08

1122

AI汽车时代来袭

大模型的监督微调基础详解

AggressiveYu的博客

12-10

923

在预训练完毕之后，我们的模型已经成为了一个学习完所有知识的学生，但是他缺乏用适当的方式表达知识的能力，还是停留在续写文本的阶段，无法直接回答我们的问题，所以监督微调这个时候就出来了，这个指令微调的作用，就是让模型在预训练的基础上，通过特定的数据和训练，让模型能够更好的回答用户的问题。预训练一般包括三大要素，网络结构，损失函数，训练数据。指令微调和预训练的方式几乎没有区别，只是训练数据的不同。

获客软件VertGrow AI销冠助力全新私域获客策略

VertGrow的博客

12-08

562

在竞争激烈的市场中，获客软件VertGrow AI销冠成为企业实现主动获客的重要工具。VertGrow AI销冠凭借先进的AI技术，助力企业制定全新私域获客策略，通过精细化管理，提高客户转化率，实现高效获客。无论是小型创业公司还是大型企业，都能通过这一解决方案获得显著提升，开启高效的客户获取之旅。

AI大模型中的MCP协议核心设计原理

猫哥的沉淀、积累、总结。天天学习，好好向上...c/c++,嵌入式 linux,Android,HarmonyOS，AIOT)

12-07

969

MCP协议是Anthropic提出的标准化AI模型与外部工具交互的通信协议。文章从核心设计、路由机制、安全控制三方面解析MCP：采用JSON-RPC 2.0增强实现，支持多种通信模式；通过动态注册表和智能路由策略实现分布式调度；设计安全沙箱保障执行安全。企业案例显示其延迟<120ms、可用性达99.995%。MCP显著提升工具接入效率，降低40%+资源消耗，推动AI工具生态发展。

创始人IP与AI融合：重构信任与引领变革

ckjrxdn的博客

12-08

232

通过个人品牌的塑造，企业能够增强与用户之间的情感连接，提升认同感。举办此次峰会，是希望帮助更多中小企业家认识到技术趋势与品牌建设的重要性，从而更好地把握未来发展机遇。另一方面，人工智能能够全面提升企业在内容创作、客户转化等环节的效率，助力构建可持续的商业系统。活动汇聚了来自全球的创始人、行业专家及媒体代表，共同探讨在人工智能与个人品牌价值并重的时代背景下，企业如何应对挑战、实现持续发展。本次峰会还设置了多场主题分享与圆桌对话，聚焦人工智能的应用前景与未来商业趋势，为参会者提供了交流与合作的平台。

DeepSeek-R1：通过强化学习提升大模型推理能力

总体而言，DeepSeek-R1系列标志着强化学习驱动的语言模型推理能力迈入新阶段，展示了无需依赖大量人工标注即可培养出接近人类水平推理系统的可行性。它推动了从‘感知智能’向‘认知智能’演进的关键一步，尤其在...