强化学习
文章平均质量分 95
RL强化学习
山顶夕景
互联网大厂AI算法工程师。实践出真知。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【RL】Scaling RL Compute for LLMs | JustRL 1.5b
ScaleRL配方中包含了哪些关键技术选择?这些选择是如何影响渐近性能和计算效率的?异步Pipeline-RL设置:提高训练稳定性和效率。强制长度中断:防止推理输出长度爆炸,提高训练稳定性。截断的重要性采样RL损失(CISPO):提高渐近性能。提示级损失平均:优化损失聚合方式,提高计算效率。批次级优势归一化:提高计算效率。FP32精度在logits:减少数值不匹配,提高渐近性能。零方差过滤:排除贡献为零的提示,提高计算效率。无正原创 2025-11-02 22:52:41 · 939 阅读 · 0 评论
-
【LLM-RL】GRPO->DAPO->GSPO训练区别
GRPO的创新与局限:GRPO简化了PPO,主要变化✅ 用规则函数替代奖励模型✅ 取消了价值模型✅ 优势函数改为输出序列奖励值的标准化但GRPO存在三大问题:序列级奖励与token级动作粒度不匹配重要性采样方差偏移累积MOE模型上训练不稳定DAPO的四大改进移除KL散度约束非对称裁剪(Clip-Higher)动态采样策略token级别的梯度计算GSPO的核心思想:针对MOE模型的特殊性,GSPO将动作粒度提升到序列级别使用序列重要性采样的几何平均减少单个token方差影响更适原创 2025-10-04 17:13:21 · 1098 阅读 · 0 评论
-
【LLM】deepseek R1之SFT和GRPO训练笔记
相关框架对比: - 需微调模型且资源有限 → Unsloth; - 本地隐私优先的小规模推理 → Ollama; - 复杂逻辑或多模态任务 → SGLang; - 高并发生产环境 → vLLM- 微调SFT和GRPO是确实能学到新知识的- 四种格式(``messages``、`sharegpt`、`alpaca`、`query-response`)在AutoPreprocessor处理下都会转换成ms-swift标准格式中的`messages`字段,即都可以直接使用`--dataset <dat原创 2025-05-04 22:50:34 · 4323 阅读 · 1 评论
-
【LLM-RL】强化对齐之GRPO算法和微调实践
论文:DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels(https://arxiv.org/pdf/2402.03300)GRPO在DeepSeekV2中采用了,GRPO在训练过程中,不需要ValueModel,因此也能够减少RL训练过程中的资源消耗。原创 2025-01-19 13:54:18 · 4262 阅读 · 0 评论
-
【LLM】大模型之RLHF和替代方法(DPO、RAILF、ReST等)
SFT使用交叉熵损失函数,目标是调整参数使模型输出与标准答案一致,不能从整体把控output质量,RLHF(分为奖励模型训练、近端策略优化两个步骤)则是将output作为一个整体考虑,优化目标是使模型生成高质量回复。启发1:像可以用6b、66b依次得到差一点、好一点的target构造排序数据集,进行DPO直接偏好学习或者其他RLHF替代方法(RAILF、ReST等),比直接RLHF更方便训练启发2:为了减少幻觉(如拒绝回答),可以构造排序数据集(如good response为拒绝话术,bad respo原创 2023-12-11 22:36:10 · 11840 阅读 · 1 评论
-
【LLM】使用DSA和改进GRPO的DeepSeek-V3.2模型
DSA 训练的两个阶段阶段一:Dense Warm-up先冻住主模型,只训练 Lightning Indexer训练目标是让 Indexer 的输出分布对齐主注意力的分布只训练了 1000 步,共 2.1B tokens阶段二:Sparse Training放开所有参数,让模型适应稀疏注意力模式继续用 KL 散度对齐 Indexer 和主注意力训练了 15000 步,共 943.7B tokens2、后训练第一步:专家蒸馏(Specialist Distillation)为每个任务原创 2025-12-07 00:50:43 · 608 阅读 · 0 评论 -
【LLM】Agentic RL入门和落地坑点
强化学习(Reinforcement Learning, RL)是一种专注于解决序贯决策问题的学习范式,它通过智能体与环境的直接交互,在"试错"中学习如何最大化长期收益。传统的监督学习方法存在三个核心局限:一是数据质量完全决定训练质量,模型只能模仿训练数据,难以超越;二是缺乏探索能力,只能被动学习人类提供的路径;三是难以优化长期目标,无法精确优化多步推理的中间过程。强化学习提供了新的可能性。通过让智能体自主生成多个候选答案并根据正确性获得奖励,它可以学习哪些推理路径更优、哪些步骤是关键,甚至发现比人类标原创 2025-11-30 16:05:49 · 931 阅读 · 0 评论 -
【LLM】DeepSeekMath-V2模型
研究问题:这篇文章要解决的问题是如何在大型语言模型(LLMs)中进行自我验证的数学推理。具体来说,现有的基于最终答案奖励的强化学习方法在数学推理中存在根本局限性,因为正确答案并不能保证推理的正确性,特别是在定理证明任务中。研究难点:该问题的研究难点包括:如何在不依赖最终答案的情况下验证推理的正确性;如何在生成和验证之间建立有效的迭代改进循环;如何在没有已知解决方案的开放问题上扩展测试时计算。相关工作:该问题的研究相关工作有:OpenAI的推理模型在定量推理竞赛中取得了显著进展;DeepMind的Deep原创 2025-11-29 08:57:12 · 1697 阅读 · 0 评论 -
【RL】Does RLVR enable LLMs to self-improve?
论文:Does RLVR enable LLMs to self-improve?研究问题:这篇文章探讨了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的潜力,特别是是否超越了基础模型的推理能力。研究难点:该问题的研究难点包括:如何准确评估LLMs的推理能力边界,以及现有的RLVR方法是否能够引入新的推理模式。相关工作:该问题的研究相关工作包括OpenAI的o1模型、DeepSeek-R1等,这些工作展示了LLMs在复杂逻辑任务中的显著进步,但对其推理能力的提升机制尚不明确。(1)可验原创 2025-11-22 19:41:15 · 1302 阅读 · 0 评论 -
【RL】Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
提出了监督强化学习(SRL)框架,通过将专家解决方案分解为可管理的步骤并提供密集的序列相似度奖励,显著提高了LLMs在复杂推理任务上的性能。实验结果表明,SRL不仅在数学推理和软件工程任务上优于基线方法,还能与RLVR结合形成强大的课程学习策略。SRL作为一种稳健且通用的技术,能够解锁模型从具有挑战性的多步问题中学习的能力,为训练更强大、更多功能的AI代理奠定了基础。SRL巧妙地融合了SFT和RL(hard reasoning problem难学会)的优点,它不再是僵硬地模仿整个轨迹,也不是盲目地等待最原创 2025-11-22 15:23:20 · 804 阅读 · 0 评论 -
【RLVR】A Survey of Reinforcement Learning for Large Reasoning Models
A Survey of Reinforcement Learning for Large Reasoning Models大型推理模型强化学习综述研究问题:这篇文章要解决的问题是如何在大规模语言模型(LLMs)中使用强化学习(RL)来提升推理能力,特别是处理复杂逻辑任务如数学和编程问题。研究难点:该问题的研究难点包括计算资源的需求、算法设计、训练数据和基础设施的挑战。相关工作:该问题的研究相关工作包括AlphaGo和AlphaZero等系统的成功应用,这些系统通过自我对弈和奖励反馈达到了超越人类水原创 2025-11-10 00:35:14 · 1117 阅读 · 0 评论 -
【LLM】基于ms-Swift大模型SFT和RL的训练实践
Swift框架MoE训练并行技术选择:Megatron-SWIFT的并行技术采用zero1(默认开启use_distributed_optimizer)+各种并行技术的组合。DP的速度最快,但显存占用较多,使用其他并行技术以降低显存占用。TP/EP通信量较大,尽量不跨节点(NVLink域内),跨节点建议使用PP/DP;专家层建议使用EP而不是ETP,ETP更节约显存,但速度较慢。MoE 并行折叠:MoE 相关的并行组与 Dense 组分离。Attention使用 tp-cp-dp-pp 组,MoE原创 2025-10-03 22:20:14 · 1463 阅读 · 0 评论 -
【LLM】字节的DAPO强化学习算法
提出了DAPO算法,包含四个关键技术:Clip-Higher、Dynamic Sampling、Token-Level Policy Gradient Loss和Overlong Reward Shaping。Clip-Higher:通过解耦上下剪切范围(ε low 和ε high ),提高低概率探索令牌的概率增加空间,增强策略的多样性和熵。Dynamic Sampling:通过过采样和过滤掉准确率为0和1的提示,确保每个批次中的提示都有有效的梯度,减少梯度信号的方差。Token原创 2025-10-18 16:15:46 · 1081 阅读 · 1 评论 -
【RLVR】GRPO中奖励函数的设计逻辑
GRPO中常见的奖励函数设计## 1、DeepSeek-R1(数学推理)1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning奖励函数:* 格式正确性:如思考链在`<think>`和`</think>`之间等* 内容正确性:可行性验证,数学运算/代码运行正确等## 2、DeepTrans(翻译)翻译大模型(wechat微信)DeepTrans: Deep Reasoning T原创 2025-11-08 16:27:31 · 849 阅读 · 0 评论 -
【LLM】VeRL训练框架源码分析
「VeRL(Volcano Engine Reinforcement Learning for LLMs)」VeRL 是什么开源的 LLM 后训练(RL/RLHF/RLAIF)框架,由字节 Doubao/Seed 团队主导。它把算法流和分布式执行解耦,既能像写“数据流”一样拼装 RL 步骤,又能在多种训练/推理引擎上高效跑(FSDP、Megatron-LM、vLLM、SGLang 等)。官方称相较已有系统在多种 RLHF 算法上可达 1.53×–20.57× 吞吐提升(论文实验)。(GitHub)原创 2025-10-08 21:40:02 · 1529 阅读 · 0 评论 -
【RL】KTO: Model Alignment as Prospect Theoretic Optimization
研究问题:这篇文章要解决的问题是如何更好地对齐大型语言模型(LLMs)与人类反馈,以提高生成内容的有用性、事实性和伦理性。研究难点:该问题的研究难点包括:人类反馈通常以偏好形式出现,而偏好数据稀缺且昂贵;现有的对齐方法在处理大规模模型时存在性能和稳定性问题。相关工作:该问题的研究相关工作有:RLHF、DPO等基于偏好的对齐方法,以及条件SFT、序列似然校准等非基于偏好的对齐方法。二、研究方法这篇论文提出了一种新的对齐方法,称为Kahneman-Tversky优化(KTO),用于解决LLMs与人类反原创 2025-11-16 23:02:49 · 1042 阅读 · 0 评论 -
【RL】ORPO: Monolithic Preference Optimization without Reference Model
本文提出了一种无需参考模型的单片赔率比率偏好优化算法(ORPO),通过重新审视和理解监督微调(SFT)在偏好对齐中的作用,实现了高效的偏好对齐。ORPO在不同规模的预训练语言模型上均表现出色,超越了现有的较大指令跟随语言模型。实验结果表明,ORPO在指令跟随、奖励模型胜率和词汇多样性方面均取得了显著的提升。ORPO 的目标函数巧妙地结合了传统的监督微调损失和一个新提出的相对比率损失。LORPO=E(x,yw,yl)[LSFT+λ⋅LOR]L ORPO原创 2025-11-16 22:46:46 · 1114 阅读 · 0 评论 -
【RL-LLM】Self-Rewarding Language Models
Self-Rewarding Language Models- 研究问题:这篇文章要解决的问题是如何通过自我奖励的语言模型(Self-Rewarding Language Models)来实现超人类智能代理。具体来说,现有的方法通常依赖于人类偏好数据来训练奖励模型,然后使用这些模型来训练大型语言模型(LLM),但这种方法存在瓶颈,即人类偏好数据的大小和质量限制。- 研究难点:该问题的研究难点包括:人类偏好数据的质量和数量限制;奖励模型的固定性无法在LLM训练过程中进行改进;如何在不增加外部数据的情况下原创 2025-11-16 22:30:23 · 1185 阅读 · 1 评论 -
【LLM】DeepSeek R1训练成本降低分析篇
DeepSeek-R1 在DeepSeek-R1-Zero基础上,借助冷启动数据和多阶段训练(==增强推理过程可读性、增强面向通用指令的推理能力==),进一步提升了模型性能@[toc]# 一、DeepSeek R1训练流程回顾- DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性;- DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练(==增强推理过程可读性、增强面向通用指令的推理能力==),进一步提升了模型性原创 2025-02-09 17:09:27 · 1094 阅读 · 0 评论 -
【RL】REINFORCE Leave-One-Out (RLOO)
REINFORCE Leave-One-Out (RLOO) 基于经典的 REINFORCE 策略梯度方法,通过留一法(Leave-One-Out)构造无偏的优势函数基线。我们基于 GRPO(Group Relative Policy Optimization)算法进行对比说明。GRPO vs RLOO 的主要区别GRPO 和 RLOO 都采用组内对比的方式来估计优势函数,避免了全局基线估计带来的高方差问题。两者的核心区别主要体现在以下两个方面:区别1:优势函数基线的构造方法1. GRPO原创 2025-11-12 01:24:48 · 992 阅读 · 0 评论 -
【RL】CHORD框架实现SFT和RL的统一
On-Policy RL Meets Off-Policy Experts: Harmonizing SFT and RL via Dynamic Weighting研究问题:这篇文章要解决的问题是如何在监督微调(SFT)和强化学习(RL)之间实现有效的统一,以提升大型语言模型(LLMs)的性能。现有的SFT和RL结合方法往往会导致模型模式被破坏和过拟合专家数据的风险。研究难点:该问题的研究难点包括:如何在SFT和RL之间实现平稳过渡,避免模型模式被破坏;如何有效地利用专家数据进行训练,同时保持模型的原创 2025-11-12 01:08:25 · 1004 阅读 · 0 评论 -
【LLM】SmolLM3模型训练手册
RLVR强化学习Reinforcement Learning with Verifiable Rewards (RLVR)基于 RL 的训练的效率和稳定性在很大程度上取决于学习算法是on-policy还是off-policy。GRPO 等方法通常属于on-policy算法类别,其中生成完成的模型(策略)与被优化的模型相同。虽然 GRPO 是一种on-policy的算法,但也有一些注意事项。首先,为了优化生成步骤,可以对几批代进行采样,然后 k 对模型进行更新,第一批是on-policy的,接下来的几原创 2025-11-09 23:19:33 · 1067 阅读 · 0 评论 -
【LLM-RL】以信息熵的角度理解RL
为啥会发生熵崩溃为什么会发生“熵崩溃”?论文从数学上给出了一个解释。作者推导出,策略熵的变化与一个关键因素——动作概率和优势函数(Advantage)的协方差——有关(反比关系)。原文中的公式比较复杂,感兴趣的读者可以自行拜读。这里提供一个通俗易懂的说法(在数学上不一定严谨)。简单来说:• 当模型选择一个高概率的动作(token),而这个动作又带来了高奖励(高Advantage)时,强化学习算法会大力强化这个选择。• 这种“强强联合”的更新,会导致这个高概率动作的概率变得更高,其他动作的概率被压制,原创 2025-11-03 00:08:21 · 916 阅读 · 1 评论 -
【RL】DAPO的后续:VAPO算法
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks1、研究背景研究问题:这篇文章要解决的问题是如何在长链推理任务(long chain-of-thought reasoning)中提高基于价值模型的强化学习(RL)方法的效率和可靠性。研究难点:该问题的研究难点包括:价值模型偏差、异构序列长度、奖励信号稀疏性。相关工作:该问题的研究相关工作有:OpenAI O1、DeepSeek原创 2025-10-18 16:22:05 · 773 阅读 · 0 评论 -
【LLM】强化学习TTRL: Test-Time Reinforcement Learning
TTRL实验设计模型选择:实验使用了多个模型家族的不同规模和类型的模型,包括Qwen家族、LLaMA家族、Mistral家族、DeepSeek家族和其他模型。基准测试:在GPQA-Diamond、AIME 2024、AMC和MATH-500等基准上进行评估。评估设置:采用pass@k评估协议,设置最大生成长度为3072个令牌(除特别指定外)。对于主要实验,生成16个响应(对于32k上下文为4个响应),并使用温度0.6和非零温度采样计算pass@1分数。原创 2025-10-18 16:08:25 · 941 阅读 · 0 评论 -
【LLM-RL】GSPO算法Group Sequence Policy Optimization
Group Sequence Policy Optimization中指出GRPO在计算重要性采样权重时,是在token级别进行操作的。然而,这种做法由于每个token仅采样一次,无法实现有效的分布校正,反而会在模型训练过程中引入高方差噪声,极易导致模型的梯度估计不稳定,最终造成模型训练的崩塌。因此,论文认为,优化目标的单位应该与奖励的单位保持一致。由于奖励通常是在序列级别(即完整生成的回复)给出的,因此更合理的做法是将 off-policy 校正和优化也提升到序列级别,而非 token 级别。以下是三原创 2025-10-04 17:34:44 · 1310 阅读 · 0 评论 -
【LLM】强化学习训练框架(slime、verl框架)
R1 出现后,RL 从 Human Alignment 向 Reasoning 转变,除对齐任务外,还可用于代码生成、数学推理等领域。这些任务有明确 ground truth,可通过评估代码在测试用例中的正确性或验证数学结果准确性确定。奖励模型可用非神经网络的奖励模块替代,如代码生成任务用沙箱环境评估执行结果,数学推理任务用奖励函数验证结果正确性。SLIME 框架中的 Rollout 部分,指的是大模型在强化学习(RL)训练过程中,根据当前策略(模型参数)与环境(或用户提示)进行交互,生成一系原创 2025-08-31 18:30:09 · 2076 阅读 · 0 评论 -
【MLLM】具有长期记忆的多模态智能体框架M3-Agent
M3-Agent 的架构,包括一个多模态大型语言模型 (MLLM) 和一个多模态长期记忆。该系统由两个并行过程组成:记忆和控制。在记忆过程中,M3-Agent在线处理视频和音频流,生成情景记忆和语义记忆。在控制过程中,它通过迭代地推理和从长期记忆中检索来执行指令。长期记忆被结构化为多模态图。在记忆过程中,M3-Agent会实时处理输入的视频流,通过生成两种记忆类型来同时捕获细粒度细节和高级抽象信息,类似于人类认知系统:事件记忆:记录视频中观察到的具体事件。例如,“爱丽丝拿起咖啡说,‘早上没有这个我无原创 2025-08-31 17:28:17 · 902 阅读 · 0 评论 -
【MLLM】多模态理解Ovis2.5模型和训练流程(更新中)
第一阶段:VET预训练 (视觉基础启蒙)• 目标:教会模型最基础的“看图识物”,即训练好VET这个“视觉词典”。• 方法:使用海量“图像-标题”数据对。为保证学习稳定,此阶段会冻结视觉编码器的大部分参数,只微调最后几层和VET。分辨率较低,且暂时关闭。第二阶段:多模态预训练 (图文对话入门)• 目标:打通视觉和语言的连接,让模型具备基础的对话和理解能力。• 方法:开放所有模块的参数进行全量训练,并引入OCR、定位等更多样的任务。关键是,大幅提升了支持的图像分辨率,并全面启用了,为处理复杂视觉原创 2025-08-30 23:32:50 · 2290 阅读 · 1 评论 -
【LLM】Kimi-K2模型架构(MuonClip 优化器等)
Kimi K2 的预训练阶段使用 MuonClip 优化器实现万亿参数模型的稳定高效训练,在人类高质量数据成为瓶颈的背景下,有效提高 Token 利用效率。MuonClip Optimizer优化器,解决随着scaling up时的不稳定性。Kimi-K2 与 DeepSeek-R1 架构对比,相比较下 Kimi-k2 增加了专家数量,减少了注意力头的数量。这么设计的好处是,专家数量多无疑知识多,能记住更多东西,在知识广度上表现很好。而减少注意力头则能显著减少显存开销,另外过多的注意力头有时会学习到冗余或原创 2025-07-26 17:30:40 · 1954 阅读 · 0 评论 -
【LLM】Qwen3模型训练和推理优化
在预训练方面,Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5 预训练了 18 万亿个 token,而 Qwen3 使用的 token 数量几乎是 Qwen2.5 的两倍,约有 36 万亿个 token,涵盖 119 种语言和方言。为了构建这个庞大的数据集,我们不仅从网络收集数据,还从类似 PDF 的文档中收集数据。我们使用 Qwen2.5-VL 从这些文档中提取文本,并使用 Qwen2.5 来提升提取内容的质量。为了增加数学和代码数据量,我们使用 Qwen2.5-Math 和 Qwe原创 2025-04-29 20:57:38 · 3988 阅读 · 0 评论 -
【LLM】DeepResearch系列(Search-R1、Search-o1、R1-Searcher)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(Search-R1:利用强化学习训练LLM进行推理并利用搜索引擎)。这篇文章是关于如何训练大型语言模型(LLMs)有效地利用搜索引擎来增强其推理和文本生成能力。核心创新:允许LLM在推理过程中自主决定何时以及如何进行搜索。论文提出了一个名为SEARCH-R1的框架,该框架仅仅通过强化学习(RL)让LLM学习如何在逐步推理原创 2025-04-06 18:25:20 · 3259 阅读 · 0 评论 -
【LLM】Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
Long CoT 的出现现象:研究表明,上下文示例能够引导模型生成推理链,标准化推理链的生成过程。通过实验发现,仅保留逻辑结构的上下文示例也能实现与完整示例相似的性能,强调了 Long CoT 在推理中对逻辑结构的模仿能力。• 推理边界的限制:研究指出,RLMs 在推理任务中存在性能上限,当任务复杂度超过模型的推理边界时,性能会下降。例如,在代码生成任务中,模型在处理复杂逻辑时会遇到困难。此外,模型的输入长度也会影响其推理能力。• 过度思考现象(Overthinking Phenomenon):研原创 2025-03-23 13:45:24 · 1021 阅读 · 0 评论 -
【LLM】kimi 1.5模型架构和训练流程
语言数据涵盖五个领域:英语、中文、代码、数学推理和知识。多模态数据,包括图像描述、图文交错[^1]、OCR数据、知识以及问答数据集,使我们的模型能够获得视觉 - 语言能力。严格的质量控制确保了整个预训练数据集的相关性、多样性和平衡性。## SFT训练100w文本sft数据(任务具体分布见图)和100w多模态sft数据(没说具体分布,光列任务),通过一些 infra 的优化,先训 32k,再训 128k。- 非推理任务:包括问答、写作和文本处理,首先通过人工标注构建了一个种子数据集。这个种子数据集用原创 2025-03-09 15:35:22 · 1771 阅读 · 0 评论 -
【LLM】From System 1 to System 2 推理LLM综述
(1)结构搜索:- 推理大语言模型旨在通过模仿人类推理的深思熟虑和系统性来实现高精度和深度。然而,尽管最近取得了进展,当前的基础大语言模型在解决复杂推理任务时仍面临固有的局限性。这些局限性源于它们缺乏模拟环境状态的内部世界模型,无法预测推理路径的长期结果,以及无法根据未来状态或奖励迭代改进推理步骤。- 蒙特卡洛树搜索(MCTS)通过提供一个结构化框架来系统地探索和评估推理路径,有效地解决了这些挑战。它通过构建一个推理树来操作,其中每个节点代表一个推理状态,行动通过考虑潜在的下一步来扩展树。通过模拟未来状原创 2025-03-02 15:29:05 · 1112 阅读 · 0 评论 -
【LLM】增强大模型推理能力的四种范式
增强大模型推理能力的四种范式:推理时间扩展、纯强化学习(RL)、SFT+RL、蒸馏(distillation) 。其实这几种方法本质就是SFT+RL:低成本做事就直接推理时间扩展,稍微肯付出成本就蒸馏SFT,顺便搞点高质量COT SFT数据高级点就先用GRPO等RL学习推理能力,在前面也能加个冷启动SFT。但RL在较小模型可能不奏效最简单的方式其实是推理时间扩展或者蒸馏,但是这个其实的成功率,其实还是依赖于基座模型本身。小模型直接进行RL未必奏效,将DeepSeek-R1-Zero中相同的纯RL方法原创 2025-02-23 16:48:09 · 3009 阅读 · 0 评论 -
【LLM】R1复现项目(SimpleRL、OpenR1、LogitRL、TinyZero)持续更新
(1)未来的工作需亟待解决:支持大规模 RL 训练(PPO、GRPO 等)的开源基础框架用于稳定训练的 GRPO 训练超参的自动化调优RL 训练数据的配比(难度、领域、任务等)基于 Instruct 模型训练 R1 时,高质量 long CoT 的数据获取合适的惩罚函数设计以保证 CoT 思考链质量不退化(2)应用在业务落地时,需要考虑:模型在给定的 prompt 下,结合预训练的基本知识能否正确给出正确的推理结果。任何业务中的「潜规则」都需要显式地定义在 prompt 中,并尽可能避免与原创 2025-02-23 02:02:52 · 4954 阅读 · 0 评论 -
【MLLM】GRPO在多模态LLM的应用
# note- VLM-R1: A stable and generalizable R1-style Large Vision-Language Model。域外数据集上性能比SFT要好- Open-R1-Video视频理解模型:为视频理解任务引入R1范式,开源训练代码和数据,用视频、查询和答案,使用GRPO训练,提升模型推理能力@[toc]# 一、VLM-R1: A stable and generalizable R1-style Large Vision-Language Model原创 2025-02-23 01:04:35 · 2002 阅读 · 0 评论 -
【LLM】Deepseek R1模型之多阶段训练
# note - 创新点:deepseek r1通过纯强化学习(RL)自主激发模型的推理能力,并结合蒸馏技术实现高效迁移- R1模型 - DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性; - DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练,进一步提升了模型性能,达到与 OpenAI-o1-1217 相媲美的水平,且在蒸馏小模型上也取得了优异成果。- 蒸馏模型贡献:开源DeepSeek-R1-Zero、Dee原创 2025-01-28 00:19:59 · 7659 阅读 · 0 评论 -
【LLM】Openai-o1及o1类复现方法
作为一个推理模型,QwQ-32B-preview的综合表现已全面超越常规模型,如GPT-4o和Claude3.5Sonnet。一个是学习,学习利用搜索生成的数据进行策略改进。过程奖励模型(PRM)比结果奖励模型(ORM)更适合复杂的推理任务,因为它不仅奖励最终结果,还奖励中间步骤。试用链接:https://huggingface.co/spaces/Qwen/QwQ-32B-preview。官方博客:https://qwenlm.github.io/zh/blog/qwq-32b-preview/原创 2025-01-18 23:25:06 · 1401 阅读 · 0 评论
分享