comli_cn
算法工程师,知乎号,微信公众号同名:李歪理
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型强化学习算法概览
问题:训练不稳定和样本效率低举例:REINFORCE关键挑战:步长(step size)的选择解释:步长太小会导致学习缓慢,步长太大则可能导致策略更新过大,破坏已学到的知识,使训练发散。目的:解决传统的策略梯度方法训练不稳定的问题举例:信任区域策略优化(TRPO)TRPO通过在每次更新时求解一个受约束的优化问题,确保新策略与旧策略之间的KL散度(Kullback-Leibler Divergence)不超过一个预设阈值,保证了更新的稳健性。maxθE^t[πθ(at∣st)πθold(at∣st)A^t]原创 2025-11-15 09:26:19 · 63 阅读 · 0 评论 -
强化学习面试题(一)
大模型的强化学习依赖一个前提:模型的“动作空间”和“语言能力”已经基本可用。因此,需要先通过 SFT 冷启,让模型先具备“基本对齐”的行为,再通过 RL 做“细粒度对齐”或“偏好优化”。原创 2025-10-24 11:22:20 · 66 阅读 · 0 评论 -
PPO论文阅读
我们提出了一类新的强化学习策略梯度方法,该方法在与环境交互采样数据与使用随机梯度上升法优化一个“代理(surrogate)目标函数”之间交替进行。传统的策略梯度方法通常对每个采样的数据样本仅执行一次梯度更新,而我们提出了一种新的目标函数,使得算法能够对同一批数据进行多轮(多 epoch)小批量(minibatch)更新。这种新方法被称为 近端策略优化(Proximal Policy Optimization,PPO)。原创 2025-10-15 19:53:35 · 123 阅读 · 0 评论 -
强化学习(一)模型基础
如果为0,则是贪婪法,即价值只由当前延时奖励决定,如果是1,则所有的后续状态奖励和当前奖励一视同仁。因此我们的价值要综合考虑当前的延时奖励和后续的延时奖励。,这个比率主要用在强化学习训练迭代过程中,由于我们一般会选择使当前轮迭代价值最大的动作,但是这会导致一些较好的但我们没有执行过的动作被错过。当然,在不同的强化学习模型中,会考虑一些其他的模型要素,或者不考虑上述要素的某几个,但是这8个是大多数强化学习模型的基本要素。然后个体可以继续选择下一个合适的动作,然后环境的状态又会变,又有新的奖励值。原创 2025-04-18 11:20:22 · 1019 阅读 · 0 评论 -
强化学习(二)马尔科夫决策过程(MDP)
马尔可夫过程(也称为马尔可夫链)是一个元组。原创 2025-04-29 14:30:05 · 1616 阅读 · 0 评论 -
强化学习(三)用动态规划(DP)求解
上一章我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。原创 2025-05-08 12:31:52 · 1223 阅读 · 0 评论 -
强化学习(四)用蒙特卡罗法(MC)求解
在动态规划法中,强化学习的两个问题是这样定义的:预测问题,即给定强化学习的6个要素:状态集SSS,动作集AAA, 模型状态转化概率矩阵PPP,即时奖励RRR,衰减因子γ\gammaγ, 给定策略π\piπ,求解该策略的状态价值函数vπv(\pi)vπ控制问题,也就是求解最优的价值函数和策略。给定强化学习的5个要素:状态集SSS, 动作集AAA,模型状态转化概率矩阵PPP,即时奖励RRR,衰减因子γ\gammaγ,求解最优的状态价值函数v∗。原创 2025-05-09 19:40:14 · 999 阅读 · 0 评论 -
强化学习(五)用时序差分法(TD)求解
时序差分法和蒙特卡罗法类似,都是不基于模型的强化学习问题求解方法。所以在上一篇定义的不基于模型的强化学习控制问题和预测问题的定义,在这里仍然适用。预测问题:即给定强化学习的5个要素:状态集SSS, 动作集AAA, 即时奖励RRR,衰减因子γ\gammaγ, 给定策略π\piπ,求解该策略的状态价值函数vπv(\pi)vπ控制问题,也就是求解最优的价值函数和策略。给定强化学习的5个要素:状态集SSS, 动作集AAA, 即时奖励RRR,衰减因子γ\gammaγ。原创 2025-05-12 11:18:44 · 871 阅读 · 0 评论 -
强化学习之偏差和方差
接下来首先说明,强化学习的一般方法在值函数估计中存在偏差/方差。原创 2025-10-15 13:49:03 · 48 阅读 · 0 评论 -
强化学习(六)时序差分在线控制算法SARSA
作为SARSA算法的名字本身来说,它实际上是由S,A,R,S,A几个字母组成的。而S,A,R分别代表状态(State),动作(Action),奖励(Reward),这也是我们前面一直在使用的符号。这个流程以及价值函数的更新公式体现在下图:在迭代的时候,我们首先基于ϵ\epsilonϵ-贪婪法在当前状态SSS选择一个动作AAA,这样系统会转到一个新的状态S′S'S′,同时给我们一个即时奖励RRR,在新的状态S′S'S′,我们会基于ϵ\epsilonϵ-贪婪法在状态S′。原创 2025-05-14 13:33:44 · 930 阅读 · 0 评论 -
强化学习(七)时序差分离线控制算法Q-Learning
Q-Learning算法的拓扑图以及价值函数的更新公式如下图所示:首先我们基于状态SSS,用ϵ\epsilonϵ−贪婪法选择到动作AAA,然后执行动作AAA,得到奖励RRR,并进入状态S′S'S′,此时,如果是SARSA,会继续基于状态S′S'S′,用ϵ\epsilonϵ−贪婪法选择A′A'A′,然后来更新价值函数。但是Q-Learning则不同。对于Q-Learning,它基于状态S′S'S′,没有使用ϵ\epsilonϵ−贪婪法选择A′。原创 2025-05-15 12:43:28 · 806 阅读 · 0 评论 -
强化学习(八)价值函数的近似表示
微信公众号、知乎号(同名):李歪理,欢迎大家关注通过强化学习的基础理论,只能解决一些中小规模的问题,很多价值函数需要用一张大表来存储,获取某一状态或行为价值的时候通常需要一个查表操作(Table Lookup),这对于那些状态空间或行为空间很大的问题几乎无法求解,而许多实际问题都是这些拥有大量状态和行为空间的问题,因此只掌握强化学习的基础理论,是无法较好的解决实际问题的。在实际应用中,对于状态和行为空间都比较大的情况下,精确获得各种 v(s)v(s)v(s) 和 q(s,a)q(s,a)q(s,a) 几乎是原创 2025-05-19 21:09:25 · 873 阅读 · 0 评论 -
强化学习(九)策略梯度
微信公众号、知乎号(同名):李歪理,欢迎大家关注前一篇主要讲解的是价值函数的近似,然后根据价值函数来制定策略。本篇中策略P(a|s)将从一个概率集合变成策略函数本身π(s,a),通过借助策略相关的目标函数梯度的引导,寻找与目标函数的极值,进而得到最优策略。上一篇主要内容是如何对价值函数进行近似的参数化表达,包括状态价值函数和动作价值函数:Vθ(s)∼Vπ(s)V_{\theta}(s)\sim V^{\pi}(s)Vθ(s)∼Vπ(s)Qθ(s,a)∼Qπ(s,a)Q_{\theta}(s,a)\sim原创 2025-05-22 10:49:20 · 1196 阅读 · 0 评论 -
强化学习(十)整合学习与规划
本篇主要讲解如何从经历中直接学习模型,如何构建一个模型,如何基于模型来进行“规划”,在此基础上将“学习”和“规划”整合起来形成Dyna算法,详细解释了Dyna算法的流程和特点。依赖于模型,个体可以通过模拟产生一系列虚拟的Episodes,通过使用基于模拟的搜索方法,特别是蒙特卡罗树搜索方法,找到了一条解决诸如围棋等大规模MDP问题的有效可行的算法。原创 2025-05-23 11:15:30 · 858 阅读 · 0 评论 -
强化学习(十一)探索与利用
利用是做出当前信息下的最佳决定,探索则是尝试不同的行为继而收集更多的信息。最好的长期战略通常包含一些牺牲短期利益举措。通过搜集更多或者说足够多的信息使得个体能够达到宏观上的最佳策略。因此探索和利用是一对矛盾。几个基本的探索方法:朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索;在贪婪搜索的基础上增加一个Ɛ以实现朴素探索;优先选择当前被认为是最高价值的行为,除非新信息的获取推翻了该行为具有最高价值这一认知;根据当前估计的概率分布采样行为;原创 2025-05-26 14:33:27 · 749 阅读 · 0 评论 -
强化学习(十二)PPO
在介绍近端策略优化(proximal policy optimization,PPO) 之前,我们先回顾同策略(On-policy)和异策略(Off-policy)这两种训练方法的区别。在强化学习里面,要学习的是一个智能体。如果要学习的智能体和与环境交互的智能体是相同的,我们称之为同策略。如果要学习的智能体和与环境交互的智能体不是相同的,我们称之为异策略。为什么我们会想要考虑异策略?让我们回忆一下策略梯度。原创 2025-05-28 14:30:04 · 1303 阅读 · 0 评论 -
强化学习(十三)DQN
传统的强化学习算法会使用表格的形式存储状态价值函数Vs或动作价值函数Qs,但是这样的方法存在很大的局限性。例如,现实中的强化学习任务所面临的状态空间往往是连续的,存在无穷多个状态,在这种情况下,就不能再使用表格对价值函数进行存储。价值函数近似利用函数直接拟合状态价值函数或动作价值函数,降低了对存储空间的要求,有效地解决了这个问题。为了在连续的状态和动作空间中计算值函数Qπsa,我们可以用一个函数Qϕsa。原创 2025-05-29 17:20:20 · 838 阅读 · 0 评论 -
强化学习(十四)DQN进阶技巧
微信公众号、知乎号(同名):李歪理,欢迎大家关注。原创 2025-05-30 18:59:53 · 668 阅读 · 0 评论 -
强化学习(十五)Actor-Critic算法
微信公众号、知乎号(同名):李歪理,欢迎大家关注在强化学习(九)策略梯度中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,这种采样方式的方差比较大,学习效率也比较低,同时单独对策略函数进行迭代更新,不太容易收敛。我们可以借鉴时序差分学习的思想,使用动态规划方法来提高采样效率,即从状态s开始的总回报可以通过当前动作的即时奖励rsas′和下一个状态s′的值函数来近似估计。原创 2025-05-30 19:01:27 · 1101 阅读 · 0 评论 -
GAE 广义优势函数
论文链接GAE主要借鉴了 λ\lambdaλ-return 的思想,将其运用到了优势函数的估计中。策略梯度的表达形式有很多,如下:g=E[∑t=0∞Ψt∇θlogπθ(at∣st)]g = \mathbb{E} \left[ \sum_{t=0}^{\infty} \Psi_t \nabla_{\theta} \log \pi_{\theta}(a_t \mid s_t) \right]g=E[t=0∑∞Ψt∇θlogπθ(at∣st)]其中,Ψt\Psi_tΨt 有六种表现形式:其中原创 2025-10-15 13:07:50 · 159 阅读 · 0 评论 -
强化学习之RLHF
强化学习(Reinforcement Learning,RL)研究的问题是智能体(Agent)与环境(Environment)交互的问题,其目标是使智能体在复杂且不确定的环境中最大化奖励(Reward)。强化学习基本框 架如图所示,主要由两部分组成:智能体和环境。在强化学习过程中,智能体与环境不断交互。智能体在环境中获取某个状态后,会根据该状态输出一个动作(Action),也称为决策(Decision)。动作会在环境中执行,环境会根据智能体采取的动作,给出下一个状态以及当前动作所带来的奖 励。原创 2025-02-14 13:36:18 · 95 阅读 · 0 评论 -
强化学习之DPO
基于人类反馈的强化学习(RLHF) 是一个复杂且不稳定的过程,拟合一个反映人类偏好的奖励模型,然后使用强化学习对大语言模型进行微调,以最大限度地提高估计奖励,同时又不能偏离原始模型太远。这涉及训练多个 LM,并在训练循环中从 LM 采样,从而产生大量的计算成本。本文作者提出了直接偏好优化(DPO)算法,它稳定、高效且计算量轻,无需拟合奖励模型,也无需在微调期间从LM采样或执行显著的超参数调整。实验表明,DPO 可以微调 LMs,使其与人类偏好保持一致,与现有方法一样或更好。原创 2025-02-19 10:53:01 · 285 阅读 · 0 评论 -
强化学习之PPO原理与源码解读
智能体(Agent)与环境(Environment)状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合奖励R:R即为Reward,指智能体在环境的某一状态下所获得的奖励。在ttt时刻,环境的状态为StS_tSt,达到这一状态所获得的奖励为RtR_tRt智能体观测到StS_tSt与RtR_tRt,采取相应动作AtA_tAt智能体采取AtA_tAt后,环境状态变为St1。原创 2025-02-19 19:28:58 · 236 阅读 · 0 评论 -
强化学习之KTO
在前景理论中,人类的效用函数由两个部分组成:价值函数(value function)和加权函数(weighting function)。论文关注的主要是价值函数,它描述了相对某一参考点的结果对人类的主观价值的影响。公式如下:zz0α0α1α≃0.88λλ1λ≃2.25看收益区域z≥z0时的函数:计算二阶导数:由于0α1,所以α−10,因此dz2d2v0,说明函数是凹的(concave)。zvz看损失区域zz0。原创 2025-02-25 13:42:04 · 976 阅读 · 0 评论 -
强化学习之GRPO
GRPO是PPO的优化版本,专门设计用于数学推理任务。关键创新:不使用价值模型,而是用群体奖励基线计算优势函数。优势:计算更高效、收敛更稳定、适用于数学和语言任务。在DeepSeekMath-RL上的成功应用:帮助模型取得了最先进的数学推理能力,超越所有开源对手。GRPO的成功表明,强化学习方法可以在数学推理中大幅提高模型表现,而不需要庞大的计算资源,这是LLM优化的重要突破。原创 2025-03-03 15:14:18 · 2138 阅读 · 2 评论 -
DAPO算法详解
微信公众号:李歪理。原创 2025-03-27 21:18:33 · 1427 阅读 · 0 评论 -
GSPO论文阅读
论文:Group Sequence Policy Optimization本文提出了一种稳定、高效且性能优异的强化学习算法——Group Sequence Policy Optimization(GSPO),用于训练大语言模型。与以往基于token 级重要性采样的方法不同,GSPO 将重要性采样定义在序列似然层面,并在序列级别进行裁剪、奖励和优化。我们证明了 GSPO 相较于 GRPO 算法在训练效率和性能上具有显著优势,尤其能够稳定Mixture-of-Experts(MoE)的强化学习训练,并有潜力简化原创 2025-09-29 14:56:30 · 225 阅读 · 0 评论
分享