
01.强化学习理论基础
文章平均质量分 93
该系列博客,主要对强化学习:
基本概念(如:状态、动作、奖励、策略等)
数学原理(如:马尔可夫决策过程、贝尔曼方程、值函数、策略梯度等)
经典网络(如:PPO、TD3、SAC、Q-learning 等)
进行深入简介,每个知识点分白话通俗与公式推导证明两个部分,由浅入深。
江南才尽,年少无知!
志在九天不为乡愁换白发,偏偏年少白衣博天涯!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【强化学习理论基础-通用】(46)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) 各种书籍、文献推导结果汇总,符号讲解统一不迷惘,一篇胜白篇
∇θvπst∑stk∈Sdπstk∗∑atk∈A∇θπatk∣stkqπstkatk(01*)∇θvπststk∈S∑dπstk∗atk∈A∑∇θπatk∣stkqπstkatk01*上为mode-base形式策略梯度,在其基础上,通过不同方式凑出随机变量Stk。原创 2025-04-12 23:20:13 · 914 阅读 · 0 评论 -
【强化学习理论基础-通用】(45)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) 无死角推导,多种推导方式,熟知来龙去脉,mode-free 形式
本人查阅了很多资料,确实如知乎所言,确实不同的教材、论文和博客教程中,给出了多种一眼看去截然不同的表达方式。个人也是阅读这篇几乎(推荐各位也阅读一下),对整个策略梯度才算有了比统一的理解,这里摘录一下大佬的内容,把常见策略梯度形式进行一个汇总。原创 2025-04-06 16:32:10 · 693 阅读 · 0 评论 -
【强化学习理论基础-通用】(44)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) 无死角推导,递归详细展开,符号注释,mode-base形式
该篇博客原本计划讲解的内容为确定性策略梯度 DPG(Deterministic Policy Gradient),其有一个很实用的优点,那就是适用于连续空间。【强化学习理论基础-通用】(39)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) - 目标函数之统一形式、梯度期望形式推导求解中首先介绍了两类策略目标函数形式如下:∇θJθE∇θlnπA∣SθqπSA(01)∇θJθE∇θlnπA∣Sθ))q。原创 2025-03-23 20:10:56 · 755 阅读 · 0 评论 -
【强化学习理论基础-通用】(43)从零开始白话给你讲[数学原理]:Actor-Critic 基础系列,Off-policy 之核心 重要性采样(Importance sampling)
这里需要提及到的一点是重要性采样(Importance sampling)不仅仅适用于Actor-Critic或者蒙特卡洛算法,因为其主要原理是因为采样数据的分布与目标策略梯度不一样的而导致方差扩大的问题,即表示其适用于任何在某一分布下采样,估算另一分布(具体难获取)期望的情况,不过需要注意的是,这两个分布都必须是已知道的。原创 2025-03-16 16:16:58 · 919 阅读 · 0 评论 -
【强化学习理论基础-通用】(42)从零开始白话给你讲[数学原理]:Actor-Critic 基础系列,Advantage(优势)引入,A2C 算法实现
<font color="blue">特殊示例: </font> 比如说一个游戏若是没有惩罚,只有奖励,那么做任何动作价值评估结果都为正:<br> 若是使用qt评估,会使得所有动作都会被优化,只是得分低的动作会被优化得小一些而已,显然其与得分高的动作在优化期间会存在一种拉扯,导致得分高的动作概率摇摆不定,或者黄曼提升。<br> 若是使用δt评估,只要高于平均水平的动作才会被优化,且该类动作会一直被优化提升,但是低于平均的动作,属于劣质动作,其被执行的概率会被减低,而不影响到那些高于平均水平的动作。原创 2025-03-08 21:17:45 · 274 阅读 · 0 评论 -
【强化学习理论基础-通用】(41)从零开始白话给你讲[数学原理]:Actor-Critic 基础系列,最简强化学习之演员-评论算法(QAC)
回顾:通过前面一系列博客,对于策略梯度(Policy Gradient) 已经有了一定了解。且在上一篇博客中详细介绍了策略梯度(Policy Gradient)与蒙特卡洛(Monte Carlo)组合的算法,该算法也被称呼为强化(REINFORCE)学习算法,不过并不是所谓的深度强化学习(Deep Reinforcement Learning),因为并没有使用到深度学习或者说神经网络,从这篇博客开始,将会把神经网络与策略梯度结合到一起,即组合成真正意义上的深度强化学习(Deep Reinforcement原创 2025-03-08 20:18:47 · 385 阅读 · 0 评论 -
【强化学习理论基础-通用】(40)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) - 梯度上升算法,初次引入真正意义的强化(REINFORCE)学习算法及伪代码讲解
该阶段都是基于 mode-base 的方式进行讲解,比如说贝尔曼公式、贝尔曼最优公式、蒙特卡洛算法等。其比较重要的一个特征就是关于概率部分需要提前已知或者预先定义,也就是所谓的数学建模。 了解 mode-base 之后,提前已知或者预先定义好随机变量的概率分布,是一个非常强的约束条件,为解决这个问题学习了随机梯度下降相关原理,接着在这个基础上学习时序差分TD算法以及值函数近似基于传统算法的 free-base 方式,其依然存在一定局限性,那就是需要自行选择或者构建好合适的特征函数,比如说 linea原创 2025-03-02 19:53:28 · 667 阅读 · 0 评论 -
【强化学习理论基础-通用】(39)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) - 目标函数之统一形式、梯度期望形式推导求解
通过上一篇博客介绍知道,如果要优化一个动作决策策略π\piπ的参数θ\thetaθ,如何取构建目标函数。总的两说介绍了两种方式如下:上述三种表达式本质上式等价的,不过上一篇博客并没有给出百分百的详细推导,因为暂时来说,那些特别底层的数学知识推导并不是目前我关注的重点对象,若后续遇到某些问题,需要深刻理解相关知识点,本人会对其进行详细分析,并补充相关博客。对于梯度下降或者上升函数来说,定义好目标函数之后,最重要的就是对梯度的求解。因为只有求得梯度之后才能对策略π\piπ的参数θ\theta。原创 2025-03-02 13:06:27 · 751 阅读 · 0 评论 -
【强化学习理论基础-通用】(38)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) - Average state value 、Average reward 之目标函数
上一篇博客中提到,若想使用策略梯度(Policy Gradient)优化策略π\piπ的参数θ\thetaθ,首先要定义好衡量策略π\piπvˉπ∑s∈Sdπsvπsvˉπ0∑s∈Sd0svπs(01)vˉπs∈S∑dπsvπsvˉπ0s∈S∑d0svπs01rˉπ0≐∑s∈Sd0srπ。原创 2025-02-21 07:28:58 · 54 阅读 · 0 评论 -
【强化学习理论基础-通用】(37)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) -基础逻辑框架 Average state value 与 Average reward
若需观看机器人系列相关博客,请劳驾至:【足式机器人无死角系列之-【强化学习基础-通用】、【仿真及训练环境】、【强化学习】:isaac-gym 与 isaac-lab 从零开始郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!\color{red}郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权原创 2025-02-09 13:31:04 · 53 阅读 · 0 评论 -
【强化学习理论基础-通用】(36)从零开始白话给你讲[数学原理]:Deep Q-learning(DQN),Experience replay(经验回放),off-policy 伪代码与应用示例
若需观看机器人系列相关博客,请劳驾至:【足式机器人无死角系列之-【强化学习基础-通用】、【仿真及训练环境】、【强化学习】:isaac-gym 与 isaac-lab 从零开始郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!\color{red}郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权原创 2025-02-03 23:42:02 · 866 阅读 · 0 评论 -
【强化学习理论基础-通用】(35)从零开始白话给你讲[数学原理]:值函数近似,Deep Q-learning(DQN),神经网络提梯度求解之巧妙设计(双网络)
有的朋友可能觉得更加复杂,虽然两个神经网络的权重参数在更新貌似没有任何关联了,但是具体编程应该如何实现呢?两个神经网络的权重参数 $w_T$、$w_2$ 如何通过反向传播进行更新呢?不用着急,在后续详细分析分析过程中可以发现并没有想象的那么复杂。原创 2025-01-27 10:42:38 · 589 阅读 · 0 评论 -
【强化学习理论基础-通用】(34)从零开始白话给你讲[数学原理]:值函数近似,Sarsa 与 Q-learning 使用 function approximation 示例
虽然通过前面一系列博客虽然已经了解值函数近似的原理,且熟悉 linear function approximation(线性函数拟合) 特征向量(feature vector) 应该如何选取。不过总的来说,前面的推导或者说示例过程,为了简单易懂使用一维的方式引入,即对状态价值进行估计。总的来说,是为了理解其核心实现。该篇博客开始,将会开始通过值函数近似对 action(动作)价值评估进行拟合,相对于状态价值的拟合其要更加复杂一些,因为 action(动作) 价值评估需要考虑状态sss。原创 2025-01-22 21:11:51 · 647 阅读 · 0 评论 -
【强化学习理论基础-通用】(33)从零开始白话给你讲[数学原理]:值函数近似,linear function approximation 示例,平面与曲面拟合
通过该篇博客,详细对深度学习没有流行之前,被广泛使用的 linear function approximation(线性函数拟合) 进行了详细的介绍,不过要注意这里所谓 $\color{purple}\text{linear}$ 是相对于参数 $w$ 而言,并不是意味着其智能拟合线性函数。当然,其由于 $w$ 最高次数为 $1$ 的限制,该方式并不能拟合所有的非线性函数。但是神经网络却比较强大,其几乎能够拟合所有的非线性函数,只要数据量足够对即可。原创 2025-01-17 07:49:55 · 682 阅读 · 0 评论 -
【强化学习理论基础-通用】(32)从零开始白话给你讲[数学原理]:值函数近似,目标函数 与 linear function approximation
上一篇博客中详细介绍了如何定义值函数近似的优化目标,不过列举的例子比较简单,从一维的状态出发,使得其对应状态价值评估的误差最小化。后续会拓展到多维情况,从一维切入能够更好的领悟算法的要点。Jw12EvπS−vSw2(01)Jw21EvπS−vSw201【强化学习理论基础-通用】(20)从零开始白话给你讲[数学原理]:随机梯度下降系列:BGD、SGD、MBGD,深入探讨与对比。原创 2025-01-12 19:25:04 · 886 阅读 · 0 评论 -
【强化学习理论基础-通用】(31)从零开始白话给你讲[数学原理]:值函数近似,目标函数介绍,状态概率分布,及状态转移矩阵回顾
该篇博客,首先讨论如何定义值函数近似过程的目标函数,主要目的是使得状态价值评估误差最小化。接着讨论了 stationary distribution,其本上上来说就是稳态下的加权平均。最后又回顾了 态转移矩阵。不过需要注意的是,通过大数定律介绍如何求得概率分布,其为 mode-free,需通过大量数据进行求解。而后者属于 mode-base,需要知道每个状态转移到其他状态的概率,也就是数学模型。不能说即没有数据,也没有模型,毕竟巧妇难为无米之炊。原创 2025-01-12 11:30:03 · 624 阅读 · 0 评论 -
【强化学习理论基础-通用】(30)从零开始白话给你讲[数学原理]:值函数近似,离散空间到连续空间的转换,曲线拟合
个人看来,值函数近似就是空间与精度之间进行衡量取舍的算法,参数存储越多,占用内存空间越大,精度越高;参数存储越少,占用内存空间越少,但是精度可能不达标。具体如何取舍还得根据实际情况而定。原创 2025-01-11 21:10:29 · 693 阅读 · 0 评论 -
【强化学习理论基础-通用】(29)从零开始白话给你讲[数学原理]:时序差分(Temporal-Difference),回顾与总结,TD算法统一形式
有的朋友可能有注意到,该系列博客博客学习到现在没有很正式引入深度学习与神经网络,虽然略有提及,但是没有深入的进行讨论,比如说如何设计,如何使用,为何这样设计等等。另外还有一点就是,无论贝尔曼公式、MC(蒙特卡洛)、Epsilon Greedy、Sarsa、Q-learning 等算法,以及迷宫游戏示例,其都是基于离散系统的。比如说状态、动作这两个核心量都是离散的。这种离散系统可以通过表格方式来表示 状态-动作 对,下面一篇博客会进行详细分析。原创 2025-01-11 11:54:14 · 708 阅读 · 0 评论 -
【强化学习理论基础-通用】(28)从零开始白话给你讲[数学原理]:时序差分算法 --> Q-learning 伪代码(on-policy 与 off-policy),示例对比说明
若需观看机器人系列相关博客,请劳驾至:【足式机器人无死角系列之-【强化学习基础-通用】、【仿真及训练环境】、【强化学习】:isaac-gym 与 isaac-lab 从零开始郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!\color{red}郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权原创 2025-01-05 16:55:36 · 912 阅读 · 0 评论 -
【强化学习理论基础-通用】(27)从零开始白话给你讲[数学原理]:时序差分(Temporal-Difference) Q-learning 初探,on-policy 与 off-policy 详解
回顾: 上一篇博客中,推导了 n-step Sarsa 算法,且对 n=1 或趋向于 N(无穷大) 进行了详细分析,郑重声明:该系列博客为本人。点击本人照片即可显示。原创 2025-01-05 11:35:39 · 139 阅读 · 0 评论 -
【强化学习理论基础-通用】(26)从零开始白话给你讲[数学原理]:时序差分(Temporal-Difference) n-step Sarsa,极端体现(MC-蒙特卡洛)
上一篇博客中,在基本 Sarsa 算法的基础上,推导了 Expected Sarsa 算法,该算法搭配策略π\piπ输出的动作概率分布使用,通过该方式减少了一个随机变量At1A_{t+1}At1statrt1st1tt123⋯(01)statrt1st1tt123⋯01上式为实际采样,对应随机变量为StAtRr1St1StAtRr1St。原创 2024-12-29 12:28:23 · 241 阅读 · 0 评论 -
【强化学习理论基础-通用】(25)从零开始白话给你讲[数学原理]:时序差分(Temporal-Difference) Expected Sarsa 搭配 Epsilon Greedy
若需观看机器人系列相关博客,请劳驾至:【足式机器人无死角系列之-【强化学习基础-通用】、【仿真及训练环境】、【强化学习】:isaac-gym 与 isaac-lab 从零开始郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!\color{red}郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权原创 2024-12-19 22:23:12 · 947 阅读 · 0 评论 -
【强化学习理论基础-通用】(24)从零开始白话给你讲[数学原理]:时序差分(Temporal-Difference) - action values(Sarsa)
$\color{red} 注意$ DT-SV 与 DT-AV(sarsa)算法只具备策略评估(policy evaliation) 功能,而不具策略改善(policy improment) 功能,迭代过程也仅仅是提升策略评估(policy evaliation) 的精度而已。各位朋友千万不要混淆了。直白来说,反向传播也仅仅优化的是价值评估策略,并没有优化行为动作决策策略。原创 2024-12-08 22:38:26 · 927 阅读 · 0 评论 -
【强化学习理论基础-通用】(23)从零开始白话给你讲[数学原理]:时序差分(Temporal-Difference) - state values(基础版本) 之深入探讨
TD-SV 算法,能够在生命周期 episode_length 无限长,但是每次收集到的轨迹(Tracking,Roollout)经验数据有限的情况下,对策略做出一个相对准确的评估,且随着迭代次数,访问各个状态量的次数增加价,估计也会越来越准。原创 2024-12-08 22:32:50 · 723 阅读 · 0 评论 -
【强化学习理论基础-通用】(22)从零开始白话给你讲[数学原理]:时序差分(Temporal-Difference) - state values(基础版本) 之 公式推导
正式讲解 时序差分(Temporal-Difference) 相关算法之前,需要进行一些背景的介绍,若是上来直接推公式,有的朋友可能会比较懵逼,满脑子都是疑问,为什么要这样发?这样做有什么用?解决了什么问题? 如果一直带着这些问题可能没有办法好好思考推导过程。前面的一系列博客中,最开始介绍贝尔曼公式的时候:[【强化学习理论基础-通用】(04)从零开始白话给你讲[数学原理]:贝尔曼(BellmanEquation)方程式,从期望出发,评估策略价值(state value)](https://blog.cs原创 2024-12-04 21:38:38 · 893 阅读 · 0 评论 -
【强化学习理论基础-通用】(21)从零开始白话给你讲[数学原理]:随机梯度下降系列:AdaGrad(自适应)、AdaDelta、Adam等(TODO)
预留篇章站位,后续补充。原创 2024-12-01 00:55:53 · 876 阅读 · 0 评论 -
【强化学习理论基础-通用】(20)从零开始白话给你讲[数学原理]:随机梯度下降系列:BGD、SGD、MBGD,深入探讨与对比
该篇博客主要关于理论部分的知识点较多,会从多方位对随机梯度下降系列SGDBGDMBGDSGDBGDMBGDJwkηk12∗1I∑i1Iyi−yi2ykfwkηkxiηk(03)Jwkηk21∗I1i1∑Iyi−yi2ykfwkηkxiηk03。原创 2024-11-30 22:45:57 · 684 阅读 · 0 评论 -
【强化学习理论基础-通用】(19)从零开始白话给你讲[数学原理]:随机梯度下降系列:BGD、MBGD 数学推导(SGD推广)
需要注意的是,只有神经网络参数 $w_k$ 为变量,用于训练的数据对 ${x_i,\tilde y_i}$ 为已知量,爹带训练的目的就是使用数据对去调整 $w_k$ 使得其为最优权重 $w_k^*$,构建一个最优的神经网络 $f(w_k)$。且该模型部署时,输入任何数据 $x_j$,都能获得最优的估计 $\hat y_j=f(w_k,x_i)$,哪怕这个数据 $x_j$ 在训练过程中并没有出现过。原创 2024-12-15 20:06:05 · 790 阅读 · 0 评论 -
【强化学习理论基础-通用】(18)从零开始白话给你讲[数学原理]:随机梯度下降 SGD(Stochastic gradient descent) 数学推导
那么训练的过程中,有多重采样方式,比如说排序,随机,重复采样等。首先熟悉深度学习的朋友知道,通常在训练过程中,都是随机采样的,这是因为神经网络的拟合能力是很强的,如果按照顺序训练,其可能记住则个顺序,导实际应用过程中模型的鲁棒性下降。另外,通常每个数据都会被训练 Epoch 次,所以是属于重复采样的。熟悉深度学习的朋友可能有一个疑问,为什么上诉推导过程都是使用一个数据进行推导?实际使用过程中不都是多个数据吗?比如每次都是 mini-batch 个数据进行训练。是的,这就是我们下一篇博客要讲解的内容,那就原创 2024-11-25 20:56:50 · 868 阅读 · 0 评论 -
【强化学习理论基础-通用】(17)从零开始白话给你讲[数学原理]:随机近似(Stochastic Approximation),罗宾逊-蒙罗算法(Robbins-Monro algorithm)
上一篇博客在结尾阶段,对均值递推公式与神经网络权重更新过程进行了对比,发现具有很高的相似度,mkm_kmk表示均值,wkw_{k}wkmNmN−1−1NmN−1−xN(01)mNmN−1−N1mN−1−xN01wkwk−1−ak−1∇k−1Jwk−1(02)wkwk−1−ak−1∇k−1Jwk−1。原创 2024-11-22 00:40:03 · 559 阅读 · 0 评论 -
【强化学习理论基础-通用】(16)从零开始白话给你讲[数学原理]:随机近似(Stochastic Approximation),基础之均值递推,mode free 深入探讨
接下来的几篇博客中,主要介绍随机近似(Stochastic Approximation) 相关的算法,如罗宾逊-蒙罗算法(Robbins-Monro algorithm)、随机梯度下降算法(Stochastic Gradient Descent)、及演化或者推广出来相关算法 BGD、MBGD、SGD 等。后续过程会详细从底层原理开始剖析。不过在这之前需要有些预备知识需要讲解,其实在前面我们已经涉及到了随机近似(Stochastic Approximation)算法,在博客 [【强化学习理论基础-通用】(13原创 2024-11-15 02:32:05 · 797 阅读 · 0 评论 -
【强化学习理论基础-通用】(15)从零开始白话给你讲[数学原理]:蒙特卡洛(MC Epsilon Greedy),探索与收敛的平衡之道
上图进行了一个某次试验的数据统计(状态动作对较多的场景),当 $\epsilon$(epsilon) $=1$时,8300 步(steps)就可以访问所有的状态动作对,但是当 $\epsilon$(epsilon)$=0.5$ 则需要 几十甚至几百万步。所在实际工程中,如果使用蒙特卡洛(MC Epsilon Greedy) 算法,我们需要很好的去权衡 $\color{red} Exploration(探索)$ 与 $\color{red} Exploitation(利用)$ 的关系。原创 2024-11-10 16:59:15 · 659 阅读 · 0 评论 -
【强化学习理论基础-通用】(14)从零开始白话给你讲[数学原理]:蒙特卡洛(MC Exploring Starts),探索起点,不能错过任何一种可能
有的朋友可能比较奇怪,为什么叫蒙特卡洛(MC Exploring Starts)算法呢?有什么含义吗?首先其中 Exploring Starts 的含义是说,该算法每次迭代必须从每个状态 $s_i$ 至少要出发 $K$(动作可能性)次,不然没有办法确保该状态下的决策被优化到(如果某个状态下的动作都没有执行过,如何知道他是或者不是最优的呢?)。直白的说,就是每个状态都要探索一边,如何探索呢?就是轨迹从该状态开始,则表示对该状态进行了探索。这就是 $\color{red} 蒙特卡洛(MC~Exploring~S原创 2024-11-07 23:19:58 · 1007 阅读 · 0 评论 -
【强化学习理论基础-通用】(13)从零开始白话给你讲[数学原理]:蒙特卡洛(Monte Carlo Basic),model-base 到 free 关键之处,episode_length 截断影响
比如说,一款游戏,官方有说明,杀死一个怪物掉落金币为 $800$~$900$ 的概率为 $P=30\%$,你用他去构建一个算法,该类算法就称呼为 $model-base$ 的。因为你这个算法有可能只适用于这个游戏,甚至需要基于 【杀死一个怪物掉落金币为 $800$~$900$ 的概率为 $P=30\%$】这个前提条件下,这是你算法模型的固定参数,或者说你就是基于这个模型参数设置的,并不通用,所以说其是 $model-base$ 的。原创 2024-11-04 21:42:28 · 416 阅读 · 0 评论 -
【强化学习理论基础-通用】(12)从零开始白话给你讲[数学原理]:价值迭代(value)、策略迭代(policy)、截断迭代(truncated) 三者对比,大彻大悟经典篇
若把价值迭代(value)、策略迭代(policy)、截断迭代(truncated) 三者进行对比,即上面的(01),(02),(03) 式,可以发现价值迭代(value)、策略迭代(policy) 其实就是截断迭代(truncated)的两个极端。价值迭代(value)每次都会更新策略参数,即间隔为111,策略迭代(policy) 则需等待收敛,最后一次才进行策略参数更新。其就是截断迭代(truncated) 两个极端的体现。原创 2024-11-03 21:03:23 · 1096 阅读 · 0 评论 -
【强化学习理论基础-通用】(11)从零开始白话给你讲[数学原理]:价值迭代(value iteration)算法,何为 model-base?
虽然在前面的博客中,已经很彻底的剖析了贝尔曼公式以及贝尔曼最优公式,有的地方还是存在疑问的。比如,如何利用已知量(如奖励、折扣因子等)去编程?概率转移矩阵应该如何定义,可以随机定义吗?等一系列问题,到目前为止都没有进行深入的探讨。原创 2024-11-02 17:21:42 · 635 阅读 · 0 评论 -
【强化学习理论基础-通用】(10)从零开始白话给你讲[数学原理]:贝尔曼最优公式(Bellman Optimality)实践应用:奖励(r),折扣因子(γ) 调参分析,深刻领悟与公式推导
通过前面的学习,相信大家对贝尔曼公式已经有了比较深的了解,随意一路过来披荆斩棘。vπrπγPvπ(01)vπrπγPvπ01其中PPP为特殊转移矩阵,每行只有一个元素为111,其余全为000。虽然知道如何求解vπv_\pivπ,但是这是在给定rπr_{\pi}rπ与 确定γ\gammaγ的情况下,那么请问,实际应用过程中,这两个超参数应该如何取设计呢?怎么才能让策略的状态价值真正的高呢?原创 2024-11-01 15:57:08 · 755 阅读 · 0 评论 -
【强化学习理论基础-通用】(09)从零开始白话给你讲[数学原理]:贝尔曼最优公式(Bellman Optimality)求解,不动点,压缩函数(映射),价值迭代高效求解
①: 贝尔曼最优方程成立,且有解。②: 贝尔曼最优方程的解是唯一确定的,且是贪婪(Greedy)的,因为其回报最大的动作概率为 1②: 贝尔曼最优方程是压缩函数,可以根据其性质使用迭代的方式求解原创 2024-10-31 23:42:51 · 1050 阅读 · 0 评论 -
【强化学习理论基础-通用】(08)从零开始白话给你讲[数学原理]:贝尔曼最优公式(Bellman Optimality)初探,公式推导,知其然而知其所以然!
【强化学习理论基础-通用】(04)从零开始白话给你讲[数学原理]:贝尔曼(BellmanEquation)方程式,从期望出发,评估策略价值(state value)【强化学习理论基础-通用】(06)从零开始白话给你讲[数学原理]:贝尔曼(BellmanEquation)升级,向量矩阵方程式,深入浅出状态转移矩阵通过其可以求解状态价值(state value),从而能够评估一个策略的优劣,那么请问,在集合策略π0π1⋯πnπ0π1⋯πn。原创 2024-10-31 01:40:46 · 612 阅读 · 0 评论 -
【强化学习理论基础-通用】(07)从零开始白话给你讲[数学原理]:贝尔曼(BellmanEquation)之拓展,动作(行为)价值(Action value),优势(Advantage)
果只能体执行了某个动作,获取了奖励,那请问这个奖励是因为状态、还是动作呢?其中动作的占比又有多少。比如说,足式机器人智能体,行走了一步没有摔到,然后了他奖励,但是如果机器人处于比较好的状态(稳态)时,无论做什么动作,可能都能获得奖励(因为都不会摔倒)。也就是说这种情况,奖励获得大部分功劳都是源自于初始状态,而非执行的动作。原创 2024-10-29 01:15:45 · 941 阅读 · 0 评论