
强化学习
文章平均质量分 94
WanGxxxx.
低调做人,高调做事
展开
-
强化学习中的值迭代算法与实现
首先 vpis是对s的真的 state value vhat是他的一个估计值,我们的目标就是让vhat尽可能逼近,如果 vhat的结构是确定的时候,他是一个直线,抛物线,或者是神经网络拟合的黑箱,那么vhat(s,w),s确定了,我们可以调节的就是w,我们要做的就是找到一个最优的w,让这个vhat去接近vpi,这个问题实际上就变成了一个 policy的问题,我给了一个策略,我要找到一个近似的函数vhat,让他去接近真实的state value,之后也可以得到action value。原创 2025-03-08 18:41:41 · 723 阅读 · 0 评论 -
强化学习数学基础(七)——时序差分
时间差分算法,TD 算法是一种结合了动态规划(DP)和蒙特卡罗(MC)方法思想的强化学习算法,它能够在不需要完整环境模型的情况下,通过与环境的交互学习得到最优策略,用于估计值函数等强化学习中的关键量.原创 2025-02-10 18:51:29 · 990 阅读 · 0 评论 -
强化学习数学原理(四)——蒙特卡洛方法
在强化学习中,要计算在策略pi下的状态 - 动作值函数 q(s,a),即从状态出发,采取动作a后,遵循策略pi所获得的期望回报。重复这个过程,直到到达终止状态,形成一个 episode,如(s0,a0,r0,s1,a1,r1,...,st,at,r),其中T是终止时刻,该 episode 的回报。从状态s出发,采取动作a,然后按照策略pi在环境中进行交互,直到到达终止状态,这一过程称为一个 episode,得到一个回报 g(s,a)。假设,有一枚硬币,抛硬币后,若正面朝上,定义随机变量X=1;原创 2025-02-01 23:29:02 · 1325 阅读 · 0 评论 -
强化学习数学原理(三)——迭代算法
上面是贝尔曼最优公式,之前我们说过,f(v)=v,贝尔曼公式是满足contraction mapping theorem的,能够求解除它最优的策略和最优的state value,我们需要通过一个最优v*,这个v*来计算状态pi*,而vk通过迭代,就可以求出唯一的这个v*,而这个算法就叫做值迭代。V(s)是状态s的最优价值,R是在状态s时执行动作a可获得的,y是折扣因子(衰减系数),还有状态概率矩阵P。后面给出代码验证原创 2025-01-27 22:51:07 · 974 阅读 · 0 评论 -
强化学习数学原理(二)——贝尔曼公式
贝尔曼公式的基础,应该算是计算的基础吧,之后的代码尽量都换成matlab来实现原创 2025-01-26 22:36:26 · 804 阅读 · 0 评论 -
强化学习基本概念
主要还是复习的时候自己看,能理解一些主要的概念。说白了 优快云就是移动笔记,方便自己在外面闲着没事的时候,拿起来看一下,能够巩固这些知识,这一部分就是说明强化学习里面一些重要基础知识的原创 2024-12-17 19:41:16 · 523 阅读 · 0 评论