强化学习
文章平均质量分 94
A抽子
zzu->tju。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习的数学原理-09策略梯度
是策略的函数,不同策略对应的值不同,所以就可以去优化,找到一个最优的策略让这个值达到最大。这个公式是没有办法应用的,因为公式中有期望,所以需要通过随机的梯度来代替真实梯度。现在由于策略梯度的方法是直接建立一个关于策略的函数,于是就要改变策略的形式。上面这个式子是有用的,因为有期望,所以可以通过采样的方式去近似。这就是策略梯度的思想,这个想法是很简单的,但是这其中会存在一些问题。上面相乘再相加的形式可以写成一种更简洁的形式就是两个向量的内积。但是上面的式子仍然是无法应用的,因为上面的式子里面涉及了。原创 2024-11-12 15:41:44 · 408 阅读 · 0 评论 -
强化学习的数学原理-07时序差分方法
算法实际上是没有那么重要的,但是从一个经典算法出发,然后去推广改进,这种思路对于做研究来说是非常常见的。实际上也是在求解一个贝尔曼公式,只不过这个贝尔曼公式的形式和。基本上是一摸一样的,只不过是将对状态的估计,变成了对动作。,需要计算期望,也就需要更大的计算量,但是随机性减少了。算法及其变形在做的事情是给定一个策略能够估计出来一个。不同的是,这个贝尔曼期望方程是使用。这三个例子是层层递进的,都可以用。的距离更近了,所以这个算法就是把。这些数据的生成依赖于给定的策略。是一个比较小的正数,所以。原创 2024-10-29 21:08:44 · 1079 阅读 · 0 评论 -
强化学习的数学原理-06随即近似理论和随机梯度下降
的优势是不需要知道方程或目标函数的表达式,自然也不知道导数、梯度之类的信息.的随机性会比较大,需要的数据又比较少,效率和性能是比较高的.显示我们是不知道的(也是我们想要去求解的),但是我们可以对。:是指随机迭代的一类算法,进行求解方程或者优化的问题,求解这个问题下面给出3种方法,这三种方法是逐渐递进的。的随机性比较小,因为用了更多的数据去代替一个数据.的思想,思想比较简单,但是缺点是在每次更新。下面就看一下RM算法如何解决上面的问题。,如果能解决这个问题,就能得到。上面的这个式子就是所给出的。原创 2024-10-29 14:01:47 · 809 阅读 · 0 评论 -
强化学习的数学原理-05蒙特卡洛方法
总结:当模型未知的时候,我们就需要知道数据.没有数据的时候,需要有模型,反正两者需要其中的一个。逐渐减小,在开始时比较大,具有较好的探索能力,随着时间推移,逐渐减小,最后接近最优策略.这样期望计算起来就很简单了,但是问题是我们无法做到精确地知道这样的模型。这里是近似就会存在一个问题,这样去近似得到的结果是否是精确的?恰恰又是最优的,为了能得到最优的策略,我们还是要确保每一个。是没办法确保的,因为它依赖于策略和环境,没办法保证从一个。最难以理解的是怎么在没有模型的情况下去估计一些量。原创 2024-10-29 09:43:01 · 1096 阅读 · 0 评论 -
强化学习的数学原理-04值迭代与策略迭代
第一步进行:策略评估(PE, policy evaluation)Matrix-vector form对于理论分析通常是有用的。而实际中我们是不可能去计算无穷步的,我们之后计算算有限步,当。Elementwise form对于具体实现是有用的。是一个贪心的策略,因为他只是单纯地寻找最大的。主要的区别在Value更新的那一步。 根据贝尔曼方程可以计算出。是在计算了无穷步之后用收敛的。很小的时候就停止更新,这就是。是贪心的,上面的等式就变为。给一个随机初始化的策略。在计算了一步之后就用。原创 2024-10-28 11:47:56 · 923 阅读 · 0 评论 -
强化学习的数学原理-03贝尔曼最优公式
时策略又会发生变化,策略会变得非常短视,更具体地说策略只会关注。求解贝尔曼最优公式就是已知红色量求出上面公式中黑色的量。有了上面的压缩映射定理就可以解决贝尔曼最优公式了。求解不动点的算法:这是一个迭代式的算法,不断令。,同时收敛的速度会非常快(以指数的速度收敛),这样导致的结果可能是采用的策略根本到达不了。这个方程,求解这个方程就需要下面的知识了。,那么贝尔曼最优公式就可以利用上面的。基于上面的定义,于是就可以定义最优。比较小的时候则会比较短时,获得的。对于所有的状态s,和所有的策略。原创 2024-10-24 15:12:11 · 1041 阅读 · 0 评论 -
强化学习的数学原理-02贝尔曼公式
如果仅仅从这一个式子中求出state value是不可能的,但是注意到对于所有的state,贝尔曼公式都是成立的,如果有n个状态,那么就会有n个equation,把所有的equation放到一起就得到了一组,进一步就可把这些equation整理成matrix-vector form,matrix-vector form是非常优雅和重要的,对于我们求解state value是非常有帮助的。把所有的状态放到一起,就可以上面的式子变成matrix-vector form啦。原创 2024-10-22 11:49:10 · 797 阅读 · 0 评论 -
强化学习的数学原理-01基本概念
reward是action采取一个action后得到的实数,一个正的reward代表鼓励采取这样的action,一个负的reward代表惩罚这样的action。:有两种情况,一种是forbidden are可以到达,但是会得到相应的惩罚,另一种是forbidden area不可到达,相当于有一堵墙。从上图可以看到上面的trajectory是无限长的,对应的return是发散的。上面图片中的情况是确定性的策略,同时也有不确定的策略。相比于上面的表格,更一般的做法是使用下面这种方法。原创 2024-10-19 11:26:53 · 1023 阅读 · 0 评论
分享