【强化学习的数学原理】第04课-值迭代与策略迭代-笔记

最新推荐文章于 2025-08-28 16:22:39 发布

原创

最新推荐文章于 2025-08-28 16:22:39 发布 · 1.2k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #机器学习

学习资料：bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接：强化学习的数学原理西湖大学赵世钰

文章目录

一、值迭代算法
二、策略迭代算法
三、截断策略迭代算法
四、本节课内容summary

一、值迭代算法

值迭代算法主要包括两部分。

第一部分：policy update。给定 $v_k$ ，求解 $ma x$ 最优化问题，其实就是求 $\pi$ 。
第一部分：value update。根据求解出来的新的策略 $\pi$ ，即 $\pi_{k+1}$ ，把新策略代入到式子中，求出新的state value $v_{k+1}$ 。
在这里插入图片描述
下面详细看policy update的过程。首先要对每一个状态s，求出其 $q_k(s,a)$ 。因为各变量都是已知的，所以能很方便地求出结果。然后，对于每一个状态s的 $q_k(s,a)$ ： $q_k(s,a_1)$ 、 $q_k(s,a_2)$ 、 $q_k(s,a_3)$ …找出其中最大的 $q_k$ ，选择对应的动作a作为策略 $\pi_{k+1}(a|s)$ 。所以这种策略是一个确定性的策略，且是一个贪婪的策略，只会寻求最大的 $q$ 值。
在这里插入图片描述

下面详细看value update的过程。类似地，要对每一个状态s，求出其 $q_k(s,a)$ 。因为各变量都是已知的， $v_k(s')$ 也是已知的（要么是刚开始赋值的，要么是前一轮算出来的 $v_{k+1}(s)$ 拿过来继续用），所以能很方便地求出结果。在上一步已经求出来最优的 $\pi_{k+1}(a|s)$ 了，所以直接代入相应的值，就能得出 $v_{k+1}(s)$ 。因为 $\pi_{k+1}(a|s)$ 只有在q值最大的情况下才等于1，在其他情况下都等于0，所以 $v_{k+1}(s)$ 直接就等于 $\mathop{max}\limits_{a}q_k(s,a)$ 。
在这里插入图片描述
下面是值迭代方法的伪代码。一开始有一个初值 $v_k$ ，当 $v_k$ 还没有收敛（ $v_k-v_{k-1}$ 的值不够小）的时候，就进行下面的步骤。对于第k次迭代，对于状态空间中的每一个状态s，算出其 $q_k(s,a)$

最低0.47元/天解锁文章