【强化学习入门笔记】 2.1 值迭代

自动驾驶小白说

于 2024-12-11 21:18:10 发布

阅读量935

点赞数 8

文章标签：笔记算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2403_86993842/article/details/144410492

版权

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.

本节我们将介绍强化学习中的值迭代求解方法.

2.1.1 算法步骤

在1.5节我们介绍了通过迭代可以求贝尔曼最优公式的最优解, 这个方法就叫值迭代:

$v_{k+1}=\max _{\pi \in \Pi}\left(r_\pi+\gamma P_\pi v_k\right), \quad k=0,1,2, \ldots$

当迭代数 $\rightarrow \infty$ 时, $v_k,\pi_k$ 会收敛到最优值. 它的算法步骤为:

2.1.1.1 更新策略 $\pi$

基于当前 $v_k,\pi_k$ , 求最优化问题: 使得上式状态值最大的最优策略 $\pi$ , 并将其更新给 $\pi_{k+1}$

$\pi_{k+1}=\arg \max _\pi\left(r_\pi+\gamma P_\pi v_k\right),$

式子中的矩阵展开可以写为:

$\pi_{k+1}(s)=\arg \max _\pi \sum_a \pi(a \mid s) \underbrace{\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_k\left(s^{\prime}\right)\right)}_{q_k(s, a)}, \\ \quad s \in \mathcal{S} .$

1.5节我们介绍过了, 最优解是一个确定贪婪策略, 即只有最佳动作的选择概率是1:

$\pi_{k+1}(a \mid s)= \begin{cases}1, & a=a_k^*(s) \\ 0, & a \neq a_k^*(s)\end{cases}$

其中动作 $a_k^*(s)$ 是最优解: $a_k^*(s)=\arg \max _a q_k(s, a)$

2.1.1.2 更新值 $v$

得到新的策略 $\pi_{k+1}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。