强化学习之动态规划

最新推荐文章于 2024-01-18 02:10:47 发布

静_流

最新推荐文章于 2024-01-18 02:10:47 发布

阅读量3.9k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：【算法】强化学习

本文链接：https://blog.youkuaiyun.com/hiwallace/article/details/81220130

本文深入探讨了强化学习中的动态规划方法，包括策略评价、策略迭代、值迭代等。介绍了同步备份下的迭代策略评价算法，解释了贝尔曼期望方程及其在策略提升中的应用。动态规划引申部分涉及异步动态规划，如就地动态规划、优先清理和实时动态规划，以及全宽备份和样本备份策略。此外，文章还讨论了动态规划中的数学基础，如迭代方法和压缩映射的收敛性证明。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

动态规划（Dynamic Propramming）

当一个精确的环境模型时，可以用动态规划去解决。总体来说，就是将一个问题分解成子问题，通过解决子问题来解决原问题。动态指针对序列问题，规划指优化，找到策略。
动态规划解决的问题具备两种性质：

最优子结构
- 满足最优性原理
- 最优的解可以被分解成子问题的最优解
交叠式子问题
- 子问题能够被多次重复
- 子问题的解要能够被缓存并再利用

MDPs满足以上两个特性：
- 贝尔曼方程用递归的形式，把问题分解成子问题
- 值函数有效的存储了子问题的解，能够再利用
因此动态规划可以应用于MDPs的问题，使用动态规划解决强化学习问题时，要求指导MDPs的所有元素：

评价
- 输入：MDP<S,A,P,R, $\gamma$ > 和策略 $\pi$ 或者 MRP<S, $P^{\pi},R^{\pi},\gamma$ >
- 输出：值函数 $v_{\pi}$
优化
- 输入： MDP<S,A,P,R, $\gamma$ >
- 输出：最优值函数 $v_*$ 和最优策略 $\pi_{*}$

策略评价

问题：给定一个策略 $\pi$ ，求对应的值函数 $v_{\pi}(s)　or　q_{\pi}(s,a)$
解决方法：

直接解： $v_{\pi}=(1-\gamma P^{\pi})^{-1}R^{\pi}$
- 可以直接求得精确解
- 时间复杂度比较高 $O(n^3)$
迭代解： $v_1->v_2->...->v_{\pi}$
- 利用贝尔曼期望方程迭代求解，可以收敛到最优解
贝尔曼期望方程：

vπ(s)=∑a∈Aπ(a|s)(R(s,a)+γ∑s′∈SPass′vπ(s′))

可以得到如下迭代等式：

vk+1(s)=∑a∈Aπ(a|s)(R(s,a)+γ∑s′∈SPass′vk(s′))

简写为

vk+1=Rπ+γPπvk

同步备份下的迭代式策略评价算法

备份： $v_{k+1}(s)$ 需要用到 $v_k(s^{'})$ ，用 $v_k(s^{'})$ 更新 $v_{k+1}(s^{'})$ 的过程称为备份。更新状态s的值函数称为备份状态s

同步：每次更新都需要更新完所有的状态

#伪代码
for k=1,2,... do
    for 所有状态s in S do
        使用迭代式更新值函数v
    end for
end for

策略提升

策略性价值函数通过筛选方式来改进策略，有几个常见的策略筛选方式：
贪婪策略，e-greedy策略，高斯策略，玻尔兹曼策略

策略提升定理
对于两个确定的策略 $\pi^{'}$ 和 $\pi$ ，如果满足 $q_{\pi}(s,\pi^{'}(s)) \geq v_{\pi}(s)$ ，那么我们可以得到

v π'

最低0.47元/天解锁文章

200万优质内容无限畅学