强化学习知识要点与编程实践（2）——动态规划寻找最优策略

ReEchooo

于 2021-03-16 19:32:38 发布

阅读量577

点赞数 2

分类专栏：强化学习基础理论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41773233/article/details/114881006

版权

强化学习基础理论专栏收录该内容

13 篇文章 ¥119.90 ¥299.90

订阅专栏

动态规划寻找最优策略

0. 前言
1. 策略评估
2. 策略迭代
3. 价值迭代
4. 异步动态规划算法
5. 编程实践

0. 前言

本文未经许可禁止转载，如需转载请联系笔者

本章将详细讲解如何利用动态规划算法来解决强化学习中的规划问题。规划问题包含两个方面的内容，一是预测（prediction），二是控制(control)，预测问题是给定策略，然后求在这个给定策略下，各个状态的价值；控制问题是不给定策略，只给定必要的环境信息（如奖励和状态转移概率等），然后求解最优策略和此策略下的最优价值函数。

动态规划是指把求解复杂问题分解为求解子问题，通过求解子问题进而得到整个问题的解。它需要求解的问题具有两个性质：一是可分解为一系列子问题，二是子问题具有重复性。

而马尔可夫决策过程恰好具备这两个性质，贝尔曼方程就决定了状态价值的可分性，而状态价值函数就存储了子问题的解，重复子问题直接通过状态价值函数即可求解。

下面来讲述如何求解预测和控制问题。

1. 策略评估

策略评估(policy evaluation)指计算给定策略下状态价值函数的过程。显然这是 预测问题 ，求解这一问题的思路是，首先

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。