强化学习经典算法笔记——价值迭代算法
由于毕业设计做的是强化学习相关的内容,感觉有必要把强化学习经典算法实现一遍,加强对算法和编程的理解。所以从这一篇开始,每一篇实现一个算法,主要包括Value Iteration,Policy Iteration,Q Learning,Actor-Critic算法及其衍生的DDPG等。期间还会在代码中介绍OpenAI Gym中的游戏环境。
强化学习的基本概念不再赘述,可以参考《深入浅出强化学习:原理入门》。
正文开始。
简单介绍
对于简单的强化学习问题,可以用马尔科夫决策过程(Markov Decision Process,MDP)来建模。通过引入Value Function和Q Function,可以推导出用以解决MDP问题的贝尔曼方程:
V∗(s)=maxa∑s′Pss′a[Rss′a+γ∑a′Qπ(s′,a′)] V^*(s) = max_a \sum_{s'} P_{ss'}^{a}[ R_{ss'}^a + \gamma \sum_{a'}Q^{\pi}(s',a') ] V∗(s)=maxas′∑Pss′a

最低0.47元/天 解锁文章
5816

被折叠的 条评论
为什么被折叠?



