强化学习经典算法笔记——价值迭代算法
由于毕业设计做的是强化学习相关的内容,感觉有必要把强化学习经典算法实现一遍,加强对算法和编程的理解。所以从这一篇开始,每一篇实现一个算法,主要包括Value Iteration,Policy Iteration,Q Learning,Actor-Critic算法及其衍生的DDPG等。期间还会在代码中介绍OpenAI Gym中的游戏环境。
强化学习的基本概念不再赘述,可以参考《深入浅出强化学习:原理入门》。
正文开始。
简单介绍
对于简单的强化学习问题,可以用马尔科夫决策过程(Markov Decision Process,MDP)来建模。通过引入Value Function和Q Function,可以推导出用以解决MDP问题的贝尔曼方程:
V ∗ ( s ) = m a x a ∑ s ′ P s s ′ a [ R s s ′ a + γ ∑ a ′ Q π ( s ′ , a ′ ) ] V^*(s) = max_a \sum_{s'} P_{ss'}^{a}[ R_{ss'}^a + \gamma \sum_{a'}Q^{\pi}(s',a') ] V∗(s)=maxas′∑P