基于模型的强化学习,可以用动态规划求解
动态规划要求知道马尔科夫五元组:状态集、动作集、状态转移矩阵、奖励、折扣因子 ---使用贝尔曼方程
1、前言
什么是动态规划?
2、策略评价
3、策略提升
4、策略迭代(策略评价+策略提升+...)
5、值迭代
参考连接:
https://blog.youkuaiyun.com/hiwallace/article/details/81220130
基于模型的强化学习,可以用动态规划求解
动态规划要求知道马尔科夫五元组:状态集、动作集、状态转移矩阵、奖励、折扣因子 ---使用贝尔曼方程
参考连接:
https://blog.youkuaiyun.com/hiwallace/article/details/81220130