使用动态规划的目的是为了求解在一个策略下的状态的状态价值
具体案例可以参考[强化学习(三)用动态规划(DP)求解](https://www.cnblogs.com/pinard/p/9463815.html)
使用动态规划的目的是为了求解在一个策略下的状态的状态价值
具体案例可以参考[强化学习(三)用动态规划(DP)求解](https://www.cnblogs.com/pinard/p/9463815.html)
755
1万+

被折叠的 条评论
为什么被折叠?
