在一段更新值函数的循环后,停止策略评估后再进行策略完善的步骤就是值迭代
伪代码如下
每次更新后,当值函数逼近结果已收敛,获得最终值函数的策略
强化学习&动态规划2.4 | 值迭代 Value Iteration
最新推荐文章于 2025-05-01 21:49:48 发布
在一段更新值函数的循环后,停止策略评估后再进行策略完善的步骤就是值迭代
伪代码如下
每次更新后,当值函数逼近结果已收敛,获得最终值函数的策略