动态规划求解MDP(基于贝尔曼方程) 一、策略迭代法 1. 策略评估 基于贝尔曼方程的动态规划迭代: 基本思想:在当前策略Pi下,初始化值函数V0,用当前策略和前Vk来更新Vk+1,直至Vk+1收敛 2. 策略改进 a−new=argmaxaQπ(s,a) a_{-} n e w=\arg \max _{a} Q_{\pi}(s, a) a