强化学习问题求解:动态规划方法
在强化学习(RL)和马尔可夫决策过程(MDP)中,我们的目标是获得(接近)最优策略。但首先,我们需要一种方法来评估给定的策略,以便比较不同策略并找出更优的那个。接下来,我们将深入探讨动态规划(DP)中的策略评估方法。
策略评估
在MDP和RL中,我们的目标是获得(接近)最优策略。但如何评估一个给定的策略呢?如果无法评估,就无法比较不同策略的优劣。因此,我们从策略评估(也称为预测问题)开始讨论DP方法。评估给定策略有多种方法,这里我们采用迭代版本。
迭代策略评估算法
对于给定策略,状态的值定义如下:
$v_{\pi}(s)$ 是从状态 $s$ 开始并遵循策略 $\pi$ 的预期折扣累积奖励。在食品卡车示例中,状态 $(Mon, 0)$ 的值是周一库存为零时一周的预期奖励(利润)。使 $v(Mon, 0)$ 最大化的策略就是最优策略!
$v_{\pi}(s) \triangleq E_{\pi}[G_{t}|S_{t}= s] = E_{\pi}[\sum_{k=0}^{\infty}\gamma^{k}R_{t+k+1}|S_{t}= s]$
贝尔曼方程告诉我们,状态值必须相互一致。即预期的一步奖励加上下一状态的折扣值应等于当前状态的值。更正式地说:
$v_{\pi}(s) \triangleq E_{\pi}[R_{t+1} + \gamma v_{t+1}|S_{t}= s] = E_{\pi}[R_{t+1} + \gamma v_{\pi}(S_{t+1})|S_{t}= s]$
$v_{\pi}(s) \triangleq \sum_{a}\pi(a|s)\
超级会员免费看
订阅专栏 解锁全文
1308

被折叠的 条评论
为什么被折叠?



