复杂环境决策中的强化学习算法解析
1. 贝尔曼方程推导
在深入探讨强化学习(RL)算法之前,我们先简要回顾一下贝尔曼方程的推导,它可用于策略评估。贝尔曼方程是许多强化学习算法的核心要素之一,它简化了价值函数的计算,避免了对多个时间步的求和,而是采用类似于计算回报的递归方式。
基于总回报的递归方程 $G_t = r + \gamma G_{t+1}$,我们可以将价值函数重写为:
- 状态价值函数:
- $v_{\pi}(s) \triangleq E_{\pi}[G_t|S_t = s] = E_{\pi}[r + \gamma G_{t+1}|S_t = s] = r + \gamma E_{\pi}[G_{t+1}|S_t = s]$
- 由于即时奖励 $r$ 在时间 $t$ 是已知常量,所以可以从期望中提出。
- 动作价值函数:
- $q_{\pi}(s, a) \triangleq E_{\pi}[G_t|S_t = s, A_t = a] = E_{\pi}[r + \gamma G_{t+1}|S_t = s, A_t = a] = r + \gamma E_{\pi}[G_{t+1}|S_t = s, A_t = a]$
我们可以利用环境动态,通过对下一个状态 $s’$ 的所有概率和相应奖励 $r$ 求和来计算期望:
$v_{\pi}(s) = \sum_{a \in \hat{A}} \pi(a|s) \sum_{s’ \in \hat{S}, r’ \in \hat{R}} p(s’, r’|s, a) [r’ + \gamma E_{\pi}[G_{t+1}|S_{t+1} = s’]]$
超级会员免费看
订阅专栏 解锁全文
404

被折叠的 条评论
为什么被折叠?



