强化学习与动态规划:原理、算法及应用
1. 强化工程基础
在强化学习中,策略 $\pi$ 下状态 $d$ 中采取行动 $e$ 的价值,即从 $d$ 开始的预期回报,用动作价值函数 $q_{\pi}(d, e)$ 表示,其公式为:
[q_{\pi}(d, e) = \mathbb{E} {\pi}\left[\sum {t=0}^{\infty} \gamma^{t} G_{t + 1} \mid S_{0} = d, A_{0} = e\right]]
这里的 $G_{t}$ 是从时间步 $t$ 开始的累计回报,$\gamma$ 是折扣因子。
价值函数 $v_{\pi}$ 和 $q_{\pi}$ 可以通过经验来测量。例如,对于遇到的每个状态,如果智能体遵循策略 $\pi$ 并维护该状态实际回报的平均值,那么当该状态被遇到的次数趋近于无穷大时,这个平均值将收敛到该状态的价值 $v_{\pi}(d)$。如果针对状态中采取的每个动作考虑不同的平均值,那么这些平均值将收敛到该动作的价值 $q_{\pi}(d, e)$,这种方法被称为蒙特卡罗方法,用于对实际回报的多个随机样本进行平均。
对于任何策略 $\pi$ 和任何状态 $d$,$d$ 的价值与其可行后继状态的价值之间存在一致性条件,用贝尔曼方程表示为:
[v_{\pi}(d) = \sum_{e \in A(d)} \pi(e \mid d) \sum_{a \in R} \sum_{d’ \in D} p(d’, a \mid d, e) [a + \gamma v_{\pi}(d’)]]
该方程表明起始状态的价值需要等于预期的下一个状态价值与预期奖励之和。价值函数 $v
超级会员免费看
订阅专栏 解锁全文
2803

被折叠的 条评论
为什么被折叠?



