优势演员 - 评论家(A2C)算法详解
1. 优势函数相关概念
优势函数以特定形式书写很有用,它由多个 1 步优势组成,且随着时间步增加,这些 1 步优势会被 γ 指数加权。通过用 δ 简化方程 6.13 的项可得到方程 6.14,这表明 n 步优势 (A^{\pi}(n)) 是指数加权的 δ(即 1 步优势)之和:
[
\begin{align }
A^{\pi} t(1) &= \delta_t\
A^{\pi}_t(2) &= \delta_t + \gamma\delta {t + 1}\
A^{\pi} t(3) &= \delta_t + \gamma\delta {t + 1} + \gamma^2\delta_{t + 2}
\end{align }
]
将 (A^{\pi}(i)) 用 δ 表示后,代入方程 6.11 并简化,可得到广义优势估计(GAE)的简单表达式:
[
A^{\pi} {GAE}(s_t, a_t) = \sum {\ell = 0}^{\infty}(\gamma\lambda)^{\ell}\delta_{t + \ell}
]
GAE 和 n 步优势函数估计都包含折扣因子 γ,它控制着算法对未来奖励与当前奖励的关注程度。此外,它们都有一个控制偏差 - 方差权衡的参数:n 用于优势函数,λ 用于 GAE。虽然 n 和 λ 都控制偏差 - 方差权衡,但方式不同。n 是一种硬选择,它精确确定了高方差奖励切换为 V 函数估计的点;而 λ
超级会员免费看
订阅专栏 解锁全文
1144

被折叠的 条评论
为什么被折叠?



