优势演员 - 评论家(A2C)算法全解析
1. 优势函数的表示与计算
优势函数在强化学习中有着重要的作用。将优势函数写成特定形式,可以发现它由多个 1 步优势组成,并且随着时间步的增加,这些 1 步优势会以 γ 进行指数加权。通过用 δ 简化相关方程,可以得到 n 步优势的表达式:
- (A^{\pi} t (1) = \delta_t)
- (A^{\pi}_t (2) = \delta_t + \gamma\delta {t+1})
- (A^{\pi} t (3) = \delta_t + \gamma\delta {t+1} + \gamma^2\delta_{t+2})
进一步将 (A^{\pi}(i)) 用 δ 表示后,代入相关方程并简化,可得到广义优势估计(GAE)的表达式:
(A^{\pi} {GAE}(s_t, a_t) = \sum {\ell=0}^{\infty} (\gamma\lambda)^{\ell}\delta_{t+\ell})
GAE 和 n 步优势函数估计都包含折扣因子 γ,它控制着算法对未来奖励和当前奖励的关注程度。同时,它们都有一个控制偏差 - 方差权衡的参数,n 用于优势函数,λ 用于 GAE。n 是一个硬选择,它精确地确定了高方差奖励被 V 函数估计替代的点;而 λ 是一个软选择,较小的 λ 值会更重视 V 函数估计,较大的值则会更重视实际奖励。
2. 学习优势函数
有两种方法可以估计优势函数:
- n 步估计 :(A^{\pi}
超级会员免费看
订阅专栏 解锁全文
2323

被折叠的 条评论
为什么被折叠?



