15、优势演员 - 评论家(A2C)算法全解析

优势演员 - 评论家(A2C)算法全解析

1. 优势函数的表示与计算

优势函数在强化学习中有着重要的作用。将优势函数写成特定形式,可以发现它由多个 1 步优势组成,并且随着时间步的增加,这些 1 步优势会以 γ 进行指数加权。通过用 δ 简化相关方程,可以得到 n 步优势的表达式:
- (A^{\pi} t (1) = \delta_t)
- (A^{\pi}_t (2) = \delta_t + \gamma\delta
{t+1})
- (A^{\pi} t (3) = \delta_t + \gamma\delta {t+1} + \gamma^2\delta_{t+2})

进一步将 (A^{\pi}(i)) 用 δ 表示后,代入相关方程并简化,可得到广义优势估计(GAE)的表达式:
(A^{\pi} {GAE}(s_t, a_t) = \sum {\ell=0}^{\infty} (\gamma\lambda)^{\ell}\delta_{t+\ell})

GAE 和 n 步优势函数估计都包含折扣因子 γ,它控制着算法对未来奖励和当前奖励的关注程度。同时,它们都有一个控制偏差 - 方差权衡的参数,n 用于优势函数,λ 用于 GAE。n 是一个硬选择,它精确地确定了高方差奖励被 V 函数估计替代的点;而 λ 是一个软选择,较小的 λ 值会更重视 V 函数估计,较大的值则会更重视实际奖励。

2. 学习优势函数

有两种方法可以估计优势函数:
- n 步估计 :(A^{\pi}

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值