15、优势演员 - 评论家（A2C）算法全解析

最新推荐文章于 2025-09-12 10:47:37 发布

脸先着地天使

最新推荐文章于 2025-09-12 10:47:37 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习实战指南文章标签： A2C算法优势函数 GAE

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/jwt8token/article/details/152340369

深度强化学习实战指南专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

优势演员 - 评论家（A2C）算法全解析

1. 优势函数的表示与计算

优势函数在强化学习中有着重要的作用。将优势函数写成特定形式，可以发现它由多个 1 步优势组成，并且随着时间步的增加，这些 1 步优势会以 γ 进行指数加权。通过用 δ 简化相关方程，可以得到 n 步优势的表达式：
- (A^{\pi} t (1) = \delta_t)
- (A^{\pi}_t (2) = \delta_t + \gamma\delta {t+1})
- (A^{\pi} t (3) = \delta_t + \gamma\delta {t+1} + \gamma^2\delta_{t+2})

进一步将 (A^{\pi}(i)) 用 δ 表示后，代入相关方程并简化，可得到广义优势估计（GAE）的表达式：
(A^{\pi} {GAE}(s_t, a_t) = \sum {\ell=0}^{\infty} (\gamma\lambda)^{\ell}\delta_{t+\ell})

GAE 和 n 步优势函数估计都包含折扣因子 γ，它控制着算法对未来奖励和当前奖励的关注程度。同时，它们都有一个控制偏差 - 方差权衡的参数，n 用于优势函数，λ 用于 GAE。n 是一个硬选择，它精确地确定了高方差奖励被 V 函数估计替代的点；而 λ 是一个软选择，较小的 λ 值会更重视 V 函数估计，较大的值则会更重视实际奖励。

2. 学习优势函数

有两种方法可以估计优势函数：
- n 步估计 ：(A^{\pi}

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。