Easy-RL项目第九章：深入理解演员-评论员算法-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01148/article/details/148393989

Easy-RL项目第九章：深入理解演员-评论员算法

easy-rl 强化学习中文教程（蘑菇书🍄），在线阅读地址：https://datawhalechina.github.io/easy-rl/ 项目地址: https://gitcode.com/gh_mirrors/ea/easy-rl

引言

演员-评论员算法（Actor-Critic）是强化学习领域中一类重要的算法，它结合了基于价值的方法和基于策略的方法的优点。本章将详细介绍演员-评论员算法的核心概念、优势以及几种重要变体，帮助读者全面理解这一算法家族。

核心概念解析

1. 演员-评论员算法基础

演员-评论员算法由两个主要组件构成：

演员（Actor）：负责策略函数，决定在给定状态下应该采取什么动作
评论员（Critic）：负责价值函数，评估当前策略的好坏

这种架构结合了策略梯度方法（直接优化策略）和价值函数方法（评估状态或状态-动作对的价值）的优点。

2. 优势演员-评论员（A2C）算法

A2C算法是对基础演员-评论员算法的改进，它引入了优势函数的概念：

优势函数A(s,a) = Q(s,a) - V(s)，表示在状态s下采取动作a相对于平均水平的优势。使用优势函数可以减少方差，使学习更加稳定。

A2C的工作流程可以概括为：

演员与环境交互收集数据
评论员使用这些数据估计价值函数
基于优势函数更新策略
重复上述过程

数学表达式为： $$ \nabla \bar{R}{\theta} \approx \frac{1}{N} \sum{n=1}^{N} \sum_{t=1}^{T_{n}}\left(r_{t}^{n}+V_{\pi}\left(s_{t+1}^{n}\right)-V_{\pi}\left(s_{t}^{n}\right)\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right) $$

3. 异步优势演员-评论员（A3C）算法

A3C算法通过异步并行训练进一步提升了A2C的效率：

多个actor-learners并行运行，每个都有自己环境的副本
定期将学习到的参数同步到全局网络
这种并行性不仅加速了训练，还因为不同的actor-explorers可能探索环境的不同部分，从而增加了探索的多样性

A3C是同策略(on-policy)算法，因为每个actor-learner都基于自己当前的策略生成数据并从中学习。

关键技术细节

1. 实现技巧

在实际实现演员-评论员算法时，有几个重要技巧：

网络结构设计：
- 通常使用两个网络：价值网络和策略网络
- 由于两者都接收状态作为输入，可以共享前面的网络层（如卷积层）
- 这种共享减少了计算资源需求并提高了特征提取的效率
探索机制：
- 为了防止策略过早收敛到次优解，需要对策略的输出分布进行限制
- 常用方法是增加熵正则化项，保持动作分布的多样性
- 这确保了智能体在测试时能充分探索环境