强化学习算法解析与多臂老虎机策略实践
1. 优势演员 - 评论家(A2C)架构
A2C 是一种同步的、无模型的算法,旨在同时学习策略(演员)和价值函数(评论家)。它通过迭代改进演员和评论家网络来学习最优策略。通过估计优势,该算法可以对演员采取的行动质量提供反馈。评论家网络有助于估计价值函数,为优势计算提供基线。这种组合使算法能够以更稳定和高效的方式更新策略。
其架构包含以下关键元素:
- 演员网络 :生成动作。
- 评论家网络 :估计价值函数。
- 优势 :$A = Q(s,a) - V(s)$,用于衡量动作相对于基线的优势。
2. 近端策略优化(PPO)算法
PPO 是 OpenAI 设计的一种基于策略的无模型强化学习算法,已成功应用于许多领域,如视频游戏和机器人控制。它基于演员 - 评论家架构,为了解决策略梯度方法中可能出现的不稳定问题,提出了两种主要变体:PPO - penalty 和 PPO - clip。
2.1 PPO - penalty
在 PPO - penalty 中,目标函数中加入了一个约束,以确保策略更新不会与旧策略偏差太大。这一思想基于信任区域策略优化(TRPO),通过实施信任区域约束,TRPO 将策略更新限制在一个可控区域内,防止出现大的策略转变。PPO - penalty 主要受 TRPO 启发,使用以下无约束目标函数,可通过随机梯度上升进行优化:
[
L(\theta) = \hat{\mathbb{E}}
超级会员免费看
订阅专栏 解锁全文
1680

被折叠的 条评论
为什么被折叠?



