33、强化学习算法解析与多臂老虎机策略实践

强化学习算法解析与多臂老虎机策略实践

1. 优势演员 - 评论家(A2C)架构

A2C 是一种同步的、无模型的算法,旨在同时学习策略(演员)和价值函数(评论家)。它通过迭代改进演员和评论家网络来学习最优策略。通过估计优势,该算法可以对演员采取的行动质量提供反馈。评论家网络有助于估计价值函数,为优势计算提供基线。这种组合使算法能够以更稳定和高效的方式更新策略。

其架构包含以下关键元素:
- 演员网络 :生成动作。
- 评论家网络 :估计价值函数。
- 优势 :$A = Q(s,a) - V(s)$,用于衡量动作相对于基线的优势。

2. 近端策略优化(PPO)算法

PPO 是 OpenAI 设计的一种基于策略的无模型强化学习算法,已成功应用于许多领域,如视频游戏和机器人控制。它基于演员 - 评论家架构,为了解决策略梯度方法中可能出现的不稳定问题,提出了两种主要变体:PPO - penalty 和 PPO - clip。

2.1 PPO - penalty

在 PPO - penalty 中,目标函数中加入了一个约束,以确保策略更新不会与旧策略偏差太大。这一思想基于信任区域策略优化(TRPO),通过实施信任区域约束,TRPO 将策略更新限制在一个可控区域内,防止出现大的策略转变。PPO - penalty 主要受 TRPO 启发,使用以下无约束目标函数,可通过随机梯度上升进行优化:

[
L(\theta) = \hat{\mathbb{E}}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值