5、策略梯度与REINFORCE算法详解

策略梯度与REINFORCE算法详解

1. 策略梯度概述

策略梯度算法旨在解决最大化目标函数 $J(\pi_{\theta})$ 的问题,其目标函数定义为:
[
\max_{\theta} J(\pi_{\theta}) = E_{\tau \sim \pi_{\theta}}[R(\tau)]
]
其中,$\tau$ 是从策略 $\pi_{\theta}$ 采样得到的轨迹,$R(\tau)$ 是轨迹 $\tau$ 的回报。为了最大化目标函数,我们对策略参数 $\theta$ 进行梯度上升操作,更新公式如下:
[
\theta \leftarrow \theta + \alpha \nabla_{\theta} J(\pi_{\theta})
]
这里,$\alpha$ 是学习率,用于控制参数更新的步长,$\nabla_{\theta} J(\pi_{\theta})$ 就是策略梯度,其定义为:
[
\nabla_{\theta} J(\pi_{\theta}) = E_{\tau \sim \pi_{\theta}} \left[ \sum_{t=0}^{T} R_{t}(\tau) \nabla_{\theta} \log \pi_{\theta}(a_{t} | s_{t}) \right]
]
$\pi_{\theta}(a_{t} | s_{t})$ 表示在时间步 $t$ 时,智能体采取动作 $a_{t}$ 的概率,动作 $a_{t}$ 是从策略 $\pi_{\theta}(s_{t})$ 中采样得到的。

策略梯度的作用是改变策略产生的动作概率。如果回报 $R_{t}(\

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值