22、强化学习中的策略评估与验证

强化学习中的策略评估与验证

1. 演员 - 评论员方法概述

在强化学习中,演员 - 评论员(Actor - Critic)方法是一种强大的策略优化技术。演员负责生成动作,而评论员则对演员的表现进行评估,为演员提供反馈以优化策略。

1.1 基本演员 - 评论员与广义优势估计对比

在简单调节器问题中,对比基本演员 - 评论员方法和广义优势估计(Generalized Advantage Estimation)。设定 $\gamma = 0.9$,采用高斯策略 $\pi_{\theta}(s) = N(\theta_1s, \theta_2^2)$ 和近似值函数 $U_{\phi}(s) = \phi_1s + \phi_2s^2$。结果表明,广义优势估计能更有效地接近表现良好的策略和值函数参数化。最优策略参数化为 $[-1, 0]$,最优值函数参数化接近 $[0, -0.7]$。

1.2 确定性策略梯度

确定性策略梯度(Deterministic Policy Gradient)方法可应用于连续动作空间的问题,使用确定性策略演员和动作值评论员。

1.2.1 评论员更新

定义损失函数 $\ell(\phi)$ 来最小化 $Q_{\phi}$ 的残差:
$\ell(\phi) = \frac{1}{2} E_{s,a,r,s’}[(r + \gamma Q_{\phi}(s’, \pi_{\theta}(s’)) - Q_{\phi}(s, a))^2]$
通过梯度下降更新 $\phi$,梯度为:
$\nabla\ell(\phi) = E_{s,a,r,s’}[(r

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值