强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）

策略学习与策略梯度

最新推荐文章于 2025-07-17 10:25:18 发布

原创最新推荐文章于 2025-07-17 10:25:18 发布 · 2.1k 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #python #强化学习 #人工智能 #策略梯度

强化学习专栏收录该内容

16 篇文章

订阅专栏

本文介绍了强化学习中策略学习的基础概念，包括策略网络如何近似策略函数、状态价值函数的定义及其近似方法，并详细解释了策略梯度方法的工作原理，展示了如何利用策略梯度进行参数更新。

强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）

1. 策略学习
2. 策略梯度
3. 案例

1. 策略学习

Policy Network

通过策略网络近似策略函数
$π(a|s_t)≈π(a|s_t;\theta)$
状态价值函数及其近似
$V_π(s_t)=\sum_aπ(a|s_t)Q_π(s_t,a)$
$V(s_t;\theta)=\sum_aπ(a|s_t;\theta)·Q_π(s_t,a)$
策略学习最大化的目标函数
$J(\theta)=E_S[V(S;\theta)]$
依据策略梯度上升进行
$\theta\gets\theta+\beta·\frac{\partial V(s;\theta)}{\partial \theta}$

2. 策略梯度

Policy Gradient

$\frac{\partial V(s;\theta)}{\theta}=\sum_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\int_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\sum_a{\pi(a|s;\theta)·Q_\pi(s,a)\frac{\partial ln[\pi(a|s;\theta)]}{\partial\theta}}\\=E_{A\sim\pi(a|s;\theta)}[Q_\pi(s,A)\frac{\partial ln[\pi(A|s;\theta)]}{\partial\theta}]\\≈Q_\pi(s_t,a_t)\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta}$

观测得到状态
$s_t$
依据策略函数随机采样动作
$a_t = \pi(a_t|s_t;\theta)$
计算价值函数
$q_t = Q_\pi(s_t,a_t)$
求取策略网络的梯度
$d_{\theta,t}=\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta}|\theta=\theta_t$
计算近似的策略梯度
$g(a_t,\theta _t)=q_t·d_{\theta,t}$
更新策略网络
$\theta_{t+1}=\theta_t+\beta·g(a_t,\theta_t)$

3. 案例

目前没有好的方法近似动作价值函数，则未撰写案例。

by CyrusMay 2022 03 29

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。