强化学习（四）—— Actor-Critic

原创

已于 2022-03-30 17:11:08 修改 · 4.3k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #强化学习 #人工智能 #算法 #Actor-Critic

于 2022-03-29 20:37:34 首次发布

强化学习（四）—— Actor-Critic

1. 网络结构
2. 网络函数
3. 策略网络的更新-策略梯度
4. 价值网络的更新-时序差分（TD）
5. 网络训练流程
6. 案例

在这里插入图片描述

1. 网络结构

状态价值函数：
$V_\pi(s_t)=\sum_aQ_\pi(s_t,a)\cdot\pi(a|s_t)$
通过策略网络近似策略函数:
$\pi(a|s)\approx\pi(a|s;\theta)$
通过价值网络近似动作价值函数:
$q(s,a;W)\approx Q(s,a)$
神经网络近似后的状态价值函数:
$V(s;\theta ,W)=\sum_aq(s,a;W)*\pi(a|s;\theta)$
通过对策略网络不断更新以增加状态价值函数值。
通过对价值网络不断更新来更好的预测所获得的回报。

2. 网络函数

Policy Network

通过策略网络近似策略函数
$π(a|s_t)≈π(a|s_t;\theta)$
状态价值函数及其近似
$V_π(s_t)=\sum_aπ(a|s_t)Q_π(s_t,a)$
$V(s_t;\theta)=\sum_aπ(a|s_t;\theta)·Q_π(s_t,a)$
策略学习最大化的目标函数
$J(\theta)=E_S[V(S;\theta)]$
依据策略梯度上升进行
$\theta\gets\theta+\beta·\frac{\partial V(s;\theta)}{\partial \theta}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。