强化学习-策略梯度与值函数

本文介绍了Q-learning、DQN及其改进算法在强化学习中的应用,重点讨论了基于值函数的方法(如DQN)和基于策略的方法(如策略梯度),以及Actor-Critic算法,该算法同时学习策略和价值函数以优化策略网络和价值网络。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Q-learning、DQN 及 DQN 改进算法(Double DQN,Dueling DQN)都是基于价值的方法, Q-learning 用于处理有限状态,而 DQN 用来解决连续状态的问题。强化学习中除了基于值函数的方法,还有基于策略的方法。基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一个显式的策略;而基于策略的方法则是直接显式地学习一个目标策略,策略梯度是基于策略的方法。

基于策略的方法首先需要将策略参数化。假设目标策略\Pi \Theta是一个随机性策略,并且处处可微,其中\Theta是对应的参数,可以用神经网络模型来为这样一个策略函数建模,输入某个状态,然后输出一个动作的概率分布,目标是要寻找一个最优策略并最大化这个策略在环境中的期望回报。在每一个状态下,梯度的修改是让策略更多地去采样到带来较高Q值的动作,更少地去采样到带来较低Q值的动作。

Actor-Critic 算法

既学习价值函数,又学习策略函数。

Actor-Critic 分为两个部分:Actor(策略网络)和 Critic(价值网络)

Actor 要做的是与环境交互,并在 Critic 价值函数的指导下用策略梯度学习一个更好的策略。

Critic 要做的是通过 Actor 与环境交互收集的数据学习一个价值函数,这个价值函数会用于判断在当前状态什么动作是好的,什么动作不是好的,进而帮助 Actor 进行策略更新。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值