【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

本文深入解析强化学习核心算法,包括策略梯度、Q-learning、Actor-Critic及其变种A3C,探讨Pathwise Derivative Policy Gradient算法如何优化决策过程。通过实例说明不同算法的工作原理及优劣。

【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)

【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法

【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)

【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法

【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient(本文)

【李宏毅深度强化学习笔记】7、Sparse Reward

【李宏毅深度强化学习笔记】8、Imitation Learning

-------------------------------------------------------------------------------------------------------

【李宏毅深度强化学习】视频地址:https://www.bilibili.com/video/av63546968?p=6

课件地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html

-------------------------------------------------------------------------------------------------------

回顾

Policy gradient

 G表示在s_t采取a_t一直玩到游戏结束所得到的cumulated reward。这个值是不稳定的,因为在某一个state采取同一个action,最后的结果不一定相同。因为state的变化也是有随机性的。

虽然经过多次实验后,可能会发现G最后会变成一个比较稳定的分布,那么理论上收集足够多的数据就能解决这一问题。但是因为policy gradient是一个on policy的方法,每次更新参数后又要重新收集数据。如果每次都要收集非常多的数据那也会造成效率的低下。

(更多 policy grad

深度强化学习的实践中,结合Q-Learning和Actor-Critic方法可以为智能体提供一个更加高效和稳定的决策框架。首先,建议您参阅《李宏毅深度强化学习:Q-Learning解析》这一资源,它详细解释了Q-Learning算法的工作原理以及如何在深度学习中应用这一算法。 参考资源链接:[李宏毅深度强化学习:Q-Learning解析](https://wenku.youkuaiyun.com/doc/4gsddjsse9?spm=1055.2569.3001.10343) 具体来说,要将Q-Learning与Actor-Critic方法结合起来,可以通过以下步骤进行: 1. 定义策略网络(Actor)和评价网络(Critic)。策略网络负责输出当前状态下应该采取的动作,而评价网络则负责估计当前策略的好坏,即状态价值函数。 2. 在训练过程中,Actor通过Critic提供的评价来更新策略,使其倾向于执行那些会导致较高价值状态的动作。这通常通过梯度上升来完成,以最大化Critic给出的预期回报。 3. 同时,Critic使用从环境得到的实际回报来更新其估计,通常是通过时间差分方法TD学习进行的。这里,Critic的目标是减少其预测的价值与实际从环境获得的价值之间的差异。 4. 使用经验回放缓冲区来存储智能体的经验,并在训练中对其进行采样。经验回放有助于打破样本之间的时间相关性,使得学习过程更加稳定。 5. 引入目标网络来进一步稳定学习过程。目标网络是评价网络的一个副本,它的参数以较慢的速度更新,以避免在学习过程中出现过大的波动。 通过这种方式,结合Q-Learning和Actor-Critic方法不仅提高了学习效率,还增强了智能体处理连续动作空间的能力。建议在进一步学习时,参考更多如蒙特卡洛方法、时间差分学习以及深度Q网络等技术的资料,以便更全面地掌握深度强化学习的理论和应用。 参考资源链接:[李宏毅深度强化学习:Q-Learning解析](https://wenku.youkuaiyun.com/doc/4gsddjsse9?spm=1055.2569.3001.10343)
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值