
强化学习
文章平均质量分 94
GrandpaDZB
这个作者很懒,什么都没留下…
展开
-
[深度强化学习] [4] Twin Delayed DDPG(TD3)
文章目录1 相比与DDPG,TD3的改进1.1 Trick 1 Clipped Double Q learning & Target Policy Smoothing1.2 Trick 2 "Delayed" Policy Update2 代码部分1 相比与DDPG,TD3的改进这个名字挺逗的,因为名字里有一个T带三个D所以叫TD3,类似的命名很多,比如A2C和A3C就是名字里带了2个和3个A和一个C。DDPG运行的时候感觉不是很稳,抖动相对挺明显的,一种原因就是Q值估计过高,导致策略网络局部原创 2022-01-23 16:18:10 · 1445 阅读 · 0 评论 -
[深度强化学习] [3] Deep Deterministic Policy Gradient
文章目录1 Q-Learning 风格以及基于Bellman function的目标设计1 Q-Learning 风格以及基于Bellman function的目标设计之前的两篇博客,VPG和TRPO&PPO都是actor-critic风格算法设计,这一篇的ddpg可以说是用于连续动作空间的dqn,通过学习Q function进一步确定策略,由于对Q function的学习是基于贝尔曼最优,所以学习样本不需要依赖于特定的采样,因此只需要保存历史数据,然后回访经验池,也就是说ddpg是一个off-原创 2022-01-22 21:42:24 · 2526 阅读 · 0 评论 -
[深度强化学习] [2] Trust Region Policy Optimization & Proximal Policy Optimization
文章目录1 Vanilla Policy Gradient的缺陷与新的优化目标2 MM优化(Minorize-Maximization)与下界函数3 求解优化4 代码部分4.1 处理网络参数4.2 实用算法4.3 TRPO算法部分1 Vanilla Policy Gradient的缺陷与新的优化目标VPG优化策略的方法就是通过Policy Gradient进行梯度上升。梯度上升是对函数点的一阶近似,根据步长更新,一阶近似也就是超平面拟合局部,步长稍微大一点误差还是挺大的,容易优化出错。强化学习对策略优原创 2022-01-21 18:36:36 · 912 阅读 · 0 评论 -
[深度强化学习] [1] Vanilla Policy Gradient
文章目录1 目标函数与前置知识2 优势函数(Advantage function)3 折扣系数γ\gammaγ4 GAE(Generalized Advantage function Estimation)5 Vanilla Policy Gradient6 代码部分6.1 神经网络搭建6.1.1 策略网络6.1.2 价值网络6.1.3 Actor-Critic6.2 GAE Buffer6.3 VPG算法部分7 跑一下代码测试一下1 目标函数与前置知识Policy Gradient方法体现在用神经网络原创 2022-01-21 00:08:19 · 854 阅读 · 0 评论