- 博客(5)
- 收藏
- 关注
原创 Deterministic Policy Gradient Algorithms 论文剖析
Deterministic Policy Gradient Algorithms(DPG)论文解读
2023-07-30 23:23:25
310
1
原创 TD3 论文剖析
在训练Actor和Critic网络时,文章发现Actor与Critic之间的相互作用会导致Actor一直在被动的跟随Critic网络进行更新,这种不稳定的状态会使得策略函数会根据不准确的估值朝着错误方向进行更新,并在多次更新中累积这些差异,最终陷入劣化循环。作为Actor-Critic框架下的确定性强化学习算法,TD3结合了深度确定性策略梯度算法和双重网络,在缓解DDPG算法的高估问题时取得了优秀表现。的拟合,其估计网络以Actor估计网络的输出动作为输入,参与Actor和Critic的优化。
2023-07-24 01:45:24
442
原创 SAC算法论文解读
深度强化学习的快速发展,给机器人控制领域带来了许多进展。此前的工作中,面向连续控制任务的算法有TRPO、PPO、DDPG等算法。PPO是一种on-policy面向离散和连续控制的算法,在许多数据集上取得了较好的效果,但是存在严重的采样效率低下的问题,这对于真实环境中的控制问题采样花费来说是难以接受的;
2023-07-16 21:59:20
1720
1
原创 Proximal Policy Optimization Algorithms论文剖析
策略梯度算法将策略π\piπ参数化拟合成πθπθgEt∇θlogπθat∣stAt(1)gEt∇θlogπθat∣stAt1其中,At\hat{A_t}At为优势函数(Advantage Function)的估计量,EtEt为有限batch的平均量。LθEtπθat∣stAt这里可能和原文不同,但是由于log。
2023-07-10 12:39:57
261
1
原创 JoyRL论文阅读《Prioritized Experience Replay》 + Python代码
JoyRL论文阅读《Prioritized Experience Replay》 + Python代码
2022-11-03 02:50:57
1547
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人