基于GPU的异步分布式近端策略优化训练框架与水下目标到达方向估计算法
基于GPU的异步分布式近端策略优化训练框架
在强化学习领域,为了提高训练效率,异步并行框架被广泛应用于各种强化学习算法中。
1. 背景与相关算法
近年来,异步并行框架在提升强化学习算法训练效率方面发挥了重要作用。例如,Mnih等人提出的异步优势动作评判(A3C)算法,利用多个智能体并行采样环境数据,并定期更新全局网络。为进一步提高效率,Stephen Tyree等人提出了基于GPU的A3C(GA3C)算法,将预测和训练网络置于GPU中,其智能体由一个特殊线程控制。
在基于策略的强化学习算法方面,2017年Schulman等人提出了近端策略优化(PPO)算法,随后又出现了分布式PPO(DPPO)算法。DPPO算法与GA3C框架类似,使用多个工作线程在不同环境中并行采样,并定期更新全局PPO网络。然而,DPPO算法中工作线程和全局网络是串行运行的,未能充分挖掘时间资源的利用率。
2. 预备知识
- 信任区域策略优化(TRPO) :2015年John Schulman等人提出TRPO算法,用于解决策略梯度(PG)中学习率难以确定的问题。其目标函数如下:
- 最大化:$\max_{\theta} \hat{E} t[\frac{\pi {\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} \hat{A}_t]$
- 约束条件:$\hat{E} t [KL[\pi {\theta_{
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



