基于GPU的异步分布式近端策略优化及水下目标DOA估计算法
在强化学习和水下目标探测领域,高效的训练框架和准确的目标定位算法一直是研究的重点。本文将介绍基于GPU的异步分布式近端策略优化训练框架(GAPPO)以及基于互谱解卷积算法的水下目标波达方向(DOA)估计方法。
基于GPU的异步分布式近端策略优化训练框架(GAPPO)
背景与动机
近年来,异步并行框架被应用于各种强化学习算法以提高训练效率。如A3C算法使用多个智能体并行采样环境并定期更新全局网络,GA3C则将预测和训练网络置于GPU中。而基于策略的强化学习算法中,PPO及其分布式版本DPPO也相继被提出。但DPPO中工人和全局网络串行运行,未充分挖掘时间资源的利用率。
相关算法基础
- 信任区域策略优化(TRPO) :2015年提出,用于解决策略梯度(PG)中学习率难以确定的问题。其目标函数为:
- 最大化 $\theta$ $\hat{E} t[\frac{\pi {\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t]$
- 约束条件为 $\hat{E} t [KL[\pi {\theta_{old}}(\cdot|s_t), \pi_{\theta}(\cdot|s_t)] \leq \delta$
其中 $\theta_{old}$ 是更新前的策略参数向量,$\theta$ 是更新后的策略参数向量。 - 近端策略优化(PPO)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



