62、基于GPU的异步分布式近端策略优化及水下目标DOA估计算法

基于GPU的异步分布式近端策略优化及水下目标DOA估计算法

在强化学习和水下目标探测领域,高效的训练框架和准确的目标定位算法一直是研究的重点。本文将介绍基于GPU的异步分布式近端策略优化训练框架(GAPPO)以及基于互谱解卷积算法的水下目标波达方向(DOA)估计方法。

基于GPU的异步分布式近端策略优化训练框架(GAPPO)
背景与动机

近年来,异步并行框架被应用于各种强化学习算法以提高训练效率。如A3C算法使用多个智能体并行采样环境并定期更新全局网络,GA3C则将预测和训练网络置于GPU中。而基于策略的强化学习算法中,PPO及其分布式版本DPPO也相继被提出。但DPPO中工人和全局网络串行运行,未充分挖掘时间资源的利用率。

相关算法基础
  • 信任区域策略优化(TRPO) :2015年提出,用于解决策略梯度(PG)中学习率难以确定的问题。其目标函数为:
  • 最大化 $\theta$ $\hat{E} t[\frac{\pi {\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t]$
  • 约束条件为 $\hat{E} t [KL[\pi {\theta_{old}}(\cdot|s_t), \pi_{\theta}(\cdot|s_t)] \leq \delta$
    其中 $\theta_{old}$ 是更新前的策略参数向量,$\theta$ 是更新后的策略参数向量。
  • 近端策略优化(PPO)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值