14、假肢人工智能挑战:异步PPO解决方案

假肢人工智能挑战:异步PPO解决方案

1 异步PPO概述

在开源框架Ray RLLib中使用了PPO的普通实现。在中间轮次中曾短暂进入前10,但随后降至第17,由于动作空间的问题,最终未提交结果。实验中使用了一些轻微的奖励塑造,并且投入了大量硬件资源,通常每次实验使用192个CPU,不使用GPU,持续数天。模型的样本效率相对较低,最佳运行在训练中需要1.2亿步,比在5000 - 1亿时间步上训练的Roboschool人形环境所需的步数更多。最初使用了OpenAI Baselines的PPO实现,并在Roboschool中验证训练,Roboschool比Opensim快得多,但缺乏像肌肉这样的生理现实特征。Ray版本的源代码可在 此处 获取。

2 方法

2.1 具有连续动作的普通PPO

动作 $a_i$ 是最终隐藏层输出 $x_j$ 的双曲正切激活之和,再加上一个具有可训练对数标准差 $\sigma_i$ 的独立正态随机变量 $Y_i$:
$a_i := \sum_{j} W_{ij}x_j + b_i + Y_i, Y_i \sim N(0, exp(\sigma_i))$
为了减少探索噪声,在提交和测试时将 $\sigma_i$ 设置为 -10(典型的训练值约为 -1)。在Baselines实现中有一个随机标志可用于去除噪声,但Ray中尚未实现。

2.2 允许范围外动作带来的不公平优势

最初使用了无界动作空间,如上述普通PPO。模型似乎利用了这一点,使用大于1的动

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值