假肢人工智能挑战:异步PPO解决方案
1 异步PPO概述
在开源框架Ray RLLib中使用了PPO的普通实现。在中间轮次中曾短暂进入前10,但随后降至第17,由于动作空间的问题,最终未提交结果。实验中使用了一些轻微的奖励塑造,并且投入了大量硬件资源,通常每次实验使用192个CPU,不使用GPU,持续数天。模型的样本效率相对较低,最佳运行在训练中需要1.2亿步,比在5000 - 1亿时间步上训练的Roboschool人形环境所需的步数更多。最初使用了OpenAI Baselines的PPO实现,并在Roboschool中验证训练,Roboschool比Opensim快得多,但缺乏像肌肉这样的生理现实特征。Ray版本的源代码可在 此处 获取。
2 方法
2.1 具有连续动作的普通PPO
动作 $a_i$ 是最终隐藏层输出 $x_j$ 的双曲正切激活之和,再加上一个具有可训练对数标准差 $\sigma_i$ 的独立正态随机变量 $Y_i$:
$a_i := \sum_{j} W_{ij}x_j + b_i + Y_i, Y_i \sim N(0, exp(\sigma_i))$
为了减少探索噪声,在提交和测试时将 $\sigma_i$ 设置为 -10(典型的训练值约为 -1)。在Baselines实现中有一个随机标志可用于去除噪声,但Ray中尚未实现。
2.2 允许范围外动作带来的不公平优势
最初使用了无界动作空间,如上述普通PPO。模型似乎利用了这一点,使用大于1的动
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



