假肢人工智能挑战解决方案
在假肢人工智能领域,为了提升智能体的性能,解决相关挑战,研究人员提出了多种方法和策略。下面将详细介绍这些方法及其效果。
1. 分布式分位数集成评论家(DQEC)相关方法
1.1 多算法同时训练
为了收集更丰富多样的数据,我们提出同时训练多个学习算法,并共享重放缓冲区。具体操作如下:
- 让概念不同的多个智能体参与数据收集过程,例如同时训练DDPG、TD3和SAC算法。这样可以使收集到的数据更加多样化。
- 运行同一算法的多个实例,每个实例使用不同的超参数集,以加速超参数选择过程,这在资源有限的情况下尤为重要。
1.2 LAMA池化
当仅依靠一次观察的信息不足以确定特定情况下的最佳行动时(特别是在处理部分可观察的马尔可夫决策过程时),通常会将多个连续观察结果组合起来。我们引入了LAMA(最后 - 平均 - 最大 - 注意力池化)方法,它是一种将多个时间观察结果通过软注意力机制组合成单个状态的有效方式,公式如下:
[H_t = {h_{t - k}, \ldots, h_t}]
[h_{lama} = [h_t, avgpool(H_t), maxpool(H_t), attnpool(H_t)]]
1.3 混合探索
我们采用混合探索方案,结合了多种不同类型的探索方式:
- 以70%的概率,向智能体产生的动作添加来自 (N(0, \sigma I)) 的随机噪声,其中 (\sigma) 对于不同的采样实例从0线性变化到0.3。
- 以20%的概率,应用具有自适应噪声缩放的参数空间噪声。
- 其余情况
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



