假肢人工智能挑战解决方案
在人工智能假肢领域,为了让假肢能够更自然、高效地模拟人类运动,研究者们不断探索各种解决方案。本文将介绍几种在相关挑战中应用的方法及其效果。
改进的近端策略优化(Proximal Policy Optimization with Improvements)
该团队将近端策略优化(PPO)应用于NeurIPS 2018的人工智能假肢挑战中,并提出了一些改进措施,最终在比赛中获得第9名。
- 方法
- 奖励塑造(Reward Shaping) :通过大量实验发现,单一奖励难以成功训练模型。因此,将整个行走过程分为多个阶段,每个阶段用一个奖励函数描述,这些奖励函数被称为课程(courses)。临近比赛结束时,提出了基于指数函数的新奖励函数:
[r_t = e^{|v_x(t)-tv_x(t)|} + e^{|v_z(t)-tv_z(t)|}]
其中,(v(t)) 和 (tv(t)) 分别表示步骤 (t) 时的当前速度和目标速度。该函数更平滑,在当前速度与目标速度接近时能提供更大的梯度。
- 裁剪期望(Clipped Expectation) :请求速度会给环境带来随机性,当当前速度与请求速度差异较大时,智能体不稳定且表现变差,甚至提前终止回合导致得分损失。为此,手动为速度为 (v) 的智能体设置阈值 (Th),将请求速度裁剪到 ([v - Th, v + Th]) 范围内再传递给智能体。
- 实验与结果
- 基线实现(Baseline Imple
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



