人形机器人跳高技能学习方法探究
1. 跳高研究背景与现有问题
机器人跳高是通过关节单次发力将身体弹射到空中,单次发力所释放的能量决定了跳跃的高度和距离。跳高主要聚焦于最大跳跃高度,是测试机器人控制方法爆发力和平衡能力的有效途径。
目前,现有的机器人跳跃控制方法大多基于模型。在跳跃前,通常会生成离线的全身轨迹,并采用在线控制算法来确保稳定性。针对不同阶段,还精心设计了不同的控制器,例如发射阶段的轨迹优化、飞行阶段的动量控制以及着陆阶段的粘弹性控制。
然而,基于模型的控制方法存在一些固有难题:
- 模型不匹配 :建模简化、测量误差和负载变化引入的模型不匹配会导致系统不稳定。而且,专门设计的控制器难以直接应用于具有不同机械结构的其他机器人。
- 缺乏灵活性 :过多的自由度被用于跟随质心轨迹以及其他人为约束,而不是用于追求更高的跳跃高度。
- 运动受限 :跳跃能力受参考运动的限制,而非机器人自身的物理特性。基于手动规划的轨迹很难发挥机器人的全部潜力。
- 跳跃姿势不自然 :在动物跳跃的飞行阶段,关节放松是常见现象。但在基于模型的方法中,关节通常会弯曲以保持机器人的可控性,很难人为总结出能产生自然流畅身体动作的规则。
2. 基于PPO的跳高学习方法提出
为解决上述问题,我们设计了一种基于近端策略优化(PPO)的跳高学习方法,主要贡献如下:
- 提出一种强化学习(RL)方法,为人形机器人生成自然稳定的跳高运动,并在Ranger Max机器人的模拟中进
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



