1 论文
团队:上海AI lab,上海交通大学,浙江大学等
网页链接:https://why618188.github.io/beamdojo
2 背景
双足机器人在非平坦路面的行走很有挑战性,因为要求行走到安全的区域,并且保持稳定。
- 传统基于优化的方法。非常消耗算力 a significant computational burden for online planning;而且对于模型假设的扰动非常敏感react sensitively to violation of model assumptions,也就是精确建模很难。
- 基于学习的方法仍然性能不够好,因为(1)落足点奖励稀疏(sparse foothold rewards),只有在完成抬升和落地后才能有奖励(only after completing a full sub-process, eg lifting and landing a foot),对于该过程中的状态难以评估(difficult to assign credit to specific states and actions);(2)训练过程比较低效(inefficient learning process),因为训练初期,走错一次就终止了,学习不到什么东西(misstep often leads to early termination during training)
相比之下,现在有四足机器人在这方面有很多研究,将足建模为点point。但是对于双足机器人来说,足需要建模为多边形polygon。
3 方案
3.1 输入,输出与可观测的状态
3.1.1 输入commands
分为3维:
- 目标纵向速度
- 目标横向速度
- 目标角速度
3.1.2 输出关节位置
输出12维:下肢关节位置target joint positions for the 12 low-body joints
3.1.3 可观测状态——本体观测和外部观测
本体可以观测到64维proprioception:
- 3个方向角速度
- 3个方向重力加速度分量
- 29维关节位置
- 29维关节速度
外部可以观测到225维exterioception:
- 15x15,间距0.1m(前后左右1.5m)的grid maps
3.2 奖励设计
3.2.1 落足点奖励 Foothold reward
该论文采用了基于采样的落足点奖励方法。在足平面上均匀采样n个点,获取这n个点的高程信息,如果其高程d小于

最低0.47元/天 解锁文章
985

被折叠的 条评论
为什么被折叠?



