斯坦福大学联合项目论文解读 | Mobi-π:调动你的机器人学习策略

研究背景

现有视觉运动操作策略(如按压按钮、转动水龙头等精密任务)多基于有限的机器人位置和相机视角数据训练,导致其在移动机器人平台上的泛化能力极差—— 当机器人基座姿态变化时,视觉输入和可达空间易偏离训练分布,最终导致任务失败。

为解决这一问题,斯坦福大学联合丰田研究院提出了Mobi-π 框架,以 Kinova Gen3 机械臂(7DoF)为核心载体(搭载于轮式移动基座),通过“策略迁移” 方案实现固定机器人策略向移动平台的高效迁移。其核心思路是:在新环境中为移动机器人找到与原策略训练分布对齐的基座姿态,无需额外收集演示数据,即可让固定机器人的策略在移动平台上稳定执行。

1:引入策略迁移。(a)假设一个视觉运动策略π是从一个或一组有限的相机位姿训练而来。(b)我们感兴趣的是在移动平台上运行π,其中机器人在随机位姿下初始化,并且在运行π之前需要进行导航。(c)简单地朝着感兴趣的对象导航并执行操作策略,很可能导致策略的分布外初始化,从而导致失败。左图:机器人靠得太近,用手臂将对象向内推。右图:次优的朝向使得左臂无法够到对象。(d)提高策略的鲁棒性需要大量的数据采集,以覆盖所有可能的机器人基座位姿初始化。(e)我们定义了策略迁移的新问题,其目标是找到最优的机器人位姿,从而为执行π提供分布内的视角,在无需收集额外演示的情况下实现任务成功。

移动家务机器人又出新招!

研究中的核心方法

Mobi-π 框架的核心是通过 “场景建模 - 姿态评估 - 优化搜索” 三步法,为移动机器人找到适合策略执行的基座姿态,具体包括:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值