Mobile ALOHA全身模仿学习

原创

已于 2025-06-09 20:13:30 修改 · 1.1k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #学习

于 2025-06-09 19:51:55 首次发布

一、题目

Mobile ALOHA：通过低成本全身远程操作学习双手移动操作

传统模仿学习（Imitation Learning）缺点：聚焦与桌面操作，缺乏通用任务所需的移动性和灵活性

本论文优点：（1）在ALOHA系统上开发一个移动全身系统，用于模仿需要双手协作和全身控制的移动操作任务。（2）低成本收集数据，每个任务只需演示50次，然后将数据进行克隆，联合训练成功率可以达90%。

论文中可以实现的任务有哪些？

炒虾并上菜
打开双门壁壁柜放厨具
呼叫并进入电梯
打开厨房水龙头冲洗平底锅......

二、什么是模仿学习？

可能很多小伙伴都还没接触过模仿学习，下面先介绍一下什么是模仿学习。相信你之前一定听说过强化学习，强化学习是通过智能体与环境交互，以最大化累计奖励作为目标，不断试错并优化策略的学习过程。想要全面系统的了解强化学习强推小白入门资料强化学习入门（不是广，真的写的挺好的）。那么模仿学习则强调通过学习人类专家的示范行为，让智能体模仿专家策略的学习方式（强化学习是让智能体自己交互学习，无专家数据）。

下面简单介绍一下模仿学习，可参考资料几种模仿学习介绍

2.1 行为克隆（Behavior Cloning, BC）

核心思想：直接拟合专家示范的 “状态 - 动作” 映射，将问题转化为监督学习任务。

模型结构：

设专家示范数据集为 $\mathcal{D}=\{(s_1,a_1^E),(s_2,a_2^E),\ldots,(s_n,a_n^E)\}$ ，其中 $s_i$ 为状态， $a^E_i$ 为专家动作。

目标是学习策略 $\pi_{\theta}(a|s)$ ，最小化预测动作与专家动作的分别差异，通常使用交叉熵损失（分类问题）或均方误差（回归问题） $\min_\theta\frac{1}{n}\sum_{i=1}^n\mathcal{L}(a_i^E,\pi_\theta(a|s_i))$ ，其中 $\mathcal{L}$ 是损失函数，如分类场景下: $\mathcal{L}(a^E,\pi_\theta)=-\log\pi_\theta(a^E|s)$