项目链接:https://toruowo.github.io/recipe/
01.引言
1.1 研究背景与目标
本文聚焦于通过**Sim-to-Real强化学习(RL)**实现仿人机器人基于视觉的灵巧操作任务。灵巧操作(如抓取、搬运、双手交接)是机器人领域长期以来的技术难点,传统方法依赖人工编程或示教,难以适应复杂多变的物体属性和动态环境。论文提出一种系统化方法,通过解决环境建模、奖励设计、策略学习与感知迁移四大挑战,构建了一个可扩展的Sim-to-Real框架。其核心目标是通过模拟环境中的高效训练,将策略无缝迁移至真实硬件,实现对多样化物体的鲁棒操作。
1.2 现有研究的局限性
当前RL在灵巧操作中的应用存在以下瓶颈:
· 环境建模:真实与模拟环境的动力学差异(如摩擦、质量分布)导致策略迁移困难;
· 奖励设计:接触丰富的长视界任务难以通过手工设计奖励函数有效引导学习;
· 样本效率:高维动作空间(如多指手控制)导致探索效率低下;
· 感知泛化:视觉输入的Sim-to-Real差距显著,尤其是物体几何与材质多样性带来的挑战。
论文指出,现有工作多针对单一任务或硬件进行优化,缺乏通用性。例如,Chen等[9]依赖人类动作捕捉数据控制手腕,而非从零学习全手-臂协同控制。相比之下,本文首次实现了基于视觉的多指手仿人机器人策略的Sim-to-Real迁移,并在任务泛化性上取得突破。
02.核心挑战及应对策略
2.1 环境建模
挑战:仿人机器人动力学复杂(如多连杆结构、欠驱动关节),传统手动调整URDF参数耗时且易出错。此外,物体物理属性(如质量、摩擦系数)的多样性加剧了建模难度。
解决方案:
1)自动化参数搜索:提出“Autotune模块”(算法III-B),通过并行化仿真环境生成与参数采样,最小化模拟与真实硬件的跟踪误差。具体流程为:
· 初始化参数空间(基于厂商模型);
· 生成多组随机参数组合并创建仿真环境;
· 执行相同的关节目标轨迹,计算模拟与真实硬件的均方误差(MSE);
· 选择最优参数集,实现快速校准(<4分钟)。
2)欠驱动关节建模:将欠驱动关节角度建模为驱动关节的线性函数qu=k·qa+b,并将参数k,b_纳入自动搜索范围,提升模型保真度。_
具体而言,该调优模块首先基于制造商提供的机器人模型文件初始化参数空间,随后创建多个模拟环境以随机采样参数组合。接着,它执行一系列校准动作序列,同时在真实机器人硬件和所有模拟环境中并行运行。通过比较每个模拟环境与真实机器人在跟随相同关节目标时的跟踪误差,模块选择最小化跟踪性能均方误差的参数集。这种方法消除了迭代手动调整的需求,只需在真实机器人上进行一组校准运行即可自动优化传统上难以调节的URDF参数。此外,对于对象建模,本文采用了近似的方法,即将对象简化为圆柱体等基本形状,并通过随机化参数生成。这种做法已被证明足以支持可转移至现实世界的灵巧操作策略的学习,显示了其在简化复杂对象建模方面的有效性。
2.2 奖励设计
在标准强化学习框架中,奖励函数作为界定代理行为的关键元素,其重要性不言而喻。然而,随着任务复杂性的增加,特别是涉及多指手灵巧操作时,奖励设计变得尤为棘手,因为不同的接触模式和对象几何形状增加了难度。为应对这一挑战,作者提出了一种将操作任务视为接触目标和对象目标相结合的设计方案。例如,在双手交接任务中,可以将其拆解为一只手接触对象、对象被提升到另一只手附近、另一只手接触对象直至最终位置等多个步骤。每一步骤的目标既可以是对手指到理想接触点的距离进行惩罚,也可以是对对象当前状态与目标状态之间距离的惩罚。特别地,作者引入了一种基于关键点的新技术,通过程序化地在对象表面生成“接触贴纸”,代表潜在的理想接触点,以此为基础定义接触目标的奖励公式。
具体来说,接触目标的奖励rcontact可以通过以下公式计算:
其中,XL和XR分别代表左、右手接触标记的位置,FL和FR是左右手指尖的位置,和
是缩放超参数,而d(A, x)是定义为
的距离函数。这种方法通过引入接触贴纸简化了接触目标的指定过程,使其更加直观且易于实现。此外,通过对不同模拟资产的应用效果进行可视化展示,进一步验证了该方法的有效性。通过这种方式,即使是长时间、高度互动的操作任务,如双手交接,也能从头开始有效地学习,展示了其在提高灵巧操作任务奖励设计灵活性方面的潜力。
2.3 策略学习
挑战:在处理高维度空间探索时,尤其是在配备多指手的人形机器人上,由于样本复杂性和奖励稀疏性,策略学习可能会消耗大量时间,即便是在有良好定义的奖励函数的情况下也是如此。
解决方案:
1)任务感知的初始姿态:通过收集来自人类的任务意识手势数据,即让任何双手机械手的遥操作系统连接到所选模拟器,收集包括对象姿态和机器人关节位置在内的状态信息,并在模拟中随机抽样作为任务初始状态,可以大幅减少探索阶段的时间需求。不同于以往要求完整演示轨迹的方法,这里只需要操作者围绕任务目标进行“玩耍”,即可有效收集必要的环境状态数据,从而显著缩短遥操作所需的时间。
2)分治蒸馏(Divide-and-Conquer Distillation):通过将复杂任务分解为更简单的子任务,再将专门针对各子任务训练的策略蒸馏成一个全面的策略,来克服稀疏奖励环境下探索的难题。
例如,一个多对象操纵任务可以被分解为多个单对象操纵任务。这种策略不仅降低了探索的难度,还允许根据子任务策略的最优性过滤轨迹数据,仅保留高质量样本用于训练。这样一来,强化学习实际上更接近于从示范中学习,其中子任务策略充当了任务数据收集的远程操作员角色,而全面策略则作为一个基于精选数据训练的集中模型。这种方法灵活地解决了探索过程中遇到的主要障碍,提高了学习效率,同时保证了最终策略的质量,使得原本难以解决的复杂任务得以高效学习和实现。
实验表明,子任务划分的粒度显著影响性能。例如,在抓取任务中,按物体形状分组(“shape”)比混合分组(“mix”)更高效(图4右),而单物体策略(“single”)虽样本效率最高,但Sim-to-Real迁移成功率较低(40% vs. 混合策略90%)。
2.4 视觉感知迁移
将模拟环境中学习到的策略成功转移到现实世界是视觉基础灵巧操作的一大挑战,主要源于动力学和视觉感知之间的模拟现实差距。为了缩小这种差距,作者提出了两种关键技术:混合对象表示法和域随机化。
首先,对象感知在灵巧操作中至关重要,因为它不可避免地涉及到对象交互。前人的研究表明,成功实现模拟到现实转移的操控策略采用了从三维对象位置到RGB图像等多种对象表示法。然而,更高维度的表示虽然提供了更多关于对象的信息,但也扩大了模拟与现实之间的差距,导致学习策略更难转移。
反之,较低维度的表示因信息量有限,难以学到最优策略。因此,作者建议结合使用低维三维对象位置和高维深度图像的对象表示法,以平衡这两者间的权衡。尤其值得注意的是,三维对象位置是从第三人称视角相机获取的,确保对象始终处于视野范围内并且其噪声位置可以持续追踪。深度图像则补充了有关对象几何形状的信息。
此外,为了确保可靠的模拟到现实转移,作者还应用了一系列广泛的域随机化技术,涵盖了动力学和感知方面。通过这种方法,不仅可以适应不同形态的机器人硬件,还能增强策略在现实世界中的鲁棒性。
总之,通过上述措施,作者有效地缩小了模拟与现实之间的差距,使得基于视觉的灵巧操作策略能够在模拟环境中得到充分训练,并顺利迁移到实际机器人系统中,实现了理论与实践的完美结合。这些技术共同作用,不仅提升了策略学习的效率和效果,也为未来相关领域的研究提供了宝贵的参考依据。
03.实验设计与结果验证
3.1 实验设置
1)硬件平台:Fourier GRI仿人机器人(双臂+多指手),对比Inspire手验证跨硬件泛化。
2)任务定义:
· 抓取-到达(Grasp-and-Reach):单手机械臂抓取并移动物体;
· 箱体搬运(Box Lift):双手协作搬运大尺寸物体;
· 双手交接(Bimanual Handover):跨桌面物体传递。
3)感知系统:第三视角相机(物体跟踪)+ 头戴深度相机(几何感知),5Hz控制频率。
3.2 关键实验结果
1)环境建模有效性(表I):
自动校准(最低MSE)使抓取成功率从0%提升至80%,验证了参数搜索的必要性。
简单几何体(立方体、球体)比复杂形状训练更快(图4左),且能泛化至未见物体。
2)奖励设计影响(图5):
接触标记的位置直接影响策略行为。例如,箱体底部边缘标记促使策略采用稳固握持。
3)策略学习效率(表II):
任务感知初始化使双手交接策略成功率从0%提升至30%,显著降低探索难度。
4)感知迁移对比(表III):
深度+位置策略在搬运任务中成功率100%,纯深度策略为0%,凸显混合表征优势。
3.3 系统性能与鲁棒性
· 任务成功率:抓取62.3%、搬运80%、交接52.5%;
· 泛化能力:策略可零样本适应未见物体(如不同形状、质量的餐具);
· 抗干扰性:施加推力、拉力等扰动后,策略仍能恢复稳定操作(图6)。
04.讨论与未来方向
4.1 局限性
· 硬件限制:现有多指手的自由度(6-7个)远低于人类(27个),制约了操作灵活性;
· 动力学差距:仅通过朴素域随机化缓解,未引入更高级的动力学适配方法;
· 任务复杂度:当前任务仍为原子操作,长视界组合任务(如装配)尚未验证。
4.2 未来工作
· 奖励自动化:结合人类示教数据或语言指导,进一步减少人工设计;
· 感知增强:探索神经辐射场(NeRF)等三维重建技术,提升几何理解;
· 硬件协同设计:开发更具仿生性的多指手,结合策略优化实现硬件-算法共进化。
05.结论
本文通过系统化解决环境建模、奖励设计、策略学习与感知迁移四大挑战,构建了一个可扩展的Sim-to-Real框架,首次实现了仿人机器人多指手视觉灵巧操作的策略迁移。
实验表明,该方法在任务成功率、泛化性与抗干扰性上均达到先进水平,为通用机器人操作系统的开发提供了重要参考。未来工作需进一步突破硬件限制与长视界任务规划,推动机器人灵巧操作迈向人类水平。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。