机器人能拥有像人类一样灵巧的手吗？港大DexDiffuser揭秘！-优快云博客

点击下方卡片，关注“具身智能之心”公众号

机器人能拥有像人类一样灵巧的手吗？比如说，像人类一样接抛球，倒饮料，甚至拉小提琴？

注：特斯拉人形机器人Optimus再进化：换上22自由度灵巧手！来源：https://www.xiaohongshu.com/discovery/item/67497923000000000703ad78?source=webshare&xhsshare=pc_web&xsec_token=CBh2fYcvLoF5sKsO_i6KbkMFsN-BdY96Rjb5wxYVDUO6s=&xsec_source=pc_share

灵巧操作在高级机器人技术中占据着至关重要的地位。传统方法在处理灵巧操作任务时，如轨迹优化和精确动力学模型的运用，会遇到高维动作空间的问题。这意味着在规划机器人动作时，需要考虑众多的变量和参数，使得操作变得极为复杂。在实际操作中，机器人与环境的接触丰富，动力学复杂多变。强化学习虽然被用于处理复杂、高自由度的交互，但它需要大量的在线探索，并且奖励函数的设计至关重要。

内容出自国内首个具身智能全栈学习社区：具身智能之心知识星球，这里包含所有你想要的。

现有扩散方法在复杂任务中存在局限，以 Diffusion Policy 为代表的动作扩散模型（Cheng Chi et al., 2023)，在训练数据充足且多样时，能提供精确、一致的动作控制。但对于需要多阶段自适应指导的任务，如开门任务中不同角度的适应，其缺乏在中间阶段进行明确状态指导的灵活性，难以实现手与物体在预抓取和抓取后状态的准确过渡。而状态扩散模型(Michael Janner et al., 2022)在处理灵巧操作任务时，如使用灵巧手用锤子钉钉子这种需要间接控制的任务，由于其对所有关节（包括物体关节）进行扩散，会出现物体在没有接触的情况下自行移动的 “幽灵状态”。这是因为在实际操作中，手的动作需要先影响中间状态，再作用于物体，而状态扩散模型忽略了这一物理过程，导致在依赖自适应、基于接触的控制调整的交互任务中，无法满足现实性要求。

此外，若使用分类器自由扩散模型(Zhixuan Liang et al., 2023)，如 Diffusion Policy(Cheng Chi et al., 2023)，在处理如推 T 任务或开门实验中，当目标与训练数据中的配置不同时，由于其依赖训练数据中的隐含表示，无法直接修改目标位置或适应新的目标角度，限制了在零样本或新任务场景中的目标适应性。

基于此，香港大学、加州大学伯克利分校等高校的研究人员提出 DexDiffuser 框架，旨在解决上述问题，实现自适应灵巧操作，提高在接触丰富场景下的任务执行能力和目标适应性。DexDiffuser通过以下方式推进了自适应灵巧操作：1)提出了第一个用于灵巧操作的交互感知、目标自适应扩散规划器，对机器人-对象-环境依赖关系进行建模，以处理具有复杂状态转换的顺序任务。2) DexDiffuser通过基于动态的双制导和基于LLM的交互制导联合建模状态-动作行为，为灵巧操作中的自适应规划设定了新标准，并首次将文本-奖励概念扩展到扩散器。3)对不同灵巧操作任务进行了实验验证，验证了该方法的鲁棒性和适应性。在目标导向的任务中，DexDiffuser的平均成功率是次优方法的两倍多（59.2% vs 29.5%）。

模型架构

接下来一起看看模型架构。DexDiffuser主要包括交互感知扩散规划和基于 LLM 的指导生成两方面内容。

1 交互感知扩散规划

联合状态 - 动作扩散模型：以分类器引导扩散模型为基础，联合扩散状态 - 动作空间。它能够实现明确的状态条件设定，在面对不同任务需求时，可灵活适应目标变化，同时确保物理一致性。
扩展分类器引导扩散策略公式：对基本分类器引导扩散框架进行扩展，借助product of experts framework（ Geoffrey E Hinton. 2002）将多个指导相结合。当面对多目标、多约束的复杂任务场景时，该方法可根据不同的任务要求，综合多个指导因素，引导机器人做出准确且适应性强的动作。
基于接触的任务指导：采用双阶段交互方法，依据手与物体接触点距离自动判断阶段转换时机。在不同阶段运用相应的指导组件，在接触前阶段，确保机器人手与物体能稳定对齐；接触后阶段，实现目标导向控制。这种方式有效防止了 “幽灵状态” 的出现，使机器人操作更加真实、可靠，符合物理实际情况。
手中操作指导：针对主要涉及手中操作的任务，采用简化的单阶段指导结构。该结构涵盖目标状态指导、手指运动指导、动力学一致性指导、物理约束指导，通过这些指导的协同作用，提升手中操作任务的执行效果。
动力学感知生成：借助学习的动力学模型，保障生成状态和动作的一致性。当出现违反物理模式的状态 - 动作对时，模型会对其进行惩罚。

2 基于 LLM 的指导生成