24、探索机器人技术中的机器学习归纳偏置：开放问题与未来工作

最新推荐文章于 2025-09-30 12:53:54 发布

Linux

最新推荐文章于 2025-09-30 12:53:54 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：机器人学习新突破：融合物理与深度学习文章标签：机器人技术机器学习动态模型

本文链接：https://blog.youkuaiyun.com/linux/article/details/149350480

机器人学习新突破：融合物理与深度学习专栏收录该内容

23 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索机器人技术中的机器学习归纳偏置：开放问题与未来工作

1. 学习动态模型

在机器人技术中，学习动态模型是至关重要的，因为它直接影响控制策略的有效性和鲁棒性。目前，已有两种主要算法用于学习动态模型：可微分的牛顿-欧拉算法（DiffNEA）和深度拉格朗日网络（DeLaN）。尽管这些方法在某些方面表现出色，但仍存在若干开放问题和挑战，需要进一步研究以提升其适用性和性能。

1.1 接触模型的处理

许多现实世界中的机器人任务涉及接触，如抓取、行走和碰撞避免。然而，现有的模型学习方法，包括DiffNEA和DeLaN，主要关注无接触的铰接体系统。为了扩展这些方法的应用范围，必须将接触模型纳入其中。

理论上，可以使用解析接触模型将接触包括在DeLaN或DiffNEA中。碰撞检测器可以确定所有接触点及其相应的雅可比矩阵，之后通过解决线性互补问题（LCP）来计算接触力。不同研究人员已经证明这种计算是可微的，因此可以添加到这两种方法中。例如，弹跳的圆盘、牛顿摆和带有地板的n连杆摆等简单例子已经成功实现了这种方法。

然而，这种方法的主要问题是假设运动链和身体网格是已知的。这两个模型都需要碰撞检测器来确定接触点和雅可比。虽然对于DiffNEA来说这个假设是可以接受的，但对于DeLaN来说过于限制。因此，未来的工作应尝试将分析接触模型与DiffNEA结合，扩展到多接触问题，并使用可学习的表示形式来表示网格。对于DeLaN，可以考虑将接触建模为推动穿透物体的势场，但这需要解决在未观察到数据的区域学习一致势场的挑战。

1.2 广义坐标的处理

大多数机器人系统，尤其是那些不仅仅是刚体机械臂的系统，通常不观察或了解广义坐标（如位置、速度、动量和力）。如果系统被完全观察，通常只能获得从广义坐标派生的观察结果。在许多情况下，系统只被部分观察，无法从单一观察中推断出系统状态。

为了应对这一挑战，一些研究提出使用变分自编码器（VAE）将物理启发式网络扩展到非结构化观察。在这种情况下，VAE应学会一个类似于广义坐标的潜在空间，并在潜在空间中应用拉格朗日和哈密顿动态。这种方法在人工图像和简单系统（如单摆和N体问题）上已经取得成功。然而，对于更复杂的系统和现实渲染，这种方法并未显示出比传统深度网络更好的结果。

未来的研究需要重新审视学习保留重要信息和对称性的潜在空间的方法。这将有助于更好地处理复杂的机器人系统，尤其是那些涉及非结构化观察的系统。

1.3 优化损失的选择

目前的模型学习方法主要优化一步或多步的均方预测误差（MSE）。这种损失函数存在两个主要问题：

与规划性能无关 ：研究表明，一步和n步的MSE与规划性能并不相关。
对长期预测的影响 ：一些参数对一步损失几乎没有影响，但对长期预测有不利影响。例如，在球入杯实验中，球的摩擦在一步优化损失中几乎观察不到，但在考虑完整的球轨迹时变得非常重要。对于Furuta摆锤的关节摩擦也有类似的效果。

为此，提出了一种优化对抗性损失的方法，而不是单纯预测误差。这种方法类似于生成对抗网络（GAN），其中一个学习器区分模拟和预测轨迹。通过这种方式，可以缓解预测误差的两个缺点：

减少可利用性 ：使用对抗性设置应该减少学习模型的可利用性，从而使性能度量更好地反映规划性能。
更好的监督反馈 ：判别器可以学习比朴素MSE更好的长轨迹之间的距离度量，提供更好的监督反馈，捕捉不同参数的长期影响。

此外，可以使用语音生成和识别文献中的网络架构，在判别器中包含时间特征，以更好地处理连续时间动态。

2. 学习鲁棒策略

鲁棒策略对于应对环境变化和模型不确定性至关重要。所提出的动态规划方法——鲁棒拟合值迭代（rFVI），可以计算出对动态变化具有鲁棒性的最优策略。然而，这种方法也有两个主要缺点：可接受集合的手动调整和有限的探索能力。

2.1 可接受集合的自适应调整

最坏情况优化提高了策略的鲁棒性，但也可能导致过于保守的策略。特别是当可接受集合设置得过大时，策略变得过于悲观，甚至什么都不做。此外，可接受集合在整个状态域上是恒定的，这可能导致某些状态空间区域中对手过于强大。

例如，使用对手的Furuta摆锤的摆起比没有对手时更可靠，但使用相同的对手平衡摆锤会产生过于保守的策略。在Furuta摆锤上，鲁棒策略在平衡过程中引起了抖动。因此，在状态空间的不同区域拥有自适应的可接受集合将是有益的。

为了避免手动调整可接受集合并防止过于保守的策略，可以从物理系统的数据中学习可接受集合。这种方法类似于现有的领域随机化方法，后者从数据中学习随机化参数的分布。对于领域随机化，这种分布的识别提高了性能。

2.2 改进探索能力

rFVI在用于完整状态域的动态规划时表现良好，但动态规划是一个严重的限制，因为它阻止了将rFVI扩展到更高维的任务。为了扩展到更高维系统，需要改进探索能力以实现实时动态规划。

2.2.1 朴素随机探索的局限性

对于rFVI，朴素的随机探索过于悲观，随着可接受集合的增大，难以找到解决方案。此外，探索是困难的，因为最优策略近似于连续时间策略，需要以高采样频率控制系统。这种高控制频率的缺点是频繁的更新平均了随机探索，导致状态空间未被充分探索。

2.2.2 乐观偏见的在线规划

为了改进探索，可以将所提出的方法与乐观偏见的在线规划结合，忽略对手。在这种情况下，探索将集中于状态空间的重要区域，防止状态分布的崩溃。具体步骤如下：

初始化 ：设定初始状态和动作。
在线规划 ：使用乐观偏见的规划算法（如模型预测控制）生成动作序列。
忽略对手 ：在探索过程中暂时忽略对手的影响。
评估和更新 ：根据实际结果评估动作序列，并更新策略。

这种方法可以确保探索状态空间的重要区域，同时避免过于悲观的策略。

2.3 使用价值函数集合的探索性不确定性

另一种改进探索的方法是使用价值函数集合的探索性不确定性。具体来说，可以通过以下步骤实现：

定义价值函数集合 ：使用多个不同的价值函数近似器。
计算不确定性 ：根据多个价值函数的预测，计算探索区域的不确定性。
奖励不确定区域 ：向不确定区域添加奖励奖金，鼓励探索这些区域。

这种方法可以更好地识别未被充分探索的区域，从而提高探索效率和策略的鲁棒性。

下一部分将继续讨论学习动态模型和鲁棒策略的其他开放问题，并提出更多未来工作的方向。同时，将详细介绍如何在更复杂的系统中应用这些方法，并探讨进一步优化的可能性。

3. 守恒定律和对称性的发现

现有的模型学习方法，包括DiffNEA和DeLaN，通常在损失函数或模型架构中硬编码守恒定律和对称性。然而，从长远来看，我们希望能够从数据中自动发现这些不变性和等变性，而不是依赖于预先设定的规则。初步的工作已经将深度学习与符号回归结合起来，以推断物理定律，但目前的方法仅适用于简单的关系。因此，这是一个有前景但尚未充分探索的研究方向。

3.1 推断守恒定律和对称性

从数据中推断守恒定律和对称性不仅能提高模型的准确性，还能揭示潜在的物理机制。具体步骤如下：

数据收集 ：收集系统在不同条件下的运行数据。
特征提取 ：从数据中提取特征，如位置、速度、加速度等。
符号回归 ：使用符号回归算法（如Eureqa、PySR等）自动发现数据中的数学关系。
验证和应用 ：验证发现的守恒定律和对称性，并将其应用于模型改进。

这种方法不仅适用于动态模型学习，还可以扩展到学习最优控制策略。许多控制策略具有对称性，而当前的深度网络方法并未识别或利用这些对称性。因此，从数据中推断对称性可以为控制策略的设计提供新的思路。

3.2 示例：从数据中发现能量守恒

为了更好地理解如何从数据中发现守恒定律，下面以能量守恒为例进行说明。假设我们有一个物理系统，其运动方程如下：

[ \ddot{q} = f(q, \dot{q}, u; \theta) ]

收集数据 ：记录系统的状态 ( q )、速度 ( \dot{q} ) 和控制输入 ( u )。
特征构建 ：构造特征向量，包括 ( q )、( \dot{q} ) 和 ( u )。
符号回归 ：使用符号回归算法寻找能量守恒方程 ( E(q, \dot{q}) )。
验证：通过模拟验证发现的能量守恒方程是否准确。
应用：将发现的能量守恒方程应用于改进模型或设计控制策略。

3.3 未来研究方向

未来的研究可以进一步探索如何从复杂数据中自动发现守恒定律和对称性，并将其应用于更广泛的机器人任务中。这将有助于提高模型的鲁棒性和泛化能力，尤其是在面对未见过的环境或任务时。

4. 学习动态模型的具体应用

尽管DiffNEA和DeLaN在某些任务上表现出色，但它们的应用仍然受到一些限制。以下是几种具体应用的探讨，以及如何克服这些限制。

4.1 多接触问题

对于涉及多接触的复杂任务，如抓取和行走，DiffNEA和DeLaN需要扩展以处理接触。以下是具体的步骤：

扩展DiffNEA ：将分析接触模型与DiffNEA结合，扩展到多接触问题。
学习网格表示 ：使用可学习的表示形式来表示链接的网格，使模型能够适应不同的接触情况。
势场建模 ：对于DeLaN，可以考虑将接触建模为推动穿透物体的势场。

4.1.1 示例：抓取任务

在抓取任务中，机器人手与物体之间的接触是不可避免的。为了处理这些接触，可以采用以下方法：

初始化 ：设定初始抓取姿态和手指位置。
接触检测 ：使用碰撞检测器确定接触点和雅可比矩阵。
计算接触力 ：通过解决线性互补问题（LCP）计算接触力。
优化控制 ：根据计算出的接触力优化控制策略，确保抓取的稳定性和可靠性。

4.2 复杂系统的建模

对于更复杂的系统，如带有非完整约束的系统，DiffNEA和DeLaN也需要改进。以下是具体的步骤：

非完整约束建模 ：将非完整约束纳入模型中，确保模型能够处理这些约束。
多步损失优化 ：使用多步损失优化，以提高模型对长期预测的准确性。
数据增强 ：通过数据增强技术（如域随机化）提高模型的鲁棒性。

4.2.1 示例：球入杯任务

球入杯任务是一个典型的复杂任务，涉及非完整约束和复杂的摩擦模型。为了处理这些挑战，可以采用以下方法：

初始化 ：设定初始状态，包括球的位置和速度。
模型学习 ：使用DiffNEA学习系统的动态模型，包括绳子和杯子的动态。
强化学习 ：基于学习到的动态模型，使用基于模型的强化学习（如eREPS）优化控制策略。
数据增强 ：通过域随机化生成更多样化的训练数据，提高模型的泛化能力。

4.3 非结构化观察的处理

许多机器人任务涉及非结构化观察，如图像、点云等。为了处理这些观察，可以采用以下方法：

特征提取 ：使用深度网络（如CNN、Transformer）从非结构化观察中提取特征。
潜在空间学习 ：使用变分自编码器（VAE）学习一个类似于广义坐标的潜在空间。
动态模型学习 ：在潜在空间中应用拉格朗日或哈密顿动态，学习系统的动态模型。

4.3.1 示例：视觉伺服控制

在视觉伺服控制任务中，机器人需要根据视觉反馈调整姿态。为了处理这种非结构化观察，可以采用以下方法：

图像预处理 ：对输入图像进行预处理，提取关键特征。
特征映射 ：使用VAE将图像特征映射到潜在空间。
动态模型学习 ：在潜在空间中应用拉格朗日动态，学习系统的动态模型。
控制策略优化 ：基于学习到的动态模型，使用强化学习优化控制策略。

5. 鲁棒策略的具体应用

鲁棒策略对于应对环境变化和模型不确定性至关重要。以下是一些具体应用的探讨，以及如何进一步优化这些策略。

5.1 模拟到现实的迁移

模拟到现实（Sim2Real）迁移是机器人学习中的一个重要问题。rFVI在这一方面表现出色，但仍有改进空间。以下是具体的步骤：

模拟环境设置 ：在模拟环境中设置任务，确保环境参数与实际情况相似。
数据生成 ：使用随机化技术生成多样化的训练数据，确保模型能够适应不同的环境。
策略学习 ：在模拟环境中使用rFVI学习鲁棒策略。
现实世界验证 ：将学习到的策略迁移到现实世界系统中，验证其鲁棒性和性能。

5.1.1 示例：Furuta摆锤

Furuta摆锤是一个典型的欠驱动系统，容易受到环境变化的影响。为了提高其鲁棒性，可以采用以下方法：

初始化 ：设定初始状态，包括摆锤的角度和速度。
数据生成 ：通过随机化技术生成多样化的训练数据，确保模型能够适应不同的环境。
策略学习 ：使用rFVI学习鲁棒策略，确保策略能够在不同条件下稳定摆锤。
现实世界验证 ：将学习到的策略迁移到现实世界系统中，验证其鲁棒性和性能。

5.2 高维系统的探索

为了将rFVI扩展到更高维的任务，需要改进探索能力。以下是具体的步骤：

初始化 ：设定初始状态和动作。
在线规划 ：使用乐观偏见的在线规划算法（如模型预测控制）生成动作序列。
忽略对手 ：在探索过程中暂时忽略对手的影响，确保探索状态空间的重要区域。
评估和更新 ：根据实际结果评估动作序列，并更新策略。

5.2.1 示例：高维控制任务

在高维控制任务中，如机器人手臂的多关节控制，探索是非常困难的。为了提高探索效率，可以采用以下方法：

初始化 ：设定初始状态和动作。
在线规划 ：使用模型预测控制（MPC）生成动作序列。
忽略对手 ：在探索过程中暂时忽略对手的影响，确保探索状态空间的重要区域。
评估和更新 ：根据实际结果评估动作序列，并更新策略。

5.3 使用价值函数集合的探索性不确定性

使用价值函数集合的探索性不确定性可以帮助更好地识别未被充分探索的区域。以下是具体的步骤：

定义价值函数集合 ：使用多个不同的价值函数近似器。
计算不确定性 ：根据多个价值函数的预测，计算探索区域的不确定性。
奖励不确定区域 ：向不确定区域添加奖励奖金，鼓励探索这些区域。

5.3.1 示例：复杂环境中的导航

在复杂环境中的导航任务中，探索是至关重要的。为了提高探索效率，可以采用以下方法：

初始化 ：设定初始状态和动作。
价值函数集合 ：使用多个不同的价值函数近似器。
计算不确定性 ：根据多个价值函数的预测，计算探索区域的不确定性。
奖励不确定区域 ：向不确定区域添加奖励奖金，鼓励探索这些区域。
策略优化 ：基于探索结果，优化导航策略。

5.4 未来研究方向

未来的研究可以进一步探索如何在高维系统中改进探索能力，并结合更多的物理先验知识。这将有助于提高鲁棒策略的性能，尤其是在面对复杂的环境和任务时。

表格总结

以下表格总结了不同方法在处理接触、广义坐标、优化损失和守恒定律方面的优缺点：

方法	接触模型	广义坐标	优化损失	守恒定律
DiffNEA	有限	需要	MSE	手动编码
DeLaN	有限	需要	MSE	手动编码
对抗性损失	可扩展	可扩展	对抗性	自动发现
VAE	有限	可扩展	MSE	手动编码

流程图：从数据中发现守恒定律

graph LR;
    A[数据收集] --> B[特征提取];
    B --> C[符号回归];
    C --> D[验证和应用];
    D --> E[改进模型或设计控制策略];

6. 结论

在机器人技术中，结合归纳偏置与机器学习可以显著提高模型和策略的性能。尽管现有的方法（如DiffNEA和DeLaN）在某些任务上表现出色，但仍有许多开放问题和挑战需要解决。未来的研究应着重于扩展这些方法的应用范围，改进探索能力，并从数据中自动发现守恒定律和对称性。这将有助于提高模型的鲁棒性和泛化能力，使机器人技术能够更好地应对复杂的现实世界任务。