结合物理学和深度学习的连续时间动力学模型
1. 引言
在过去五年中,深度学习在机器人技术中展示了其根本改变学习使用方式的巨大潜力。许多机器人学习方法在其算法中都包含了一个深度网络,这个网络要么代表一个选择动作的策略,要么代表一个预测下一个状态的动态模型,或者代表一个从非结构化观察中提取相关特征的状态估计器。深度网络的简单性、通用适用性、高模型容量以及GPU的广泛应用,使得训练和评估变得快速。然而,这些黑盒模型的通用适用性与高模型容量相结合,既是一种祝福也是一种诅咒。一方面,这种结合使得学习具有高保真度的任意函数成为可能;另一方面,这种结合也容易过度拟合数据,而无法检索底层结构。此外,标准深度网络的黑盒特性阻止了从第一性原理包含先验知识,这对于机器人技术尤其成问题。
为了解决这些问题,提出了一种新的方法,将现有的知识与深度网络相结合。这种结合使得机器人技术能够学习到更好的表示,并保留了深度网络的优势。物理学启发的深度网络学习刚体系统的连续时间动力学模型,通过结合拉格朗日和哈密顿力学与深度网络,保证了能量守恒。这些模型实现了比标准黑盒模型更好的长期预测和控制性能。
2. 深度拉格朗日网络 (DeLaN)
2.1 概述
深度拉格朗日网络(DeLaN)将质量矩阵 ( H ) 和势能 ( V ) 参数化为两个独立的深度网络。因此,由 ( H ) 和 ( V ) 描述的近似拉格朗日 ( L ) 可以推导出前向模型和逆向模型。前向模型 ( \ddot{q} = f(q, \dot{q}, \tau; \psi, \phi) ) 由以下公式描述:
[
\ddot{q} = H^{-1}\left[\tau - \dot