64、GLiDE：多样化环境中的通用四足机器人运动控制

辣条鉴定师

于 2025-09-23 10:28:50 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏：算法驱动的机器人未来文章标签： GLiDE 四足机器人强化学习

本文链接：https://blog.youkuaiyun.com/defi6farmer/article/details/152065461

算法驱动的机器人未来专栏收录该内容

66 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

GLiDE：多样化环境中的通用四足机器人运动控制

1 引言

在四足机器人运动控制领域，传统方法常使用复杂模型，导致策略缺乏通用性。为解决这一问题，研究人员提出了 GLiDE 方法，它结合强化学习（RL）与质心模型，旨在实现四足机器人在不同环境下的通用运动控制。

2 控制策略基础

2.1 运动控制方法

与其他使用学习策略跟踪降阶模型行为的方法不同，GLiDE 仅利用运动学知识，采用简单方法进行控制。具体操作如下：
- 支撑足控制 ：使用雅可比转置将地面反作用力（GRFs）转换为关节扭矩，公式为 $\tau_{stance} = J^T f$，其中 $J$ 是支撑足相对于电机状态的位置雅可比矩阵（不考虑浮动基座状态）。
- 摆动足控制 ：通过笛卡尔空间 PD 控制器产生的虚拟力 $f_{PD}$ 实现摆动足的放置策略。若 $(\varphi_i \mod T) = 0$，将摆动足目标设置为质心模型中的更新位置 $p_i$，然后构建由时间参数化的样条曲线连接当前足位置和 $p_i$，并保持给定的足高度间隙，通过 $\tau_{swing} = J^T f_{PD}$ 跟踪该曲线。若检测到提前触地，将该腿的扭矩设置为零，直到计划的支撑阶段；对于延迟触地情况，无需特殊处理，期望的 GRF 会自然导致腿部伸展。

2.2 GLiDE - Full 变体

在训练过程中，可以使用完整模型进行仿真，同时保持其他组件与 GLiDE 相同，这种变体称为 GLiDE - Full。它使用相同的观察和动作空间，并将动作转换为关节扭矩进行仿真。GLiDE 和 GLiDE - Full 各有优缺点：
| 方法 | 优点 | 缺点 |
| ---- | ---- | ---- |
| GLiDE | 便于并行仿真 | 模型保真度受损 |
| GLiDE - Full | 提供精确建模 | 数据收集成本更高 |

3 策略学习与应用

3.1 策略参数化

为了学习控制策略，采用两层前馈神经网络对策略进行参数化，其中隐藏层大小为 128，使用 ReLU 激活函数，输出层应用 TanH 函数。

3.2 奖励结构

使用简单的奖励结构，公式为 $r = 0.5r_p + 0.5r_o$，其中：
- $r_p$ 用于规范线性速度和身体高度，公式为 $r_p = \exp(-10(\dot{p} - \dot{p} {x,d})^2 - 50\dot{p}_y^2 - 50(p_z - p {z,d})^2)$。
- $r_o$ 用于规范身体方向，公式为 $r_o = \exp(-10 |\Theta|^2)$。
这里，$p_{z,d}$ 是机器人的标称高度，$\Theta$ 是机器人方向的欧拉角表示。该奖励结构鼓励策略在保持默认方向的同时，以期望速度直线前进或后退。

3.3 应用场景

除了在平坦地形上的运动，还学习了应对挑战性任务的控制策略，如穿越踏脚石、在狭窄平衡木上导航和双足平衡。使用 IsaacGym 对 Laikago 和 A1 机器人的仿真模型进行策略测试，并在物理 A1 机器人上测试部分策略，以验证从仿真到现实的鲁棒性。

4 学习挑战性任务

4.1 平坦地形运动

在平坦地形上，通过同步对角腿的相位可以实现小跑和行走步态：
- 小跑步态 ：设置周期时间 $T = 60$，摆动时间 $T_{swing} = 30$，初始化 $\varphi_1 = 0$，$\varphi_4 = 0$，$\varphi_2 = 30$，$\varphi_3 = 30$，使非对角腿的摆动相位相差半个周期。
- 行走步态 ：设置 $T = 120$，$T_{swing} = 30$，初始化 $\varphi_1 = 0$，$\varphi_2 = 90$，$\varphi_3 = 60$，$\varphi_4 = 30$。

使用 Laikago 和 A1 的质心模型，可在 1 - 2 小时内学习到小跑（最高 0.5 m/s）和行走（最高 0.2 m/s）的控制策略，并直接部署到各自的全阶机器人模型上。虽然简化模型和全模型的具体轨迹有所不同，但总体行为相似。

4.2 穿越踏脚石

为了展示 GLiDE 与需要感知地形的任务的兼容性，训练策略使质心模型穿越踏脚石。该地形限制了有效踏足位置，因此足放置策略需要避免地面上不可行的位置。具体操作如下：
- 足放置规划 ：使用 Raibert 启发式方法规划足放置。若规划的足放置位置不可行，则选择最接近默认足放置位置的可行点。
- 训练与泛化 ：训练策略穿越随机踏脚石地形，Laikago 的可行立足点间距为 10 - 20 cm，A1 为 5 - 15 cm。训练耗时 4 小时，策略可在 Laikago 和 A1 的仿真全模型上实现，并且能够泛化到训练中未见过的踏脚石模式。例如，命令机器人在转弯时穿越踏脚石，训练策略仅见过直线前进运动，但仍能成功应对。

4.3 平衡木任务

为了展示系统在时间范围内优化性能的控制决策能力，进行了平衡木任务。在该任务中，机器人必须在狭窄路径上行走，侧向足放置选择有限。具体操作如下：
- 训练设置 ：为 A1 的质心模型训练平衡木策略。训练期间，在世界坐标系中限制足放置，使 $|p_{i,y}| \leq 0.05$ m，同时将刚体的 $y$ 坐标 $p_y$ 提供给策略以避免漂移。训练小跑策略，期望速度 $\dot{p}_{x,d} = 0.1$ m/s。
- 策略转移 ：学习到的策略成功转移到 A1 穿越平衡木的仿真全模型上。

4.4 双足平衡任务

双足平衡任务比平衡木任务更具挑战性，因为机器人无法通过迈步恢复平衡。在双足平衡场景中，设置 $\varphi_1, \varphi_4 = 31$，$\varphi_2, \varphi_3 = 0$，使左前腿和右后腿为支撑腿。同时，将 $p_x$，$p_y$ 作为策略输入。在全阶模型中，使用位置控制将右前腿和左后腿保持在半空中，支撑腿的控制方式与之前相同。

4.5 仿真到现实的测试

将部分策略转移到物理 A1 机器人上，这些策略不依赖全身体物理模拟器，避免了常见的过拟合问题，从仿真到现实的转移与从降阶模型到全模型的转移一样简单，进一步证明了该方法的通用性和鲁棒性。例如，训练了一种在平坦地形上的小跑策略，设置默认足位置 $r_{ref,x} = \pm 0.1$ m，$r_{ref,y} = \pm 0.05$ m，周期 $T = 40$，摆动时间 $T_{swing} = 20$，使机器人以更高频率小跑。该策略可转移到仿真全阶模型，并直接应用于物理 A1 机器人，且对扰动具有鲁棒性。在视频中，物理机器人能够使用仅在平坦地形上训练的策略应对布满障碍物的地形。

虽然训练了穿越踏脚石的策略，但由于缺乏定位系统，尚未能在硬件上实现。为此设计了一个代理测试，在机器人前方放置一个 12 cm 宽的间隙，修改足放置策略以避开该间隙。踏脚石策略能够生成命令，使支撑腿稳定机器人，摆动腿迈出比平时更大的步伐。

graph LR
    A[开始] --> B[选择任务类型]
    B --> C{平坦地形}
    C -- 是 --> D[设置步态参数]
    D --> E[学习控制策略]
    E --> F[部署到全阶模型]
    C -- 否 --> G{踏脚石任务}
    G -- 是 --> H[规划足放置]
    H --> I[训练穿越策略]
    I --> J[策略泛化测试]
    G -- 否 --> K{平衡木任务}
    K -- 是 --> L[设置足放置限制]
    L --> M[训练平衡木策略]
    M --> N[策略转移到全阶模型]
    K -- 否 --> O{双足平衡任务}
    O -- 是 --> P[设置支撑腿相位]
    P --> Q[控制支撑腿和悬空腿]
    Q --> R[测试双足平衡策略]
    F --> S[仿真到现实测试]
    J --> S
    N --> S
    R --> S
    S --> T[结束]

5 评估

5.1 测试场景

为了评估 GLiDE 的性能，设置了以下测试场景：
- 身体质量扰动 ：将身体质量扰动 ±5 kg（约为默认身体质量的 40%），记录策略的归一化奖励。
- 高度变化 ：记录策略在高度扰动下行走的归一化奖励。在连续地形上沿 $x$ 和 $y$ 方向添加正弦高度变化创建波场，波周期为 2.5 m，峰谷距离为 0.7 m（相对于机器人正常高度 0.4 m）。对于踏脚石地形，通过将白噪声高度变化输入二阶低通滤波器创建随机高度场，应用于 $x$ 和 $y$ 方向，产生最大 20 度的坡度。
- 能量比较 ：记录 $\frac{1}{T} \sum_{t=0}^{T - 1} |\tau_t|^2$，其中 $\tau_t$ 是时间步 $t$ 所有关节的扭矩值，$T$ 是 10 秒内的总时间步数。
- 运动质量 ：记录左前足 10 秒的 $z$ 轨迹，并在傅里叶空间计算能量谱密度。

5.2 评估结果

将 GLiDE 与基于 RL 或模型预测控制（MPC）的替代方法进行比较，以及对 GLiDE - Full 进行消融实验。具体结果如下：
| 方法 | 能量 | 运动质量 |
| ---- | ---- | ---- |
| GLiDE(Flat) | $891 \pm 21$ | 好 |
| GLiDE - full (Flat) | $913 \pm 21$ | 好 |
| Centroidal PD (Flat) | $869 \pm 4$ | 好 |
| Joint RL (Flat) | $3476 \pm 75$ | 差 |
| GLiDE(Step) | $1080 \pm 46$ | 好 |
| GLiDE - full (Step) | $1113 \pm 52$ | 好 |
| Centroidal PD (Step) | $1460 \pm 70$ | 差 |

RL 基线：关节 RL ：在平坦地形上使用全模型和关节扭矩作为动作空间训练策略，虽然这些策略在奖励方面能取得相似性能，但无法泛化到其他场景，且倾向于高频 shuffle 步态。记录左前足 10 秒的 $z$ 轨迹并在傅里叶空间计算能量谱密度，GLiDE 在 $f > 10$ Hz 的能量分数为 0.13，而关节 RL 为 0.68。为了获得合适的行为，需要进行奖励调整。
MPC 基线：质心 PD 控制器 ：作为 GLiDE 的替代方案，实现了质心 PD 控制器，其加速度 $a_d$ 计算公式为：
[
a_d =
\begin{bmatrix}
\ddot{p}_d \
\dot{\omega}_d
\end{bmatrix}
= k_p
\begin{bmatrix}
p_d - p \
\Theta_d - \Theta
\end{bmatrix}
k_d
\begin{bmatrix}
\dot{p} d - \dot{p} \
\omega_d - \omega
\end{bmatrix}
]
其中 $p_d = [0, 0, p {z,d}]$，$\dot{p} d = [\dot{p} {x,d}, 0, 0]$，$\Theta_d = [0, 0, 0]$，$\omega_d = [0, 0, 0]$ 为期望行为，$k_p$ 和 $k_d$ 是定义 PD 增益的对角矩阵。

GLiDE 和质心 PD 控制器都能在平坦地面上产生小跑和行走步态，但质心 PD 控制器产生的运动更激进。在踏脚石任务中，质心 PD 控制器可调整为以不切实际的高速（$T = 40$，$T_{swing} = 20$）小跑穿越踏脚石地形，但难以找到实现更现实步频的控制器。在平衡木和双足平衡任务中，质心 PD 控制器因欠驱动而向侧面摔倒，而 GLiDE 能够解决所有任务。

GLiDE - Full ：对 GLiDE 进行消融实验，使用 GLiDE - Full 为平坦地形和踏脚石任务训练策略。原则上，GLiDE - Full 策略在默认场景下的性能是 GLiDE 策略性能的上限，因为其训练环境和测试环境相同。在大多数测试场景中，GLiDE 和 GLiDE - Full 表现相似，但 GLiDE 在挑战性场景（如踏脚石高度变化和增加 5 kg 质量）下表现更稳定。

graph LR
    A[开始评估] --> B[选择测试场景]
    B --> C{身体质量扰动}
    C -- 是 --> D[扰动质量并记录奖励]
    C -- 否 --> E{高度变化}
    E -- 是 --> F[创建高度变化地形并记录奖励]
    E -- 否 --> G{能量比较}
    G -- 是 --> H[记录关节扭矩能量]
    G -- 否 --> I{运动质量评估}
    I -- 是 --> J[记录左前足 z 轨迹并计算能量谱密度]
    D --> K[分析结果]
    F --> K
    H --> K
    J --> K
    K --> L[与其他方法比较]
    L --> M[得出评估结论]
    M --> N[结束评估]

6 总结与展望

6.1 方法优势

GLiDE 方法结合强化学习与质心模型，为四足机器人运动控制提供了一种简单且实用的替代方案。通过高效学习不同四足机器人的运动策略，解决了穿越踏脚石、双足平衡和在平衡木上运动等挑战性任务，并成功实现了从仿真到现实的转移。该方法有助于理解基于 RL 的四足机器人技能设计所需的模型保真度。

6.2 现存局限性

然而，简化模型仍存在一些未考虑的约束，如关节限制和扭矩限制。使用全模型进行训练可以考虑这些约束，但策略会变得特定于全模型。此外，目前依赖简单的启发式方法进行足放置，限制了应对更具挑战性地形的能力。

6.3 未来研究方向

为了进一步提升系统能力，未来的研究方向包括：
- 考虑约束条件 ：使用全模型训练策略，明确考虑关节和扭矩限制，以获得最大性能。
- 改进足放置策略 ：引入直接学习足放置的系统，提高应对更具挑战性地形的能力。
- 扩展应用场景 ：将框架扩展到学习穿越更一般的地形，如楼梯，并在物理 A1 机器人上集成视觉系统，实现踏脚石穿越等任务从仿真到现实的转移。
- 开发统一策略 ：通过渐进学习等方法，开发能够处理所有场景的统一策略，以满足现实世界的应用需求。

6.4 技术细节探讨

策略参数化与奖励结构 ：采用两层前馈神经网络对策略进行参数化，隐藏层大小为 128 并使用 ReLU 激活函数，输出层应用 TanH 函数，这种结构有助于策略的学习和收敛。简单的奖励结构 $r = 0.5r_p + 0.5r_o$ 能够有效地引导策略朝着期望的运动方向发展，其中 $r_p$ 规范线性速度和身体高度，$r_o$ 规范身体方向，通过指数函数的形式对误差进行惩罚，使得策略在优化过程中更加稳定。
足控制策略 ：支撑足控制通过雅可比转置将地面反作用力转换为关节扭矩，这种方法能够根据地面的反馈实时调整关节的扭矩，保证机器人的稳定性。摆动足控制利用笛卡尔空间 PD 控制器产生的虚拟力实现足的放置策略，结合样条曲线的跟踪，使得足的运动更加平滑。在不同的任务场景中，如平坦地形、踏脚石、平衡木和双足平衡任务，足控制策略都能根据具体情况进行灵活调整。
模型选择与性能权衡 ：GLiDE 和 GLiDE - Full 各有优劣。GLiDE 便于并行仿真，但模型保真度受损；GLiDE - Full 提供精确建模，但数据收集成本更高。在实际应用中，需要根据具体的任务需求和资源情况选择合适的模型。例如，在快速验证策略可行性时，可以选择 GLiDE；而在追求高精度的运动控制时，GLiDE - Full 可能更合适。

6.5 与其他方法的对比分析

与 Joint RL 的对比 ：Joint RL 在全模型上以关节扭矩作为动作空间进行训练，虽然在奖励方面能取得与 GLiDE 相似的性能，但在泛化能力和运动质量上表现较差。Joint RL 倾向于高频 shuffle 步态，且在 $f > 10$ Hz 的能量分数远高于 GLiDE，说明其运动不够平滑，需要进行奖励调整才能获得合适的行为。
与 Centroidal PD 控制器的对比 ：Centroidal PD 控制器在平坦地面上能产生小跑和行走步态，但运动更激进。在踏脚石任务中，难以实现现实的步频；在平衡木和双足平衡任务中，因欠驱动而容易摔倒。而 GLiDE 能够在各种任务场景中稳定运行，说明其具有更好的适应性和鲁棒性。

6.6 实际应用案例分析

平坦地形运动 ：在平坦地形上，通过合理设置步态参数，如周期时间 $T$ 和摆动时间 $T_{swing}$，并初始化腿部相位 $\varphi_i$，可以实现小跑和行走步态。使用质心模型在短时间内（1 - 2 小时）学习到的控制策略能够直接部署到全阶机器人模型上，且简化模型和全模型的总体行为相似，说明该方法在平坦地形运动控制上具有高效性和可行性。
穿越踏脚石 ：在踏脚石任务中，足放置策略通过 Raibert 启发式方法进行规划，并能在规划位置不可行时选择最接近的可行点。训练策略能够在随机踏脚石地形上学习并泛化到未见过的模式，说明 GLiDE 具有良好的地形适应性和策略泛化能力。
平衡木任务 ：通过限制足放置的侧向位置和提供刚体的 $y$ 坐标，训练的平衡木策略能够成功转移到仿真全模型上，使机器人在狭窄的平衡木上稳定行走，展示了系统在时间范围内优化性能的控制决策能力。
双足平衡任务 ：在双足平衡场景中，通过设置特定的腿部相位和输入参数，结合位置控制和支撑腿控制，能够实现机器人的双足平衡，尽管该任务比平衡木任务更具挑战性，但 GLiDE 依然能够有效应对。

6.7 总结

GLiDE 方法在四足机器人运动控制领域展现出了显著的优势，通过结合强化学习与质心模型，实现了在多样化环境中的通用运动控制。它能够高效学习不同任务的控制策略，在平坦地形、踏脚石、平衡木和双足平衡等任务中都表现出良好的性能。同时，该方法在仿真到现实的转移方面也具有较好的鲁棒性，为四足机器人的实际应用提供了有力的支持。

然而，简化模型的局限性和足放置策略的不足也限制了其在更复杂场景中的应用。未来的研究需要进一步考虑关节和扭矩限制，改进足放置策略，扩展应用场景，并开发统一策略，以满足现实世界对四足机器人运动控制的更高要求。

对比项目	GLiDE	Joint RL	Centroidal PD 控制器
泛化能力	强	弱	一般
运动质量	好	差	一般
能量消耗	适中	高	较高
任务适应性	多种任务	平坦地形为主	部分任务受限

graph LR
    A[四足机器人运动控制需求] --> B{选择方法}
    B --> C{GLiDE}
    C -- 是 --> D[确定任务场景]
    D --> E{平坦地形}
    E -- 是 --> F[设置步态参数]
    F --> G[学习控制策略]
    E -- 否 --> H{踏脚石任务}
    H -- 是 --> I[规划足放置]
    I --> J[训练穿越策略]
    H -- 否 --> K{平衡木任务}
    K -- 是 --> L[设置足放置限制]
    L --> M[训练平衡木策略]
    K -- 否 --> N{双足平衡任务}
    N -- 是 --> O[设置支撑腿相位]
    O --> P[控制支撑腿和悬空腿]
    B --> Q{Joint RL}
    Q --> R[全模型训练]
    R --> S[奖励调整]
    B --> T{Centroidal PD 控制器}
    T --> U[计算加速度]
    U --> V[调整参数]
    G --> W[策略评估与应用]
    J --> W
    M --> W
    P --> W
    S --> W
    V --> W
    W --> X[实际应用]

以上就是关于 GLiDE 方法在四足机器人运动控制中的详细介绍和分析，希望能为相关领域的研究和应用提供有价值的参考。