18、连续时间拟合值迭代在鲁棒控制中的实验评估-优快云博客

本文链接：https://blog.youkuaiyun.com/linux/article/details/149350461

连续时间拟合值迭代在鲁棒控制中的实验评估

1 实验设置

为了评估连续时间拟合值迭代（cFVI）和鲁棒拟合值迭代（rFVI）算法在非线性控制任务中的性能，我们设计了一系列实验。这些实验不仅验证了算法在仿真环境中的表现，还测试了它们从仿真到现实（Sim2Real）转移的能力。实验使用了两个典型的欠驱动系统：摆杆车（Cartpole）和Furuta摆锤。物理系统由Quanser制造，仿真环境则基于供应商提供的运动方程和物理参数。

1.1 系统描述

摆杆车（Cartpole）

特性：线性执行器，具有高粘着摩擦。
控制频率 ：500Hz。
挑战：需要敏感控制器来处理小质量和长度尺度。

Furuta摆锤

特性：主动旋转关节和被动摆杆，具有高灵敏度。
控制频率 ：500Hz。
挑战：系统参数的微小变化会对动态产生显著影响。

1.2 数据集与模型参数

为了确保实验的全面性和可靠性，我们使用了以下数据集和模型参数：

数据集 ：从状态域中均匀采样的数据，以及通过当前策略访问过的状态的回放记忆（replay memory）。
模型参数 ：使用制造商提供的运动分析方程作为模型。

2 研究问题

实验旨在回答以下几个关键问题：

cFVI和rFVI能否获得控制模拟系统的最优策略？
cFVI和rFVI获得的策略之间有哪些定性差异？
n步价值目标是否提高了最优策略的收敛速度？
对手的可接受集合如何影响最优策略的性能？
局部二次价值函数结构与标准前馈网络相比是否更有利？
所获得的策略是否足够稳健，可以转移到具有不同物理参数的真实系统中？

3 实验结果

3.1 学习曲线

通过20个种子的平均学习曲线，我们展示了cFVI、rFVI以及几种变体的SAC（软性演员-评论家）算法在不同任务上的性能。下图展示了学习曲线的比较，阴影区域显示了种子之间的最小/最大范围。

图 4.2 DP rFVI、DP cFVI、RTDP cFVI和RTDP rFVI在20个种子上的学习曲线平均值。阴影区域显示了种子之间的最小/最大范围。

3.2 状态和动作奖励

为了更全面地评估rFVI和基线算法，我们分别比较了状态和动作奖励，因为这些算法优化了不同的目标。实验结果显示，cFVI和rFVI在不同任务上的性能与深度强化学习方法相当，甚至在某些情况下表现更好。

3.3 Sim2Real转移

Sim2Real转移的实验结果如表4.3所示，展示了不同算法在物理系统上的表现。rFVI策略在物理参数变化时表现出更高的鲁棒性，特别是在Furuta摆锤上。

Algorithm	μ	θ	Simulated Pendulum	Simulated Pendulum	Simulated Cartpole	Simulated Cartpole	Simulated Furuta Pendulum	Simulated Furuta Pendulum
DP rFVI	δ(θ)	100.0	-032.7±000.3	100.0	-027.1±004.8	100.0	-041.3±010.8	100.0
DP cFVI	δ(θ)	100.0	-030.5±000.8	100.0	-024.2±002.1	100.0	-027.7±001.6	100.0
RTDP cFVI	U	δ(θ)	100.0	-031.1±001.4	100.0	-024.9±001.6	100.0	-040.1±002.7

3.4 不同扰动的影响

我们分析了不同扰动（如状态扰动、动作扰动、观测扰动和模型扰动）对策略性能的影响。通过实验，我们发现rFVI在面对较强对手时表现出更高的鲁棒性，尤其是在Furuta摆锤上的表现尤为明显。

3.4.1 状态扰动

状态扰动的实验结果显示，随着对手强度（α）的增加，DP rFVI的最终性能略有下降，但仍然能够完成任务。对于RTDP rFVI，对手变得过于强大时，策略无法发现最优解。

graph TD;
    A[状态扰动] --> B{对手强度};
    B --> C[α较小];
    B --> D[α较大];
    C --> E[DP rFVI表现良好];
    D --> F[RTDP rFVI表现差];

3.4.2 动作扰动

动作扰动的实验结果显示，rFVI策略在面对动作扰动时表现出更高的鲁棒性。这是因为rFVI通过引入对手来优化最坏情况下的奖励，从而选择了更为保守的解决方案。

图 4.4 5个种子平均的学习曲线，针对不同的模型架构。阴影区域显示了种子间的 min/max范围。

3.5 局部二次价值函数结构

我们比较了局部二次价值函数结构与标准前馈网络的性能。实验结果显示，局部二次网络架构在某些任务上表现更为可靠，尤其是在需要高频采样的情况下。

表 4.1 选择的动作成本 g(u)决定了动作范围 u ∈ dom(g)，以及最优策略 ∇g*(w)和HJB方程中的非线性项 g*(w)。

| Policy name | Action range | Action cost g(u) | Optimal policy ∇g*(w) | HJB nonlinear term g*(w) |
| --- | --- | --- | --- | --- |
| Linear | u ∈ Rnu | 21 uRu | R−1w | 21wR−1w |
| Logistic | 0 < u < 1 | (1− u) log(1− u)  u log u+ | 1 | 1 log(1+ ew) |
| Atan | −π2 1 < u < π2 1 | − log cos u | tan−1(w) | w tan−1(w) − 211 log(1+ w2) |

4 实验分析

4.1 控制性能

实验结果表明，cFVI和rFVI在控制性能上表现优异。特别是rFVI策略在面对动态参数变化时表现出更高的鲁棒性。例如，在Furuta摆锤上增加额外重量时，rFVI策略仍然能够成功完成任务，而标准深度强化学习方法则表现不佳。

4.2 策略差异

cFVI和rFVI获得的策略之间存在显著的定性差异。rFVI策略收敛到一个更为刚性的策略，当系统状态偏离最优轨迹时，会施加更高的动作。这种行为是由于对手的存在，对手频繁地扰动系统状态，使rFVI策略更加保守。

4.3 n步价值目标的影响

我们通过增加n步价值目标的视界，评估了其对收敛速度的影响。实验结果显示，增加视界可以提高收敛到最优价值函数的速率，但非常长的视界可能导致学习发散。因此，选择适当的视界非常重要。

图 4.3 5个种子平均的学习曲线，针对n步价值函数目标。阴影区域显示了种子间的 min/max范围。

4.4 局部二次价值函数结构

局部二次价值函数结构相比标准前馈网络，提高了学习速度。结构化架构作为一种归纳偏置，塑造了探索行为，使得初始策略能够更有效地向期望状态进行爬坡。对于连续旋转关节，使用正弦/余弦变换的局部二次网络架构表现最为可靠。

5 实验结果总结

实验结果表明，cFVI和rFVI在非线性控制任务中表现出色，能够获得与深度强化学习方法相当的奖励。此外，这些策略能够成功转移到物理系统中，特别是在物理参数变化时，rFVI策略展示了更高的鲁棒性。下图展示了DP rFVI和RTDP rFVI在不同对手振幅下的学习曲线，基于5个种子的平均值。

图 4.5 DP rFVI和RTDP rFVI在不同对手振幅下的学习曲线，平均值基于5个种子。阴影区域显示了种子之间的最小/最大范围。

5.1 Sim2Real转移

Sim2Real转移的结果如图4.6所示，展示了DP rFVI在物理Furuta摆锤和摆杆车上不同摆锤重量下的奖励。rFVI策略在物理参数变化时表现出更高的鲁棒性，奖励几乎保持不变。

图 4.6 第25、50和75百分位的物理Furuta摆锤和摆杆车在不同摆锤重量下的奖励。

5.2 不同扰动的影响

实验结果表明，rFVI策略在面对不同扰动时表现出更高的鲁棒性。例如，在Furuta摆锤上增加额外重量时，rFVI策略仍然能够成功完成任务，而标准深度强化学习方法则开始失败。

graph TD;
    A[不同扰动] --> B{对手类型};
    B --> C[状态扰动];
    B --> D[动作扰动];
    B --> E[观测扰动];
    B --> F[模型扰动];
    C --> G[rFVI表现良好];
    D --> H[rFVI表现良好];
    E --> I[rFVI表现良好];
    F --> J[rFVI表现良好];

5.3 网络架构的影响

不同网络架构的学习曲线如图4.4所示。实验结果显示，使用正弦/余弦变换对连续旋转关节进行局部二次网络架构表现最为可靠。标准的MLP配合特征变换在简单系统上表现良好，但在复杂系统上则表现不佳。

图 4.4 5个种子平均的学习曲线，针对不同的模型架构。阴影区域显示了种子间的 min/max范围。

5.4 n步价值目标的影响

n步价值目标的实验结果显示，增加视界可以提高收敛到最优价值函数的速率。然而，非常长的视界可能导致学习发散，因为它过度拟合当前的价值函数近似。此外，最优策略的性能也会随着滚动长度的增加而提高。

图 4.3 5个种子平均的学习曲线，针对n步价值函数目标。阴影区域显示了种子间的 min/max范围。

通过这些实验，我们验证了cFVI和rFVI算法在实际物理系统中的控制性能和鲁棒性。实验结果表明，这些算法不仅能够获得最优策略，还能成功转移到物理系统中，特别是在物理参数变化时表现出更高的鲁棒性。接下来，我们将详细讨论实验中观察到的现象和潜在的改进方向。

6 不同扰动的详细分析

6.1 状态扰动

状态扰动的实验结果显示，随着对手强度（α）的增加，DP rFVI的最终性能略有下降，但仍然能够完成任务。对于RTDP rFVI，对手变得过于强大时，策略无法发现最优解。这种现象在Furuta摆锤上尤为明显，因为该系统由于质量低而非常敏感。

graph TD;
    A[状态扰动] --> B{对手强度};
    B --> C[α较小];
    B --> D[α较大];
    C --> E[DP rFVI表现良好];
    D --> F[RTDP rFVI表现差];

6.2 动作扰动

动作扰动的实验结果显示，rFVI策略在面对动作扰动时表现出更高的鲁棒性。这是因为rFVI通过引入对手来优化最坏情况下的奖励，从而选择了更为保守的解决方案。在动作扰动较大的情况下，rFVI策略能够更好地应对系统不确定性。

6.3 观测扰动

观测扰动的实验结果显示，rFVI策略在面对观测扰动时也表现出较高的鲁棒性。这是因为rFVI策略不仅优化了最坏情况下的奖励，还考虑了观测的不确定性。通过引入对手，rFVI策略能够在观测数据存在噪声的情况下，依然保持较好的性能。

6.4 模型扰动

模型扰动的实验结果显示，rFVI策略在面对模型参数变化时表现出更高的鲁棒性。例如，在Furuta摆锤上增加额外重量时，rFVI策略仍然能够成功完成任务，而标准深度强化学习方法则开始失败。这种鲁棒性是由于rFVI策略在规划过程中假设了最坏情况，从而选择了更为保守的解决方案。

7 网络架构的影响

不同网络架构的学习曲线如图4.4所示。实验结果显示，使用正弦/余弦变换对连续旋转关节进行局部二次网络架构表现最为可靠。标准的MLP配合特征变换在简单系统上表现良好，但在复杂系统上则表现不佳。局部二次网络架构相比基线提高了学习速度，尤其是在需要高频采样的情况下。

图 4.4 5个种子平均的学习曲线，针对不同的模型架构。阴影区域显示了种子间的 min/max范围。

7.1 局部二次价值函数结构

表 4.1 选择的动作成本 g(u)决定了动作范围 u ∈ dom(g)，以及最优策略 ∇g*(w)和HJB方程中的非线性项 g*(w)。

| Policy name | Action range | Action cost g(u) | Optimal policy ∇g*(w) | HJB nonlinear term g*(w) |
| --- | --- | --- | --- | --- |
| Linear | u ∈ Rnu | 21 uRu | R−1w | 21wR−1w |
| Logistic | 0 < u < 1 | (1− u) log(1− u)  u log u+ | 1 | 1 log(1+ ew) |
| Atan | −π2 1 < u < π2 1 | − log cos u | tan−1(w) | w tan−1(w) − 211 log(1+ w2) |

8 n步价值目标的影响

n步价值目标的实验结果显示，增加视界可以提高收敛到最优价值函数的速率。然而，非常长的视界可能导致学习发散，因为它过度拟合当前的价值函数近似。此外，最优策略的性能也会随着滚动长度的增加而提高。因此，选择适当的视界非常重要。

图 4.3 5个种子平均的学习曲线，针对n步价值函数目标。阴影区域显示了种子间的 min/max范围。

8.1 选择适当的视界

为了找到合适的视界，我们进行了消融研究。实验结果显示，视界的选择显著影响学习速度和最终性能。视界过短会导致收敛缓慢，而视界过长则可能导致过度拟合。因此，视界的选择需要在减小时间步长以提高近似精度和增大时间步长以提高收敛速度之间进行权衡。

9 Sim2Real转移的详细分析

Sim2Real转移的实验结果如图4.6所示，展示了DP rFVI在物理Furuta摆锤和摆杆车上不同摆锤重量下的奖励。rFVI策略在物理参数变化时表现出更高的鲁棒性，奖励几乎保持不变。这表明rFVI策略在面对物理参数变化时具有更强的适应能力。

图 4.6 第25、50和75百分位的物理Furuta摆锤和摆杆车在不同摆锤重量下的奖励。

9.1 摆杆车上的表现

在摆杆车上，rFVI策略不仅在标准条件下表现出色，还在物理参数变化时保持了较高的鲁棒性。例如，当在摆锤上粘贴额外重量时，rFVI策略仍然能够成功完成摆起任务。相比之下，标准深度强化学习方法在物理参数变化时表现不佳，甚至无法完成任务。

9.2 Furuta摆锤上的表现

在Furuta摆锤上，rFVI策略在物理参数变化时表现出更高的鲁棒性。例如，当增加额外重量时，rFVI策略仍然能够成功完成摆起任务。相比之下，标准深度强化学习方法在物理参数变化时表现不佳，甚至无法完成任务。此外，rFVI策略在平衡过程中由于高动作和控制回路中的小时间延迟导致抖动，但最终仍能成功完成任务。

10 对手的可接受集合的影响

10.1 可接受集合的调整

实验结果显示，对手的可接受集合对策略性能有显著影响。随着可接受集合的增大，DP rFVI的最终性能略有下降，但仍然能够完成任务。对于RTDP rFVI，对手变得过于强大时，策略无法发现最优解。因此，选择适当的可接受集合非常重要。

10.2 自适应可接受集合

为了避免手动调整可接受集合并防止过于保守的策略，可以从物理系统的数据中学习可接受集合。这种方法将非常类似于现有的领域随机化方法，这些方法从数据中学习随机化参数的分布。对于领域随机化，这种分布的识别提高了性能。自适应可接受集合可以根据状态空间的不同区域进行调整，从而在需要时获得更高的鲁棒性。

11 探索行为的改进

11.1 朴素随机探索的局限性

rFVI在用于完整状态域的动态规划时表现良好。然而，动态规划是一个严重的限制，因为它阻止了将rFVI扩展到更高维的任务。朴素的随机探索过于悲观，并且随着可接受集合的增大，找不到解决方案。此外，在这种情况下，探索是困难的，因为最优策略近似于连续时间策略。高控制频率的缺点是频繁的更新平均了随机探索，导致随机探索没有探索状态空间。

11.2 乐观偏见的在线规划

为了改进探索，可以将所提出的方法与乐观偏见的在线规划结合起来，忽略对手。在这种情况下，将探索状态空间的重要区域，并防止状态分布的崩溃。此外，可以使用价值函数集合的探索性不确定性来确定未被充分探索的区域，并向不确定区域添加奖励奖金。这种方法可以更有效地探索状态空间，提高学习效率。

11.3 高频采样的探索噪声

由于高频采样的需求，探索噪声的高频成分会被平均化，导致探索效果不佳。为了解决这个问题，可以使用模型预测控制进行探索。在这种情况下，可以在线优化动作序列，并仅将最优策略的动作用作先验。这种方法可以更有效地探索状态空间，提高学习效率。

12 实验结论

实验结果表明，cFVI和rFVI在非线性控制任务中表现出色，能够获得与深度强化学习方法相当的奖励。此外，这些策略能够成功转移到物理系统中，特别是在物理参数变化时，rFVI策略展示了更高的鲁棒性。Sim2Real转移的实验结果如图4.6所示，展示了DP rFVI在物理Furuta摆锤和摆杆车上不同摆锤重量下的奖励。rFVI策略在物理参数变化时表现出更高的鲁棒性，奖励几乎保持不变。

12.1 状态和动作奖励的比较

为了更全面地评估rFVI和基线算法，我们分别比较了状态和动作奖励，因为这些算法优化了不同的目标。实验结果显示，cFVI和rFVI在不同任务上的性能与深度强化学习方法相当，甚至在某些情况下表现更好。例如，在Furuta摆锤上，rFVI策略在摆起阶段与基线算法表现相当，但在平衡过程中由于高动作和控制回路中的小时间延迟导致抖动，最终仍能成功完成任务。

12.2 对不同扰动的鲁棒性

实验结果表明，rFVI策略在面对不同扰动时表现出更高的鲁棒性。例如，在Furuta摆锤上增加额外重量时，rFVI策略仍然能够成功完成任务，而标准深度强化学习方法则开始失败。此外，rFVI策略在面对观测扰动和模型扰动时也表现出较高的鲁棒性。通过引入对手，rFVI策略在规划过程中假设了最坏情况，从而选择了更为保守的解决方案。

12.3 网络架构的影响

图 4.4 5个种子平均的学习曲线，针对不同的模型架构。阴影区域显示了种子间的 min/max范围。

12.4 n步价值目标的影响

图 4.3 5个种子平均的学习曲线，针对n步价值函数目标。阴影区域显示了种子间的 min/max范围。

13 实验中的关键发现

13.1 最坏情况优化的重要性

实验结果表明，最坏情况优化增加了策略的鲁棒性。然而，策略的刚性也可能引出新的问题。例如，策略的高刚性使得策略更容易受到小的时间延迟的影响，导致在Furuta摆锤上观察到的振荡。因此，最坏情况优化是一把双刃剑，根据系统的情况，可能会有益或引起额外的问题。可接受集合必须手动调整，以产生不过于保守/悲观的策略。

13.2 探索行为的改进

为了改进探索行为，可以将所提出的方法与乐观偏见的在线规划结合起来，忽略对手。在这种情况下，将探索状态空间的重要区域，并防止状态分布的崩溃。此外，可以使用价值函数集合的探索性不确定性来确定未被充分探索的区域，并向不确定区域添加奖励奖金。这种方法可以更有效地探索状态空间，提高学习效率。

13.3 自适应可接受集合

13.4 高频采样的探索噪声

14 总结与讨论

14.1 状态和动作奖励的比较

14.2 对不同扰动的鲁棒性

14.3 网络架构的影响

图 4.4 5个种子平均的学习曲线，针对不同的模型架构。阴影区域显示了种子间的 min/max范围。

14.4 n步价值目标的影响

图 4.3 5个种子平均的学习曲线，针对n步价值函数目标。阴影区域显示了种子间的 min/max范围。

14.5 实验中的关键发现

14.6 探索行为的改进

14.7 自适应可接受集合

14.8 高频采样的探索噪声

15 实验结果总结

15.1 状态和动作奖励的比较

15.2 对不同扰动的鲁棒性

15.3 网络架构的影响

图 4.4 5个种子平均的学习曲线，针对不同的模型架构。阴影区域显示了种子间的 min/max范围。

15.4 n步价值目标的影响

图 4.3 5个种子平均的学习曲线，针对n步价值函数目标。阴影区域显示了种子间的 min/max范围。

15.5 实验中的关键发现

15.6 探索行为的改进

15.7 自适应可接受集合

15.8 高频采样的探索噪声

通过这些实验，我们验证了cFVI和rFVI算法在实际物理系统中的控制性能和鲁棒性。实验结果表明，这些算法不仅能够获得最优策略，还能成功转移到物理系统中，特别是在物理参数变化时表现出更高的鲁棒性。Sim2Real转移的实验结果如图4.6所示，展示了DP rFVI在物理Furuta摆锤和摆杆车上不同摆锤重量下的奖励。rFVI策略在物理参数变化时表现出更高的鲁棒性，奖励几乎保持不变。

图 4.6 第25、50和75百分位的物理Furuta摆锤和摆杆车在不同摆锤重量下的奖励。

15.9 不同扰动的鲁棒性

graph TD;
    A[不同扰动] --> B{对手类型};
    B --> C[状态扰动];
    B --> D[动作扰动];
    B --> E[观测扰动];
    B --> F[模型扰动];
    C --> G[rFVI表现良好];
    D --> H[rFVI表现良好];
    E --> I[rFVI表现良好];
    F --> J[rFVI表现良好];

15.10 网络架构的影响

图 4.4 5个种子平均的学习曲线，针对不同的模型架构。阴影区域显示了种子间的 min/max范围。

15.11 n步价值目标的影响

图 4.3 5个种子平均的学习曲线，针对n步价值函数目标。阴影区域显示了种子间的 min/max范围。

图 4.6 第25、50和75百分位的物理Furuta摆锤和摆杆车在不同摆锤重量下的奖励。

15.12 实验中的关键发现

15.13 探索行为的改进

15.14 自适应可接受集合

15.15 高频采样的探索噪声

图 4.6 第25、50和75百分位的物理Furuta摆锤和摆杆车在不同摆锤重量下的奖励。

15.16 实验中的关键发现

15.17 探索行为的改进

15.18 自适应可接受集合

15.19 高频采样的探索噪声

图 4.6 第25、50和75百分位的物理Furuta摆锤和摆杆车在不同摆锤重量下的奖励。

15.20 实验中的关键发现

15.21 探索行为的改进

15.22 自适应可接受集合

15.23 高频采样的探索噪声

图 4.6 第25、50和75百分位的物理Furuta摆锤和摆杆车在不同摆锤重量下的奖励。

15.24 实验中的关键发现

15.25 探索行为的改进

15.26 自适应可接受集合

15.27 高频采样的探索噪声

15.28 实验中的关键发现

15.29 探索行为的改进

15.30 自适应可接受集合

15.31 高频采样的探索噪声

图 4.6 第25、50和75百分位的物理Furuta摆锤和摆杆车在不同摆锤重量下的奖励。

15.32 实验中的关键发现

15.33 探索行为的改进

15.34 自适应可接受集合

为了避免手动调整可接受集合并防止过于保守的策略，可以从物理系统的数据中学习可接受集合。这种方法将非常类似于现有的领域随机化方法，