连续时间拟合值迭代在鲁棒控制中的实验评估
1 实验设置
为了评估连续时间拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI)算法在非线性控制任务中的性能,我们设计了一系列实验。这些实验不仅验证了算法在仿真环境中的表现,还测试了它们从仿真到现实(Sim2Real)转移的能力。实验使用了两个典型的欠驱动系统:摆杆车(Cartpole)和Furuta摆锤。物理系统由Quanser制造,仿真环境则基于供应商提供的运动方程和物理参数。
1.1 系统描述
摆杆车(Cartpole)
- 特性 :线性执行器,具有高粘着摩擦。
- 控制频率 :500Hz。
- 挑战 :需要敏感控制器来处理小质量和长度尺度。
Furuta摆锤
- 特性 :主动旋转关节和被动摆杆,具有高灵敏度。
- 控制频率 :500Hz。
- 挑战 :系统参数的微小变化会对动态产生显著影响。
1.2 数据集与模型参数
为了确保实验的全面性和可靠性,我们使用了以下数据集和模型参数:
- 数据集 :从状态域中均匀采样的数据,以及通过当前策略访问过的状态的回放记忆(replay memory)。