18、连续时间拟合值迭代在鲁棒控制中的实验评估

连续时间拟合值迭代在鲁棒控制中的实验评估

1 实验设置

为了评估连续时间拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI)算法在非线性控制任务中的性能,我们设计了一系列实验。这些实验不仅验证了算法在仿真环境中的表现,还测试了它们从仿真到现实(Sim2Real)转移的能力。实验使用了两个典型的欠驱动系统:摆杆车(Cartpole)和Furuta摆锤。物理系统由Quanser制造,仿真环境则基于供应商提供的运动方程和物理参数。

1.1 系统描述

摆杆车(Cartpole)
  • 特性 :线性执行器,具有高粘着摩擦。
  • 控制频率 :500Hz。
  • 挑战 :需要敏感控制器来处理小质量和长度尺度。
Furuta摆锤
  • 特性 :主动旋转关节和被动摆杆,具有高灵敏度。
  • 控制频率 :500Hz。
  • 挑战 :系统参数的微小变化会对动态产生显著影响。

1.2 数据集与模型参数

为了确保实验的全面性和可靠性,我们使用了以下数据集和模型参数:

  • 数据集 :从状态域中均匀采样的数据,以及通过当前策略访问过的状态的回放记忆(replay memory)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值