9、双杆平衡实验：从理论到实践的深入探索

fox11

于 2025-11-05 15:08:42 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：神经进化实战指南文章标签：双杆平衡实验强化信号龙格-库塔方法

本文链接：https://blog.youkuaiyun.com/fox11/article/details/155156778

神经进化实战指南专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

双杆平衡实验：从理论到实践的深入探索

1. 双杆平衡实验概述

双杆平衡实验是一个具有挑战性的控制问题，其目标是让安装在小车上的两根杆子保持平衡。该实验假设对当前系统状态有全面了解，包括杆子的角速度和小车的速度。成功的标准是让两根杆子在100,000步（约33分钟的模拟时间）内保持平衡，杆子需保持在垂直方向一定角度内，小车需保持在轨道中心一定距离内。

2. 实验的关键技术点

2.1 强化信号

模拟环境通过强化信号提供系统状态的最小信息，该信号用于指示施加动作后双杆平衡系统是否违反边界约束。Python实现如下：

res = x < -2.4 or x > 2.4 or \
    theta1 < -THIRTY_SIX_DEG_IN_RAD or theta1 > THIRTY_SIX_DEG_IN_RAD or \
    theta2 < -THIRTY_SIX_DEG_IN_RAD or theta2 > THIRTY_SIX_DEG_IN_RAD

此条件检查每根杆子与垂直方向的角度，以及小车相对于轨道中心的位置。

2.2 初始条件和状态更新

与单杆平衡实验不同，双杆平衡实验的初始条件更简化。系统开始时，小车和杆子的速度都设为零，长杆初始位置与垂直方向成1度角，短杆完全直立。
系统状态在每个模拟步骤通过龙格 - 库塔四阶方法进行数值逼近更新，时间步长为0.01秒。新的控制输入每0.02秒生成一次，控制频率为50Hz，系统状态更新频率为100

会员秒杀 ¥9.9 重磅福利

超级会员免费看