多面碰撞与张力机器人:模型实验与控制策略研究
1 张力机器人的控制策略与模型
1.1 先验策略与对称性利用
在张力机器人的控制中,先验策略能减少GPS(Guided Policy Search)迭代所需的次数。例如,对于SBv2这种具有高度规则拓扑结构的机器人,其存在24种操作$H_j$,这些操作可以在不改变系统内在动力学的情况下,对单个结构元素的标签进行置换并转换空间参考系。策略可以表示为$u = H_j^{-1} \pi(H_j y)$,通过适当选择规则集$j = j(y)$,观测空间$Y$的所需覆盖范围可以压缩24倍至子集$Y_R$。
1.2 策略搜索流程
1.2.1 总体概述
强化学习的基本流程是在各种条件下执行控制策略以获取样本数据,根据每个样本的表现更新控制策略,然后重复这个过程。使用NASA的Tensegrity Robotics Toolkit作为模拟测试平台来生成样本,以简单的基于模型的控制器作为初始策略$\pi_0$。
1.2.2 样本分割与分类
由于任意轴滚动时运动的多样性,样本数据的分割和分类是必要的。当质心的地面投影穿过凸包的边缘时,轨迹会被分割。分割类别根据底部三角形的类型($\Delta$或$\Lambda$)以及穿过的边缘之间的关系来分配。这个过程与对称性减少相互作用,使得即使使用不可微的黑盒动力学测试平台,也能进行基于梯度的优化。
1.2.3 动态特征空间
为了克服高维数据对局部动力学模型拟合的阻碍,选择低维特征。主要考虑的外部影响因素是接触节点上的法向力、摩擦力和作用在质心上的重力,因此选择底部三角形节点相
超级会员免费看
订阅专栏 解锁全文
3680

被折叠的 条评论
为什么被折叠?



