CPG - Actor:用于中央模式生成器的强化学习
1. 引言
与轮式或爬行机器人相比,腿部机器人机动性更强,这就需要复杂的规划和控制解决方案。目前高性能运动控制的主流是模块化、基于模型的控制器,它将控制问题分解为不同子模块。不过,这种方法依赖工程师在每个阶段精心设计的启发式规则,存在一定局限性。
近年来,数据驱动方法在腿部机器人控制领域崭露头角,其在鲁棒性和动态行为方面超越了大多数传统方法。特别是深度强化学习(Deep - RL)训练的控制器,利用神经网络(NN)策略将感官信息映射到低级驱动命令,展现出工程师难以手动设计的行为,且能更好地应对环境交互中的各种情况。然而,像多层感知器(MLP)这样广泛使用的NN架构,无法自然产生自然运动步态中的振荡行为,需要长时间训练才能学会平滑振荡。
中央模式生成器(CPGs)作为一种受生物启发的神经网络,能产生有节奏的模式,在机器人运动控制中取得了不错的效果。但CPG的设计原则较少,尤其是在传感器反馈集成方面,其潜力因传感器反馈集成不足而受到限制。
深度神经网络能够发现和建模输入观测与输出控制信号之间的高度非线性关系,这使得基于深度神经网络的深度强化学习在解决复杂运动任务中表现出色,且无需直接监督。因此,将深度强化学习与CPG结合,有望提升CPG对周围环境的理解。但要优化深度神经网络架构与CPG的结合,需要合适的方法来实现从损失到参数的梯度传播,即反向传播。
2. 相关工作
CPG应用广泛,如用于游泳机器人、模块化机器人和小型四足机器人的运动等。CPG生成的轨迹作为运动过程中每个执行器的参考,需要进行调整以实现协调。基于CPG的控制器优化通常在模拟中通过遗传算法(GA)、粒子群
超级会员免费看
订阅专栏 解锁全文
1926

被折叠的 条评论
为什么被折叠?



