移动机器人多目标强化学习偏好探索与人类跟随技术解析
在机器人技术不断发展的今天,移动机器人的人类跟随和多目标强化学习问题备受关注。本文将深入探讨移动机器人在人类跟随过程中遇到的遮挡问题解决方案,以及一种创新的多目标强化学习算法——带有偏好探索的多目标强化学习算法(MoPE)。
移动机器人人类跟随算法
在机器人跟随人类的过程中,遮挡问题是一个常见且棘手的挑战。为了解决这个问题,研究人员提出了一种基于分类的人类跟随算法,并制定了一套测试策略。
为了验证算法在不同场景下的性能,进行了相关实验,记录了机器人改变跟随目标的情况,具体数据如下表所示:
| 实验场景 | 跟随原目标人数(次) | 改变目标人数(次) |
| — | — | — |
| 干扰目标站在目标人前方 | 10 | 0 |
| 干扰目标站在目标人和机器人之间 | 6 | 4 |
| 干扰目标和目标人站在机器人前方 | 7 | 3 |
从实验结果可以看出,基于深度分类的模型在人类跟随算法中表现出了有效性。然而,该算法也存在一定的局限性,初始化阶段的模型训练需要花费一定时间,导致整个人类跟随框架的处理过程耗时较长,这也是未来需要改进的方向。
多目标强化学习算法背景
在现实世界中,一个任务往往包含多个目标,并且在不同情况下对这些目标的偏好也有所不同。传统的单目标强化学习方法,如 DQN 和 DDPG,虽然能够处理单目标问题,但在处理多目标任务时存在一定的局限性。
多目标强化学习(MORL)为解决多目标任务提供了更好的途径。现有的 MORL 方法主要分为外循环和内循环两类:
-
超级会员免费看
订阅专栏 解锁全文
1038

被折叠的 条评论
为什么被折叠?



