ABSTRACT:
本文研究用避障算法实现移动机器人在室内环境的行人中进行安全、有效的避障操作。本实验室之前的研究成果见论文《Socially Aware Motion Planning with Deep Reinforcement Learning》,也是基于DRL作为避障算法框架,其中有对智能体行为规则的假设性。然后本文在上面文章工作基础上,主要有两点创新点,第一点,实现了不需要假设智能体遵循某种特定的行为规则,而能够学习避障。第二点,引入LSTM使得算法能够使用对任意数量其他智能体的观测,而非之前方法:固定观测大小。分别通过仿真和实际实验验证算法效果如下:在仿真中,随着仿真中智能体数量的增加,本文算法的表现相对于之前的方法更好。同时,基于本文算法,移动机器人不需要3D雷达,就可以以行人速度,完全自主避障导航移动。
Ⅰ. INTRODUCTION
在行人中导航的机器人需要观察人类行为如cooperation或obliviousness。行人不仅仅是个移动的障碍物,同时他们还在持续不断做出决策,这些决策对机器人来说仅仅是部分可观测的。然后本文工作就是解决这样一个机器人与行人交互的避障问题。其中一个基本问题就是如何推断行人的状态、策略及意图。
如何预测行人智能体的行为决策,有3种假设:In the simplest case……Another approach……Further……最终即使能知道行人的决策规则,但是行人的意图如去向目的地是未知的。所以最后不去预测行人的行为,最近有研究使用DRL方法来给多智能体之间复杂的交互行为进行建模,如参考文献[2-7]。其中,尽管基于学习的方法在人机交互避障中表现还不错,但都基于某种特定的行为准则,如文献[2][3][5]。本文基于之前[2][3]的工作将避障算法推广到不需要设置某种交互的行为准则。
……本文参考文献[8]和[9]借鉴自然语言处理的思路,将变动数量的其他智能体的位置编码成固定长度的向量,并在网络输