Motion Planning Among Dynamic, Decision-Making Agents with Deep Reinforcement Learning

本文提出了一种无需假设行人行为规则的避障算法,利用深度强化学习(DRL)和LSTM,使机器人能处理任意数量的行人。该算法在仿真和实际机器人实验中表现出色,无需3D雷达即可实现自主避障导航。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ABSTRACT:

       本文研究用避障算法实现移动机器人在室内环境的行人中进行安全、有效的避障操作。本实验室之前的研究成果见论文《Socially Aware Motion Planning with Deep Reinforcement Learning》,也是基于DRL作为避障算法框架,其中有对智能体行为规则的假设性。然后本文在上面文章工作基础上,主要有两点创新点,第一点,实现了不需要假设智能体遵循某种特定的行为规则,而能够学习避障。第二点,引入LSTM使得算法能够使用对任意数量其他智能体的观测,而非之前方法:固定观测大小。分别通过仿真和实际实验验证算法效果如下:在仿真中,随着仿真中智能体数量的增加,本文算法的表现相对于之前的方法更好。同时,基于本文算法,移动机器人不需要3D雷达,就可以以行人速度,完全自主避障导航移动。

Ⅰ. INTRODUCTION

        在行人中导航的机器人需要观察人类行为如cooperation或obliviousness。行人不仅仅是个移动的障碍物,同时他们还在持续不断做出决策,这些决策对机器人来说仅仅是部分可观测的。然后本文工作就是解决这样一个机器人与行人交互的避障问题。其中一个基本问题就是如何推断行人的状态、策略及意图。

        如何预测行人智能体的行为决策,有3种假设:In the simplest case……Another approach……Further……最终即使能知道行人的决策规则,但是行人的意图如去向目的地是未知的。所以最后不去预测行人的行为,最近有研究使用DRL方法来给多智能体之间复杂的交互行为进行建模,如参考文献[2-7]。其中,尽管基于学习的方法在人机交互避障中表现还不错,但都基于某种特定的行为准则,如文献[2][3][5]。本文基于之前[2][3]的工作将避障算法推广到不需要设置某种交互的行为准则。

……本文参考文献[8]和[9]借鉴自然语言处理的思路,将变动数量的其他智能体的位置编码成固定长度的向量,并在网络输

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值