顶会论文:基于神经网络StarNet的行人轨迹交互预测算法

介绍StarNet算法,一种用于预测行人轨迹的创新方法,通过构建全局动态地图来提高无人车的安全性和效率。

1.背景

民以食为天,如何提升超大规模配送网络的整体配送效率,改善数亿消费者在”吃“方面的体验,是一项极具挑战的技术难题。面向未来,美团正在积极研发无人配送机器人,建立无人配送开放平台,与产学研各方共建无人配送创新生态,希望能在一个场景相对简单、操作高度重复的物流配送中,提高物流配送效率。在此过程中,美团无人配送团队也取得了一些技术层面的突破,比如基于神经网络StarNet的行人轨迹交互预测算法,论文已发表在IROS 2019。IROS 的全称是IEEE/RSJ International Conference on Intelligent Robots and Systems,IEEE智能机器人与系统国际会议,它和ICRARSS并称为机器人领域三大国际顶会。

1.1  行人轨迹预测的意义

在无人车行驶过程中,它需要对周围的行人进行轨迹预测,这能帮助无人车更加安全平稳地行驶。我们可以用图1来说明预测周围行人的运动轨迹对于无人车行驶的重要性。

图1 主车规划轨迹跳变问题

图1中蓝色方块代表无人车,白色代表行人。上半部分描述的是在不带行人轨迹预测功能情况下无人车的行为。这种情况下,无人车会把行人当做静态物体,但由于每个时刻行人都会运动,导致无人车规划出来的行驶轨迹会随着时间不停地变化,加大了控制的难度,同时还可能产生碰撞的风险,这样违背了安全平稳行驶的目标。下半部分是有了行人轨迹预测功能情况下的无人车行为。这种情况下,无人车会预测周围行人的行驶轨迹,因此在规划自身行驶时会考虑到未来时刻是否会与行人碰撞,最终规划出来的轨迹更具有“预见性”,所以避免了不必要的轨迹变化和碰撞风险。

1.2  行人轨迹预测的难点

总体而言,行人轨迹预测的难点主要有两个:

第一,行人运动灵活,预测难度大。本身精确预测未来的运动轨迹是一个几乎不可能完成的任务,但是通过观察某个障碍物历史时刻的运动轨迹,可以根据一些算法来大致估计出未来的运动轨迹(最简单的是匀速直线运动)。在实际中,相比于自行车、汽车等模型,行人运动更加灵活,很难对行人建立合理的动力学模型(因为行人可以随时转弯、停止、运动等),这加剧了行人预测的难度。

第二,行人之间的交互,复杂又抽象。在实际场景中,某一行人未来的运动不仅受自己意图支配,同样也受周围行人的影响(例如避障)。这种交互非常抽象,在算法中往往很难精确地建模出来。目前,大部分算法都是用相对空间关系来进行建模,例如相对位置、相对朝向、相对速度大小等。

1.3  相关工作介绍

传统算法在做预测工作时会使用一些跟踪的算法,最常见的是各类时序模型,例如卡尔曼滤波(Kalman Filter, KF)、隐马尔可夫(Hidden Markov Model, HMM)、高斯过程(Gaussian Process, GP)等。这类方法都有一个很明显的特点,就是根据历史时序数据,建立时序递推数学公式:$X^t=f\left(X^{t-1}\right)$或者$p\left(X^t \mid \ X^{t-1}\right)$。因为这类方法具有严格的数学证明和假设,也能处理一些常规的问题,但是对于一些复杂的问题就变得“束手无策”了。这是因为这

### 基于时空图的行人轨迹预测 #### 什么是时空图 (Spatio-Temporal Graph)? 时空图是一种用于建模动态场景中对象及其相互作用的数据结构。在这种上下文中,“空间”指的是不同实体之间的几何关系,而“时间”则捕捉这些关系随时间的变化。具体来说,在行人轨迹预测领域,时空图可以用来表示行人间以及行人与其他环境要素(如静态物体)间的交互。 在文献中提到的一种方法是利用 LSTM 神经网络构建新的时空图框架,该框架能够有效地将行人-行人行人-静态物品两种类型的交互纳入考虑范围,从而实现更精确的轨迹预测[^2]。 #### 如何应用时空图进行行人轨迹预测? 1. **数据预处理阶段** 首先需要定义节点和边来构成时空图 \( G = (V, A) \),其中 \( V \) 表示节点集合(通常代表各个行人),\( A \) 则表示相邻节点之间的连接权重矩阵。给定 T 帧的历史观测数据,可以通过特定方式构造此图并将其传递至后续模型中进一步分析[^4]。 2. **特征提取过程** 使用时空图卷积神经网络 (ST-GCNNs) 对上述所构建好的图表征执行前向传播操作,进而生成一个紧凑型的空间与时序混合嵌入向量作为下一步骤的基础输入源材料。 3. **未来轨迹预测环节** 将前面得到的结果送入另一个子模块——即 TXP-CNN 中完成最终目标函数求解工作,也就是估计出下一时刻可能发生的路径变化情况。 另外还有一种叫做 STAR 的新架构被提出,它完全依靠注意力机制来进行整个流程的设计与实施。STAR 主要包含以下几个核心组成部分: - **TGConv**: 这是一个基于 Transformer 设计出来的全新版本图形卷积单元,专门负责刻画单张图片内部存在的群体互动现象; - **Temporal Transformer**: 单独针对序列维度上的关联特性加以描述说明; - **External Memory Module**: 提供额外的记忆能力帮助系统更好地应对长时间跨度内的不确定性问题[^3]。 通过交替运用这两种变换器形式,STAR 成功解决了复杂多变的实际应用场景下的诸多难题,并且取得了优于现有技术水平的表现成果。 ```python import torch from starnet import SpatialTransformerLayer, TemporalTransformerLayer def star_model(input_data): spatial_transformed = SpatialTransformerLayer()(input_data) temporal_output = TemporalTransformerLayer()(spatial_transformed) return temporal_output ``` 以上代码片段展示了如何简单调用 `SpatialTransformerLayer` 和 `TemporalTransformerLayer` 来搭建基础版的 STAR 架构实例化程序逻辑。 ---
评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值