第一人称视频中未来人物定位的Transformer网络
1. 引言
行人轨迹预测领域在学术界和工业界都备受关注。准确预测未来运动对于自动驾驶系统和辅助设备的正常运行至关重要。然而,在像繁忙街道这样的高动态环境中预测行人轨迹是一项艰巨的任务,主要原因在于人类运动的不可预测性以及行人之间复杂的交互。
以往大部分研究都集中在基于鸟瞰视角的视频来设计预测模型。这些模型的进展得益于不同的社交池化机制,重点在于模拟场景中行人的社交互动。后来,还通过建模和纳入行人和场景之间的交互取得了进一步的进展。这些模型背后的深度学习架构是长短期记忆网络(LSTMs),它能够顺序处理输入并在隐藏状态中存储知识表示。
但辅助设备和自动驾驶系统需要能够像人眼一样感知相机佩戴者周围环境的模型。此前也有一些相关尝试,如个性化目标识别、目标回声定位和盲人导航等。虽然有方法专注于使用单车载相机进行轨迹预测,也有方法利用目标信息和相机佩戴者的自我运动信息来解决这一任务,但LSTM架构在建模社交互动方面受到了批评,它在处理长时序列或缺失数据时存在弱点。
因此,我们决定采用Transformer架构。基于Transformer架构的模型克服了基于LSTM架构的问题,具有更好的时间建模能力,能够学习长期依赖关系,并且高度可并行化,训练时间更短。我们的模型通过简单的方式预测未来轨迹,依赖于先前的位置和尺度、使用OpenPose提取的动态姿势以及相机佩戴者的自我运动。我们在第一人称运动数据集上评估了我们的方法,证实它优于其他几种方法,并分析了不同信息对结果的影响。
2. 相关工作
预测未来人类轨迹的任务已经活跃研究了20多年。相关研究可以从两个方面进行分类:
超级会员免费看
订阅专栏 解锁全文
2255

被折叠的 条评论
为什么被折叠?



