基于千兆像素视频的行人意图理解技术
1. 行人意图理解的重要性与传统方法
行人动态理解在众多实际任务中至关重要,涵盖自动驾驶、机器人导航、行人流量分析以及人群疏散等领域。人类在拥挤空间中具备一种本能,能够预判他人的未来行动,比如避免正面碰撞、与同伴保持舒适距离同步行进。这种理解和预判行人行动的能力,对提升城市环境中无人系统的性能具有重要意义。
过去几十年,人们采用双向流、元胞自动机或碰撞时间等模型来模拟行人的集体行为,以实现行人预判。近年来,机器学习技术被引入,可对每个行人的未来状态进行预测。然而,这些方法主要侧重于模拟个体在避碰任务中的行为,忽视了与群体相关的社会行为。
人类是社会性动物,倾向于社交互动并形成社会群体。研究表明,街道上高达 70%的行人处于群体之中。行人在群体中会遵循社会规范,并受附近邻居的影响。群体内部和群体之间的互动对行人的社会认知和行为模式有着关键影响。为了对群体或互动信息进行建模,图神经网络(GNNs)被应用于行人/智能体动态理解,这是目前的先进方法。但群体行为对行人的影响复杂且微妙,不同的群体关系或互动状态对行人未来状态的影响各异,现有的方法难以区分行人之间不同的群体关系,因此无法准确预测受群体行为影响的行人预期行为差异。
2. 群体交互场(GIF)与 GIFNet
为了解决上述问题,提出了群体交互场(GIF)这一新颖的群体感知表示方法,用于隐式量化行人的预期行为。GIF 由邻近场和注意力场组成,分别基于行人未来位置的概率场和注意力方向,来表示预期的行人行为。
GIFNet 被开发用于基于明确的多维观察(包括轨迹、视觉方向和群体交互状态)来估计 GIF。它通过基于群体规模和动态交互状态的传
超级会员免费看
订阅专栏 解锁全文
1896

被折叠的 条评论
为什么被折叠?



