CVPR 2024｜多模态场景感知，高保真运动预测框架来了！

最新推荐文章于 2025-07-16 17:15:38 发布

原创

最新推荐文章于 2025-07-16 17:15:38 发布 · 2.3k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#多模态 #感知 #动作预测 #CVPR #SIF3D #意图感知

在这里插入图片描述设想一下，你在家中准备起身，前往橱柜取东西。一个集成 SIF3D 技术的智能家居系统，已经预测出你的行动路线（路线通畅，避开桌椅障碍物）。当你接近橱柜时，系统已经理解了你的意图，柜门在你达到之前就已自动打开，无需手动操作。

视频中，左边为3D场景和预测结果（红色人体表示真实序列，蓝色人体表示预测结果），中间为运动序列最有可能和场景发生交互的点云，右边为每一个人体pose最有可能和场景发生交互的点云（红：交互可能性大，蓝色交互可能性小）

SIF3D（Sense-Informed Forcasting of 3D human motion），即场景感知运动预测技术，由小红书创作发布团队提出，目前已被计算机视觉顶会 CVPR2024 收录。SIF3D 的先进之处在于其多模态感知能力。它结合人过去的动作序列、真实 3D 场景信息以及人的视线三个方面，预测未来的人体运动。

这项技术特别擅长于理解和预测在复杂环境中的动作，如避开障碍物，这对于自动驾驶、机器人导航、游戏开发和虚拟现实等领域至关重要。比如使得汽车能够更准确地提前预测马路上的行人、车辆未来可能的运动趋势，或是应用于医疗康复诊疗，提前对病人可能发生的不安全运动行为进行预警等。

SIF3D 的工作原理是：通过两种创新的注意力机制——三元意图感知注意力（TIA）和场景语义一致性感知注意力（SCA）——来识别场景中的显著点云，并辅助运动轨迹和姿态的预测。TIA 专注于预测人的意图和全局动作轨迹，而 SCA 则专注于局部场景细节，确保每一帧的姿态预测都与环境保持连贯性。

实验结果表明，SIF3D 在多个大规模场景感知运动预测的数据集上的卓越性能（SOTA），预测时长突破目前算法边界，达到 5 秒时长。它能够有效地识别场景中那些可能与人的运动相关联、相耦合的部分（显著性区域），并通过场景中显著性区域的特征辅助运动预测。这一开创性的方法，不仅推动了人体运动预测技术的发展，也为未来在更多场景下应用场景感知人体运动提供了新的方向和可能性。

# 01 背景

人体动作预测（Human Motion Forecasting），即根据观测到的人体运动序列预测其将来的动作，这是机器智能（MI）、自动驾驶汽车（AD）和人机协作（HRI）等领域的关键技术。在现实生活中，人类的动作是与周围环境紧密相连的，比如我们会因为障碍物而改变行走路径。然而在现有的运动预测研究中，场景信息却常常被忽略，大大制约了技术在真实 3D 场景下的应用。

在机器人技术中，场景信息通常被表达为 3D 点云。现有的场景感知运动预测的方法，通常会将整个 3D 点云进行编码，而后通过全局嵌入或索引、插值等手段将其作为条件引入至运动预测任务当中。尽管该方法可行，但我们注意到：并非点云中的所有信息都与运动预测任务同等相关，相反，往往只有小部分的场景点云会对我们当前序列的运动预测起到作用，我们称其为显著点云（salient point clouds）。

此外，人眼的凝视点（与场景的交汇点）也是一种能够体现人的运动意图的表现。我们期望通过联合分析 3D 场景和人眼凝视点，可以捕捉人类向特定位置的运动行为，从而更准确地预测其运动序列。

3D 场景（左），传统运动预测（中）与本文提出的场景感知预测（右）的对比

为了解决上述挑战，我们提出了一种全新的多模态场景感知的运动预测方法 SIF3D（Multimodal Sense-Informed Forecasting of 3D Human Motions）。SIF3D 主要包含以下两个核心组件：

●三元意图感知注意力机制（ternary intention-aware attention，TIA）：通过观测序列、场景点云、人眼凝视的三元多模态联合分析，预测人的意图并区分全局显著点云（global salient points），用于辅助人体运动轨迹预测

●场景语义一致性感知注意力机制（semantic cohenrence-aware attention，SCA）：逐帧分析运动序列与场景语义的连贯性与一致性，区别得到逐帧的局部显著点云（local salient points），用于辅助人体姿态预测

通过在新引入的大型数据集上的广泛实验，SIF3D 在真实场景下的 3D 人体运动预测方面取得了最优越的性能，证明了其捕获显著点云的准确性，以及通过显著点云辅助运动预测的有效性。此外，这些发现同样为将来基于真实场景的高保真运动预测、人机交互等领域的应用提供了新的视角和可能性。

# 02 方法
在这里插入图片描述
SIF3D 算法流程图

如图所示，SIF3D 主要涉及以下三个核心步骤：
●Encoding：通过点云网络（PointNet）和 Transformer 分别提取 3D 场景的空间信息与运动序列的时间、空间信息，并将其编码为高维隐藏特征；

●Crossmodal Attention：通过提出的三元意图感知注意力机制（TIA）与场景语义一致性感知注意力机制（SCA）提取 3D 场景中的全局与局部显著点云，并通过跨模态注意力机制分别辅助运动轨迹与姿态的预测；

●Decoding：融合 TIA 与 SCA 预测的轨迹与姿态，并使用真伪判别器进一步监督预测序列的保真度。

2.1 多模态编码（Multimodal Encoding）

由于 SIF3D 使用到了三种模态的信息（运动序列、3D 场景点云、人眼凝视点），在对它们进行联合分析之前，我们首先需要将运动序列与 3D 场景点云编码并映射至同一空间，而人眼凝视点则作为索引，用于获取凝视点的 3D 场景特征。具体操作如下：

a. 运动序列编码：对于长度为 $T$ 的观测运动序列 $X_{1:T}=\lbrace{x_1,x_2....,x_T}\rbrace$

最低0.47元/天解锁文章