作者主页:
https://bit-mjy.github.io/
https://xieyuanli-chen.com/
论文标题:
MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos
1. 背景与挑战
在具身人工智能(Embodied AI)领域,如何实现对人类行为和意图的深入理解以及灵活的迁移应用是一个关键问题。通过大规模互联网视频提取可重复利用和迁移的知识,被认为是理解人类意图和动作的高效途径。许多研究已经在动作识别、动作预测、注视点预测、物体交互预测等方向取得进展。
然而,手部轨迹预测(HTP)仍然是其中一个具有挑战性的任务,目标是预测未来人类的动作,而不仅仅是识别动作类别或注视点。HTP技术对于机器人学习中的动作空间表示和扩展现实中的人类活动辅助具有重要价值。现有的基于卷积和Trasnformer的模型尽管取得了一定进展,但仍存在多个未解决的挑战:
●相机自我运动影响: 当前的HTP方法未能无缝集成相机佩戴者自我运动信息来解决运动相关的误差。未来手部轨迹的3D运动投影到2D平面时,会因空间维度混淆而产生差异,自我运动信息能够帮助缓解这一问题。此外,相机视角的变化导致各帧中的手部位置和场景信息相对“预测画布”视角存在差异,这也需要通过引入相机自我运动来校正。
●物体可供性标签缺失: HTP模型通常需要物体可供性标签来引导手部轨迹的优化,但这些标签的标注非常耗时且复杂。现有的自动检测交互物体的技术精度较低,无法得到高质量的真值数据,这使得模型在缺少可供性标签的情况下,难以有效提取手部运动与场景之间的语义关系。
●因果关系和运动连续性约束不足: 现有的HTP模型在处理手部运动与相机自我运动之间的因果关系时表现较差,未能捕捉到二者交织的运动模式,可解释性也不足。此外,现有的损失函数也不足以为手部运动的潜在物理模型提供足够的优化方向,导致轨迹预测不够精准。
2. MADiff算法简介
■2.1 算法结构
MADiff算法以过去的第一视角视频片段、2D手部轨迹以及文本提示作为输入。首先,通过Tokenzier生成视觉-语言融合特征,并使用轨迹编码器对手部轨迹进行编码,然