迈向人机协作:以无监督域适应实现第一人称视角动作识别
1. 引言
随着协作机器人的出现,人机交互技术发展迅速,涵盖规划、控制等多方面,甚至涉及社会影响。但在现实场景(如家庭或工业环境)中应用这些技术,机器人不仅要能进行姿态估计和预测,还需对人类动作进行高层次描述。例如,厨房中的陪伴机器人需从视频中推断人类当前动作,以预测后续步骤并提供工具。
第一人称视角视觉(egocentric vision)是实现这一目标的有前景的解决方案。与第三人称计算机视觉任务相比,它具有丰富的多模态信息和内在的注意力机制。然而,这种数据采集方式也存在一些问题:
- 自我运动干扰 :头部姿势变化会导致视角和背景改变,使自我运动与真实动作混淆,为数据集带来噪声。
- 环境偏差 :模型预测与周围环境强相关,环境变化(如不同厨房)会导致性能下降。
- 时间变化 :视频记录会因光照、习惯或人类技能变化而随时间改变。
不同传感模态受这些问题的影响程度不同。例如,自我运动对听觉通道影响极小,对视觉领域影响较大;光流更关注场景中的运动,对环境变化不太敏感;RGB数据虽受环境偏差影响大,但能详细呈现场景中的物体,对理解场景的可供性至关重要;音频信号的域偏移与视觉不同。因此,开发能根据条件评估哪种模态更具信息性的分类器很关键,这可提高网络的多模态学习能力,增强模型在不同域偏移下的鲁棒性。
此前提出的相对范数对齐网络(RNA-Net)是一个多模态框架,旨在通过最小化跨模态损失函数,在多源域中对齐音频和视觉特征范数。实验表明,多源域对齐可使网络学习到域无关特征,但R
超级会员免费看
订阅专栏 解锁全文
3200

被折叠的 条评论
为什么被折叠?



