利用姿态线索来放大人体的有关局部区域来获得细粒度的信息,然后结合整体特征获得最终结果。
被ICCV2019接收
论文地址:https://arxiv.org/pdf/1909.08453
1.摘要
推理人机交互是以人为中心的场景理解中的一个核心问题,由于人类物体配置的巨大变化、多个共生关系实例以及关系类别之间细微的视觉差异,检测这种关系对视觉系统提出了独特的挑战。
为了解决这些问题,本文提出了一种多层次的关系检测策略,该策略利用人的姿势线索来捕捉关系的全局空间结构,并作为一种注意机制来动态地放大人的局部相关区域。
具体地说,开发了一个多分支深层神经网络来实例化多级关系推理,它由四个主要模块组成:主干模块、整体模块、放大模块和融合模块。
- 给定一幅图像,主干模块计算其卷积特征图,生成人体物体建议和空间配置。
- 对于每个proposal,整体模块集成了人、物体及其联合特征,以及人类姿势和物体位置的编码。
- 放大模块提取人体部分和物体特征,并从姿势布局中产生部分级别的注意,以增强相关的部分提示。
- 融合模块将整体和部分级别的表示结合起来,生成HOI类别的最终分数。
2. 相关工作
由于人的物体外观和空间形态的巨大变化,多种共存关系,相似关系之间的细微差别等原因,目前人物交互领域仍然存在着巨大的挑战。
大多数现有的HOI检测工作都是通过在视觉目标层次上进行推理交互来解决这个问题的。主要的方法通常从一组人-物体建议开始,提取人和物体实例的视觉特征,并结合它们的空间线索来预测这些人-物体对的关系类。尽管结果令人鼓舞,但在处理相对复杂的关系时,这种粗略的推理仍有一些缺点。首先,由于缺少上下文提示,很难确定人-物体对实例与目标级表示的关系,这可能导致错误的关联。此外,许多关系类型都是根据细粒度操作定义的,而细粒度操作不太可能基于类似的目标级特性进行区分。例如,它可能需要一组详细的局部特征来区分运动场景中的“保持”和“捕捉”。此外,由于这些方法在很大程度上依赖于整体特征,关系的推理过程是一个黑箱,很难解释。
人-物交互(HOI)检测对于理解复杂场景中的人的行为至关重要。近年来,研究者们开发了一些人-物交互数据集,如V-COCO和HICO-DET。早期的研究主要集中在利用多流信息处理HOIs识别,包括人、物体外观、空间信息和人体姿态信息。在HORCNN中,Chao等人提出多流融合人、物和空间配置信息来解决HOIs检测任务。齐等人提出了一种图形解析神经网络(GPNN),将结构化场景建模为一个图形,在每个人和物体节点之间传播信息,并对所有节点和边缘进行分类,以确定其可能的物体类别和行为。
有几次尝试使用人体姿势来识别细粒度的人体相关动作。方等人利用成对的人体部位相关性来帮助解决HOIs检测问题。Li等人探索多个数据集中先前存在的交互性,将人体姿态和空间构型结合起来形成姿态构型图。然而,这些工作只将人体姿态作为人体各部分与物体之间的空间约束,而没有利用人体姿态来提取各部分的放大特征,从而没有为HOI任务提供了更多的细节信息。