此篇论文已被AAAI 2022收录,论文链接请见“阅读原文”。
Figure 1 (a) HOI (b) Relational Phrase Learning (c) PhraseHOI
人-物交互关系检测(human-object interaction detection, HOI detection)是以人为中心的高维场景感知任务,该任务旨在定位图像中产生特定动作行为的人,以及与其产生交互关系的物体,如 Figure1(a)所示,HOI 任务即检测出图像中存在交互行为的 person,horse 以及交互行为 ride、walk,以组成对应的交互行为三元组<person ride horse>,<person walk horse>。
传统目标检测任务缺乏对场景的理解,通常会检测出图像中存在的所有目标。相比传统目标检测任务,HOI 任务提供了更为细粒度的感知,对以人为中心的高维场景感知任务十分重要。
然而,由于现实生活中人与物体存在丰富的交互关系,很难获取大量的标注数据,且标注成本高,导致现有数据集有效标注量少,影响交互关系建模性能。如何优美地引入多模态数据来提升交互关系检测的性能,成为目前研究的热点。
关系短语学习任务
正是基于这样的研究背景,我们首先提出了一种新颖的关系短语学习任务,该任务衍生自 HOI 任务,如 Figure1(b) 所示。该任务输入一张图像,输出用于描述图像中人和物体间交互关系的短语。我们将这些短语称为“关系短语”,他们的真值通过原始的 HOI 标注自动转换而成,如 Figure2 所示。HOI 三元组标签(human, sit_at, table)可转换为'human sit_at table'短语。
其中,每一个单词会被送入语言模型(如 word2vec[1])获得词向量。三个单词的词向量通过策略组合成短语向量,作为关系短语学习任务的学习目标。
推理时,以查表的形式,在预设的词组表中,获取预测短语的类别概率。实验证明,相比使用循环神经网络融合词向量,简单的向量拼接更有利于提高短语分支性能。
Figure 2 Illustration of two methods for phrase embedding generation.