一种通过短语学习和标签创作来提升人-物交互检测性能的方法

旷视

于 2022-03-04 15:17:16 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

文章标签：网络大数据自然语言处理计算机视觉神经网络

本文链接：https://blog.youkuaiyun.com/Megvii_tech/article/details/123288183

这篇论文提出了一种名为PhraseHOI的方法，它结合了人-物交互关系检测（HOI）与关系短语学习任务，以提升HOI的性能。关系短语学习任务通过将原始HOI标签转换为短语，利用语言模型进行向量表示，进而通过知识蒸馏将丰富的语义知识转移至HOI任务。同时，提出了标签创作模块来缓解数据稀缺和长尾分布问题。实验结果显示，PhraseHOI在HOI检测任务上取得了显著的性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

此篇论文已被AAAI 2022收录，论文链接请见“阅读原文”。

Figure 1 (a) HOI (b) Relational Phrase Learning (c) PhraseHOI

人-物交互关系检测（human-object interaction detection， HOI detection）是以人为中心的高维场景感知任务，该任务旨在定位图像中产生特定动作行为的人，以及与其产生交互关系的物体，如 Figure1(a)所示，HOI 任务即检测出图像中存在交互行为的 person，horse 以及交互行为 ride、walk，以组成对应的交互行为三元组<person ride horse>，<person walk horse>。

传统目标检测任务缺乏对场景的理解，通常会检测出图像中存在的所有目标。相比传统目标检测任务，HOI 任务提供了更为细粒度的感知，对以人为中心的高维场景感知任务十分重要。

然而，由于现实生活中人与物体存在丰富的交互关系，很难获取大量的标注数据，且标注成本高，导致现有数据集有效标注量少，影响交互关系建模性能。如何优美地引入多模态数据来提升交互关系检测的性能，成为目前研究的热点。

关系短语学习任务

正是基于这样的研究背景，我们首先提出了一种新颖的关系短语学习任务，该任务衍生自 HOI 任务，如 Figure1(b) 所示。该任务输入一张图像，输出用于描述图像中人和物体间交互关系的短语。我们将这些短语称为“关系短语”，他们的真值通过原始的 HOI 标注自动转换而成，如 Figure2 所示。HOI 三元组标签(human, sit_at, table)可转换为'human sit_at table'短语。

其中，每一个单词会被送入语言模型（如 word2vec[1]）获得词向量。三个单词的词向量通过策略组合成短语向量，作为关系短语学习任务的学习目标。

推理时，以查表的形式，在预设的词组表中，获取预测短语的类别概率。实验证明，相比使用循环神经网络融合词向量，简单的向量拼接更有利于提高短语分支性能。