一种通过短语学习和标签创作来提升人-物交互检测性能的方法

这篇论文提出了一种名为PhraseHOI的方法,它结合了人-物交互关系检测(HOI)与关系短语学习任务,以提升HOI的性能。关系短语学习任务通过将原始HOI标签转换为短语,利用语言模型进行向量表示,进而通过知识蒸馏将丰富的语义知识转移至HOI任务。同时,提出了标签创作模块来缓解数据稀缺和长尾分布问题。实验结果显示,PhraseHOI在HOI检测任务上取得了显著的性能提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2b2cb7559799b4d4861aa7aa2915ecbb.png

此篇论文已被AAAI 2022收录,论文链接请见“阅读原文

cd5844d809f0a83de4130d163b4b2b1f.png

Figure 1 (a) HOI  (b) Relational Phrase Learning  (c) PhraseHOI

人-物交互关系检测(human-object interaction detection, HOI detection)是以人为中心的高维场景感知任务,该任务旨在定位图像中产生特定动作行为的人,以及与其产生交互关系的物体,如 Figure1(a)所示,HOI 任务即检测出图像中存在交互行为的 person,horse 以及交互行为 ride、walk,以组成对应的交互行为三元组<person ride horse>,<person walk horse>。

传统目标检测任务缺乏对场景的理解,通常会检测出图像中存在的所有目标。相比传统目标检测任务,HOI 任务提供了更为细粒度的感知,对以人为中心的高维场景感知任务十分重要。

然而,由于现实生活中人与物体存在丰富的交互关系,很难获取大量的标注数据,且标注成本高,导致现有数据集有效标注量少,影响交互关系建模性能。如何优美地引入多模态数据来提升交互关系检测的性能,成为目前研究的热点。

关系短语学习任务

正是基于这样的研究背景,我们首先提出了一种新颖的关系短语学习任务,该任务衍生自 HOI 任务,如 Figure1(b) 所示。该任务输入一张图像,输出用于描述图像中人和物体间交互关系的短语。我们将这些短语称为“关系短语”,他们的真值通过原始的 HOI 标注自动转换而成,如 Figure2 所示。HOI 三元组标签(human, sit_at, table)可转换为'human sit_at table'短语。

其中,每一个单词会被送入语言模型(如 word2vec[1])获得词向量。三个单词的词向量通过策略组合成短语向量,作为关系短语学习任务的学习目标。

推理时,以查表的形式,在预设的词组表中,获取预测短语的类别概率。实验证明,相比使用循环神经网络融合词向量,简单的向量拼接更有利于提高短语分支性能。

c3181aa8103319b2adada367c976d9e8.png

Figure 2 Illustration of two methods for phrase embedding generation.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值