ICCV 2019 | (PMFNet)Pose-aware Multi-level Feature Network for Human ObjectInteraction Detection阅读笔记

目前人物交互在视觉上面临一个独特挑战,主要由于人物之间的差异性,多个共同的关系实例,关系种类之间微妙的视觉差异.为此本文提出了一个多级关系检测策略,利用人体的姿势线索来捕获关系的全局空间结构并将其作为注意力机制,在人的部位水平上动态地放大相关区域,本文提出了一个多分支网络在三个语义层面(交互上下文,目标特征,详细的语义部位线索)来学习姿势增强关系表示.

论文地址:https://arxiv.org/pdf/1909.08453.pdf

代码地址:https://github.com/bobwan1995/PMFNet

介绍

本文提出一个多级关系推理策略,核心思想是利用估计的人体姿势来捕获联系的全局空间结构,并指导在语义部位级提取不同HOI的局部特征,这种增强表示将交互上下文,人/物特征与详细的语义部位线索融入到关系推理中,能够产生可解释的具有稳健性与细粒度的预测结果,最后对每个人物建议框在三个不同的语义级别上进行关系推理:(1) 交互 (2) 视觉目标 (3) 人的部位
在这里插入图片描述在建议框的交互级别上,采用人/物实例的联合区域,对相关建议框的上下文进行编码,并产生人-物对相关的分数,这个分数表示该人物对之间存在视觉关系的可能性,并帮助我们消除背景建议框.

  • 在视觉目标级别上,采用一个通过姿势增强的目标级表示来编码人物的外观以及相关的位置.
  • 在部位级别上,采用估计的人的姿势来描述人-物对详细的空间的外观线索.利用部位之间的相关性和关系产生部位级的注意力,使我们更加关注对每种联系有用的子区域.还会计算与物体相关的部位位置来编码更加精细的空间关系.
    最后将这三个级别的线索整合起来预测人-物建议框的种类.

我们开发了一个多分支神经网络能够整合多级关系推理,主要由4个模块组成,主干模块,整体模块,放大模块,融合模块组成,

  • 主干模块:计算卷积特征图,产生人-物建议框和空间结构
  • 整体模块:整合人,物,和他们的联合特征,并对人的姿势与目标位置进行编码
  • 放大模块:提取人的部位和物体特征,并从姿势分布产生部位级的注意力力来增强相关的部位线索
  • 融合模块:结合整体和部位级的特征表示产生最终用于HOI分类的分数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值