论文阅读：Interact as You Intend: Intention-Driven Human-Object Interaction Detection

最新推荐文章于 2024-02-16 15:46:52 发布

Kivee123

最新推荐文章于 2024-02-16 15:46:52 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

文章标签： scene understand

本文链接：https://blog.youkuaiyun.com/qq_37014750/article/details/82989798

本文聚焦于检测社交场景图像中的人-物交互（HOIs），提出了一种结合人类意图的HOI检测架构。该架构利用人体部位与物体的相对距离建模姿态，并通过弱监督学习利用人的目光注意力选择。主要包含特征提取和意图驱动的交互预测两部分，特征提取包括姿态网络、目光网络和目标检测。目光驱动的上下文感知分支利用目光预测网络获取注视区域信息，以辅助交互识别。此外，针对误配对问题，文章提出将不存在关系的human-object pair标记为负样本进行训练。尽管存在一些争议，但该方法提供了一种新颖的视角来理解HOI检测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

iHOI（submitted to IEEE Trans. on Multimedia）

文章
本文focus在检测social scene images上的human-object interactions（HOIs）。本文的一个出发点是human在与object进行interaction的时候，会根据他们的intention调整注意力和移动身体，因此本文的就在HOI检测中加入了human intention。本文提出的human intention-driven HOI detection架构通过人的身体部件与object的相对距离来建模人的pose，同时用弱监督的方式使用人的gaze（凝视、视线）来知道注意力区域的选择。
iHOI的架构最主要的部分有两个：feature extraction和intention-driven interaction prediction。feature extraction又包括了pose network、gaze network和object detection，前两者都是从其它数据集上迁移学习过来的参数。
在这里插入图片描述
Human-object pairwise branch:输入一个human box和object box，希望输出一个能保留它们语义关系的feature embedding。和VTransE相同，输入的human和object的特征

最低0.47元/天解锁文章

200万优质内容无限畅学