HOI - Detecting and Recognizing Human-Object Interactions

本文链接：https://blog.youkuaiyun.com/irving512/article/details/117704254

该博文介绍了如何扩展FastR-CNN来预测人物交互中的<human,verb,object>三元组。通过多任务训练，包括目标检测、行为预测和交互物体定位，模型能有效识别人与物体的交互。核心创新在于目标定位模块，使用高斯分布预测相对位置，提升HOI检测性能。实验结果显示，这种方法在人物交互检测中表现出色，且被后续研究广泛引用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

0. 前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息
- 领域：HOI
- 作者单位：FAIR
- 发表时间：CVPR 2018
- 一句话总结：扩展 Fast R-CNN，使用多任务训练实现HOI中 human/verb/object 三元组预测

1. 要解决什么问题

之前的主要工作都集中在单个人/物体的识别上，然而在现实世界中，人与物体之间是存在相互关系的。

2. 用了什么方法

人物交互可以抽象为形如 <human, verb, object> 的三元组。
下图中的 a/b/c 就是本文模型的基本思路
- a图：实现基本的目标检测
- b图：根据前一步目标检测结果（主要就是人），预测可能交互的物体位置，并预测动作（图中没有展示）
- c图：根据a图中物品目标检测结果，以及b图中可能的位置，构建 <human, verb, object> 三元组

实现了基于 Fast-RCNN 架构的人物交互模型
- 总目标就是预测 <human ,verb, object> 三元组
- 第一步，实现目标检测，即 object detection 分支。
  - 下图中的 (a)，绿色分支。
  - 注意，后面几个 $b_h, b_o$ 其实都是绿色分支的预测结果，分别代表人roi和物体roi。
- 第二步，实现行为以及交互物体位置预测，即 human-centric 分支
  - 下图中的 (b)
  - 行为预测：这部分没啥好说的，就是一个分类网络（若干FC）。需要注意的是，由于人可能同时存在多个动作（比如坐+喝水），所以这一部分最后使用 sigmoid 并通过目标分类的方法进行训练。
  - 目标位置预测（Target Localization）：根据任务的外观信息（即ROI Pooling结果），预测交互物体的位置。直接预测准确位置比较困难，所以本模型预测的是 density over possible locations，后面单独介绍。
  - 注意，通过 (a) 和 (b) 就已经可以预测 h/v/o 三元组了。
  - 交互分支（Interaction branch）：可选项。如果没有这个分支，那么actionx信息就是纯靠 human appearance 预测的。但从直觉上看，human-object相互作用才能得到action信息，所以添加了这个分支作为验证。

Target Localization
- 本论文的核心，性能提升很大程度上依赖于这一部分。
- 从上图中可以看到，target localization属于 (b) human-centric branch，预测结果是 $\mu_h^a$ ，也就是说，对于每个人、每个不同的动作都有不同的预测结果。
- $\mu_h^a$ 是一个思维向量，表示交互物体与当前人的相对位置（相对位置更好计算损失函数，就类似于检测预测的bbox是相对位置而不是绝对像素位置）。
- 通过 $\mu_h^a$ 获取的位置是一个高斯分布，即
- 其中 $b_{o|h}$ 是物体与人之间的相对位置gt，计算公式就是
- 目标函数就是 $b_{o|h}$ 与 $\mu_h^a$ 之间的L1 Loss，公式中的 $\sigma$ 是超参数
模型整体目标函数
- 每个 <human, verb, object> 三元组的得分就是下图中的 $S_{h,o}^a$
- 指的一提的是， $S_{h,o}^a$ 这个符号就已经表明，human/object/action 都已经指定了。
- 三元组得分由四部分组成
- $s_h, s_o$ 就是当前人和当前物体的分类得分，即object detection branch的预测结果。
- $s_h^a$ 就是当前人的当前行为得分，即human-centric branch中的action部分
- $g_{h,o}^a$ 就是位置信息

训练：就是各个branch的loss叠加
inference
- 目标：寻找 $S_{h,0}^a$ 最大的 <human, verb, object> 组合
- 朴素算法：寻找每一对 human/object pair
- 提出 cascade 方法：先获取 human/action pair（时间复杂度 O(n)），再寻找令每一个 human/action pair 的 $S_{h,o}^a$ 最大的的物体。
  - 虽然最后一步一般是 O(n^2) 的时间复杂度，但实际使用中一般会节约大量时间。

3. 效果如何

HOI 性能指标解析
- 针对 <human, verb, object> 三元组，定义了 $AP_{role}$
- TP 的定义是：
  - 人物的预测bbox与gtbbox之间IOU大于0.5
  - 物体的预测bbox与gtbbox之间IOU大于0.5
  - 相互之间的行为类型匹配
从预测结果中可以看到，target localization 起到了决定性的作用