论文阅读：Detecting and Recognizing Human-Object Interactions_论文笔记detecting and recognizing human-object interac-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_37014750/article/details/82469569

InteractNet是一种用于人类-物体交互检测的模型，采用RPN获取proposal，通过RoIAlign提取特征。模型包含object detection和human-centric分支，前者进行box regression和分类，后者评估动作及定位目标物体。此外，利用object特征计算动作得分，与human-centric得分结合，通过Cascaded Inference降低计算复杂度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

InteractNet（CVPR2018）

文章链接

V-COCO ：40.0%

首先用RPN得到proposal，然后用RoIAlign提取每个proposal的特征。接下来：
- object detection分支，进行box regression和classification；
- human-centric分支，判断box内人的动作，每个动作给一个score，并且尝试定位target物体的位置，我想应该是每个动作都有一个target位置，给出一个可能在的位置的高斯分布，感觉和LiFeifei她们那篇referring relationship的论文有点像，这样做有一个很强的假设：box内的特征表明了动作的受体的位置；
- 利用object的特征，也计算得到关于动作的score，然后将其和第二步得到的分数相加并过sigmoid。

上式代表对于某对human-object是关系a的分数，前两项分别是human和object的类别分数，第三项是human-centric branch或者interaction branch产生的动作分数，第四项是由h和a推断的target的位置和o的位置的近似程度，值越大越好，我感觉是判断是否有关系的一种手段，另一种手段是直接用h和o的特征进行计算。 Cascaded Inference:由于这种从单个h或者o得到a的计算方式，计算复杂度只有O(n)，许多别的方法是两两concat计算，计算复杂度是O(n^2)。即便选择进行interaction branch，虽然时间复杂度也是O(n^2)，但由于是简单的加法，所以计算时间依然非常地少！