论文阅读:Detecting and Recognizing Human-Object Interactions

InteractNet是一种用于人类-物体交互检测的模型,采用RPN获取proposal,通过RoIAlign提取特征。模型包含object detection和human-centric分支,前者进行box regression和分类,后者评估动作及定位目标物体。此外,利用object特征计算动作得分,与human-centric得分结合,通过Cascaded Inference降低计算复杂度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

InteractNet(CVPR2018)

文章链接

V-COCO :40.0%


InteractNet

首先用RPN得到proposal,然后用RoIAlign提取每个proposal的特征。接下来:
- object detection分支,进行box regression和classification;
- human-centric分支,判断box内人的动作,每个动作给一个score,并且尝试定位target物体的位置,我想应该是每个动作都有一个target位置,给出一个可能在的位置的高斯分布,感觉和LiFeifei她们那篇referring relationship的论文有点像,这样做有一个很强的假设:box内的特征表明了动作的受体的位置;
- 利用object的特征,也计算得到关于动作的score,然后将其和第二步得到的分数相加并过sigmoid。

这里写图片描述

上式代表对于某对human-object是关系a的分数,前两项分别是human和object的类别分数,第三项是human-centric branch或者interaction branch产生的动作分数,第四项是由h和a推断的target的位置和o的位置的近似程度,值越大越好,我感觉是判断是否有关系的一种手段,另一种手段是直接用h和o的特征进行计算。 Cascaded Inference:由于这种从单个h或者o得到a的计算方式,计算复杂度只有O(n),许多别的方法是两两concat计算,计算复杂度是O(n^2)。即便选择进行interaction branch,虽然时间复杂度也是O(n^2),但由于是简单的加法,所以计算时间依然非常地少!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值