论文阅读:Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition

本文深入探讨Zoom-Net模型在视觉关系识别中的应用,通过Appearance、Context-Appearance和Spatiality-Context-Appearance模块研究对象与关系特征的交互。论文提出Constractive RoI Pooling和Pyramid RoI Pooling技术,结合Intra-Hierarchical Tree结构,以增强特征融合和分类性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Zoom-Net(ECCV2018)

文章
  Paper展示了通过对local的object feature和global的predicate feature进行深层次的message passing和interaction是增强relationship recognization性能的一个有效途径。为了能够对object和predicate学习好的特征,paper研究了3种可解释的模型。
在这里插入图片描述
1)Appearance Module(b):
  关注每个RoI的自身依赖性,不使用message passing,独立地对object和predicate特征进行学习,而且无法获得空间和上下文的信息。
2)Context-Appearance Module(c):
  直接在subject,predicate,object三个分支中进行信息的传递,但是这些特征信息的组合并不考虑这些RoI在原图中的空间分布。
3)Spatiality-Context-Appearance Module(d):
  空间特征是指比如subject和object之间的相对尺寸和位置
接下来是paper提出的模型的细节:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值