Zoom-Net(ECCV2018)
文章
Paper展示了通过对local的object feature和global的predicate feature进行深层次的message passing和interaction是增强relationship recognization性能的一个有效途径。为了能够对object和predicate学习好的特征,paper研究了3种可解释的模型。

1)Appearance Module(b):
关注每个RoI的自身依赖性,不使用message passing,独立地对object和predicate特征进行学习,而且无法获得空间和上下文的信息。
2)Context-Appearance Module(c):
直接在subject,predicate,object三个分支中进行信息的传递,但是这些特征信息的组合并不考虑这些RoI在原图中的空间分布。
3)Spatiality-Context-Appearance Module(d):
空间特征是指比如subject和object之间的相对尺寸和位置
接下来是paper提出的模型的细节:

1)Constractive RoI Pooling:
代表了一个<RoI, deRoI>的操作,首先对object进行RoI pooling得到归一化的局部特征,然后将这些特征进行deRoI pooling到predicate的box内,然后在该特征周围

本文深入探讨Zoom-Net模型在视觉关系识别中的应用,通过Appearance、Context-Appearance和Spatiality-Context-Appearance模块研究对象与关系特征的交互。论文提出Constractive RoI Pooling和Pyramid RoI Pooling技术,结合Intra-Hierarchical Tree结构,以增强特征融合和分类性能。
最低0.47元/天 解锁文章
3492

被折叠的 条评论
为什么被折叠?



