Zoom-Net(ECCV2018)
文章
Paper展示了通过对local的object feature和global的predicate feature进行深层次的message passing和interaction是增强relationship recognization性能的一个有效途径。为了能够对object和predicate学习好的特征,paper研究了3种可解释的模型。
1)Appearance Module(b):
关注每个RoI的自身依赖性,不使用message passing,独立地对object和predicate特征进行学习,而且无法获得空间和上下文的信息。
2)Context-Appearance Module(c):
直接在subject,predicate,object三个分支中进行信息的传递,但是这些特征信息的组合并不考虑这些RoI在原图中的空间分布。
3)Spatiality-Context-Appearance Module(d):
空间特征是指比如subject和object之间的相对尺寸和位置
接下来是paper提出的模型的细节:
1)Constractive RoI Pooling:
代表了一个<RoI, deRoI>的操作,首先对object进行RoI pooling得到归一化的局部特征,然后将这些特征进行deRoI pooling到predicate的box内,然后在该特征周围