Zoom-Net(ECCV2018)
文章
Paper展示了通过对local的object feature和global的predicate feature进行深层次的message passing和interaction是增强relationship recognization性能的一个有效途径。为了能够对object和predicate学习好的特征,paper研究了3种可解释的模型。
1)Appearance Module(b):
关注每个RoI的自身依赖性,不使用message passing,独立地对object和predicate特征进行学习,而且无法获得空间和上下文的信息。
2)Context-Appearance Module(c):
直接在subject,predicate,object三个分支中进行信息的传递,但是这些特征信息的组合并不考虑这些RoI在原图中的空间分布。
3)Spatiality-Context-Appearance Module(d):
空间特征是指比如subject和object之间的相对尺寸和位置
接下来是paper提出的模型的细节: