FactorizableNet(ECCV2018)
文章
Paper认为目前有两种生成scene graph的方法,一种是two-stage的,先把object检测到(包括类别),然后再recognize他们之间的关系,另一种是基于region proposal对object的类别和他们之间的relation进行联合推理。两种方法的共同之处是都会用到object pair的union box的特征作为phrase feature,这个特征包括cnn特征和spatial特征,后者往往由mask体现。一个很常见的事实是,很多object pair的union box非常接近,因此他们的cnn feature也就是很接近的,于是一个自然的想法是让具有相似region(union box)的object pair共享cnn特征。
- 首先通过RPN得到region proposal
- 构建了fully-connected graph,可以看到图中这几个object pair的union box很接近,因此将它们cluster成了一个subgraph
- 将fully-connected graph转换成了基于subgraph的graph,红色圆形代表object box,绿