Neural-Motifs(CVPR2018)
文章链接
官方github
Paper给motif的定义是:regularly appearing substructures in scene graph。
换句话说,subject和object的label对它们的relation影响很大,和DR-net差不多的想法,不过用了更复杂的网络来实现。基于motif的想法,paper提出了一个新的strong的baseline,直接用统计的relation关于物体label的条件频率进行预测,竟然state-of-art结果高,而再加上只有overlap的物体间才有关系时,结果更高了,而paper提出的方法,在这个strong baseline上只提高了1%左右,非常少。
Paper使用了基于vgg-16的faster R-CNN但是在visual genome数据集上finetune了detector。训练motif-net时,最开始使用object的ground truth训练,还采样了一些negtive relation,应该就是none relation吧,得到的网络用来进行predicate classification很好,但是和detector一起工作效果就很差了,于是paper又将detector和motif-net连接到一起,end-to-end的训练,当然了,固定了detector的参数,只是为了让motif-net对detector产生的noisy的结果更adaptive。 Paper发现,在vg数据集里,几乎所有relation都是发生在有overlap的bbox间,因此paper直接将无overlap间的bbox的relat
深度学习场景理解:Neural Motifs与全局上下文解析

Neural Motifs是CVPR2018提出的一种利用全局上下文进行场景图解析的方法。通过对场景中经常出现的子结构(motif)进行建模,该论文创建了一个强大的基线,它依赖于物体标签的条件频率来预测关系。在考虑物体重叠的限制后,结果进一步提升。尽管Neural Motifs在基线上的改进有限,但它揭示了在视觉图分析中考虑全局信息的重要性。实验表明,该模型在有交叠的边界框之间关系预测上表现出色,但可能不适合处理无交叠关系,如涉及动作和交互的场景。
最低0.47元/天 解锁文章
587

被折叠的 条评论
为什么被折叠?



