来源:论文,code,MSRA & PKU,2018 CVPR
知乎笔记
主要贡献:
- 提出了一种relation module,可以将常见的物体特征融合进物体之间的关联性信息,同时不改变特征维数,因此可以很方便加入已有的网络框架
- 提出了一种代替NMS的去重模块设计,避免NMS需要手动设置参数的问题,真正实现模型的end-to-end训练
论文阅读
Introduction
NMS模块被设计用来消除重复的检测结果,作者认为这样的一个后处理步骤是heuristic and hand crafted。一直以来人们都认为图片的上下文信息或者物体之间的关系能够帮助检测,但深度学习方法中还没有关注到物体之间的关系。
object relation module 本文受到NLP领域的attention模型的启发,注意力模块可以通过元素集合影响单独元素的表现,这样就能得到一个聚合的表征【提到了图像加标题的工作】。对比object和sentence的attention设置,可以看做是维度上的变化(2D/1D),因此由两部分组成:the original weight和new geometric weight,后者对物体的空间关系建模,只关注几何相对关系,因此具有平移不变性。完全可微而且in-place
Related Works
- Object realtion in post-processing:此前考虑到物体之间关系的工作基本是使用物体的关系重新打分,作为一个后处理过程出现,而且在深度卷积网络中很少使用
- Sequential relation modeling:有一些工作考虑将序列推理(LSTM/SMN)用到物体检测领域,前一个检测到的物体来帮助后面的物体检测。然而本文的工作是多物体并行化的
- Human Centered Scenarios:很多工作尝试通过对人的动作进行标注,来使用human-object的关系进行建模,而本文只是从object-object的角度进行,不需要特别标注
- Duplicate Removal:比GossipNet更为简单地去重模块设计,结果超过了SoftNMS,实现了模型end-to-end
Object Relation Module
【设计了一种in-place的加权方式,实际上将不同物体之间的关系表示为类似注意力的权重加到特征向量中,同时保持特征向量的维度不发生变化】
从Scaled Dot-Product Attention开始,输入为quires( q \mathbf{q} q), keys( K K K, dimension d k d_{k} dk), values( V V V, dimmension d v d_{v} dv),通过计算得到query和key的相似程度:
(1) v o u t = s o f t m a x ( q K t d k ) V v^{out}=softmax(\frac{\mathbf{q}K^t}{\sqrt{d_{k}}})V\tag{1} vout=softmax(dkqKt)V(1)
接下来描述物体之间关系的计算。一个物体包括几何特征 f G \mathbf{f}_{G} fG和表现特征 f A \mathbf{f}_{A} fA,本文中 f G \mathbf{f}_{G} fG使用4维bounding box, f A \mathbf{f}_{A} fA则通过task决定。这样,得到 N N N个物体的集合 { ( f G n , f A n ) } n = 1 N \{(\mathbf{f}_{G}^{n},f_{A}^{n})\}_{n=1}^{N} { (fGn,fAn)}n=1N