但对于transformer用于目标检测领域的开创性模型,该模型言简意赅,但是但从论文理解,有很多细节都不清楚,尤其是解码器的query和二分图匹配(Bipartite Matching)和匈牙利算法(Hungarian Algorithm)相关,本文将根据代码详细介绍这一部分
原理
大家最常见的就是上面两幅图,这也是deter模型的整体架构,原理大家可以参考网络其他问题,有很多,我这里就不细讲了, 但是我会突出讲解,整个过程到底是什么样。
解码器的query
- Detection Transformer检测器是queries set(查询集合)到目标对象(object)的映射
- queries分为内容查询query和一一对应位置查询query_pos,每组queries对应一个预测结果(类别和框的位置)
- queries set的数量通常为100、300或900,远远少于之前密集预测(dense prediction)的工作
- queries set与经过Backbone、Neck和Encoder提