【论文阅读】Fitness NMS

最新推荐文章于 2025-06-16 17:25:33 发布

Lukas88664

最新推荐文章于 2025-06-16 17:25:33 发布

阅读量634

点赞数 1

CC 4.0 BY-SA版权

分类专栏：论文阅读文章标签：深度学习计算机视觉算法

本文链接：https://blog.youkuaiyun.com/hgj1h/article/details/123054297

论文阅读专栏收录该内容

37 篇文章

订阅专栏

本文探讨了如何通过FitnessNMS和BoundedIoULoss优化对象检测，指出训练和测试阶段IoU阈值一致的重要性。作者提出新的score函数和匹配策略，增强了对高IoU框的重视。实验表明，这种方法能提高召回率，并且与SoftNMS兼容。此外，改进的BoundingBoxRegression也提升了ROI准确性和召回率。论文的贡献在于增强分类器对负样本的敏感度以及优化高IoU重叠框的处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文题目：《Improving Object Localization with Fitness NMS and Bounded IoU Loss》
发现这篇文章网络上资源较少，来写一下自己看完这篇文章的一些想法，可能不成熟，欢迎指正。谢谢！
本文对于NMS进行了改进，提出了一个叫Fitness NMS的模块，在DeNet基础上进行的改进。
文章介绍了一下nms，这里也简单写一下：
在这里插入图片描述
这里score（.）函数用来评价选择bbox的置信度，而same（.）用来检测两个框的iou值。因此算法的核心思想就是：对于Bounding Box的列表B及其对应的置信度S,采用下面的计算方式.选择具有最大score的检测框M,将其从B集合中移除并加入到最终的检测结果D中.通常将B中剩余检测框中与M的IoU大于阈值Nt的框从B中移除.重复这个过程,直到B为空.

本文就是对于上述的score及same函数进行了修改来得到一个新的nms。
在这里插入图片描述

作者先做实验对比了train和test采用不同iou阈值时的map表现结果：
在这里插入图片描述

结果可以看到只有当训练和测试选择iou阈值一致时输出的结果才比较好，而且0.5表现出来的map最高，这便引出了本文想要解决的问题：并不是要选择所有超过该阈值的所有bbox，而是要选择最高的一个。

Detection Clustering

在这里插入图片描述
实验发现，提升matching iou 不使用nms和使用的两种情况下的召回值gap越来越大。这说明在roi预测阶段预测出来的一些对正样本在nms阶段被舍弃掉。单纯的使用nms是次优的选择，因为DeNet在训练中使用单一的matching iou值，使得它对于与GT不同iou值的bbox一视同仁（0.5,0.9），而这并不是一个最优的discriminator。

Fitness NMS

作者首先提出了一个新的公式，对于score函数进行了增强：在这里插入图片描述
加上的E函数指的是你的bbox和GT重叠iou的期望值。作者加上E的实际目的就是为了对于与GT IOU值打的bbox对他进行score值放大。
原文给出了f的计算公式：

及E的计算公式：

其中，λn指的是最小iou覆盖。那么如何求得公式中的Pr（fj）呢，这里作者给出了两种方法：
Independent Fitness
认为Pr（fj）与类别无关。将DeNet的预测层替换为预测Pr，这时我们便可以得到C+F+2个输出。

Joint Fitness
在这里插入图片描述
输出CF+1个量。

后面的ablation实验证明了上述方法的有效性：
在这里插入图片描述

这块有些不太理解：对于某个bbox，他与GT的fj不是一个定值吗，那后面的求和操作是怎么来的呢？还是通过网络输出的不同的fj对应的值是对于某个bbox iou的一个估计值？？这里感觉需要看源代码。

在这里插入图片描述
最后作者还加了一个与soft nms适配性的实验，发现是可以双向并行的。

Bounding Box Regression
由于DeNet的角点采样提升了roi采样的准确性，许多人认为这部分的改进没有必要，作者这里则也进行实验给出了其必要性：

作者认为改进bbox regression 算法确实不是首要的但是它与前面nms算法的改进相适配，会大幅提升recall。
新提出的算法则是为了最大化roi与GT的iou并可以提供一个良好的梯度下降值。

上述公式为新提出的iou计算公式。

作者认为maximum IOU，应该设计一个更大的cost函数。同时作者给出了一个近似的函数：

烧烛实验如上所示。。
后面作者还对于在bbox层面还是在conner distribution 层面进行nms操作得到的结果进行了一定的对比。

最后的结果以上。