一行代码改进NMS

最新推荐文章于 2025-10-08 01:42:08 发布

原创最新推荐文章于 2025-10-08 01:42:08 发布 · 1.8w 阅读

57 ·

CC 4.0 BY-SA版权

文章标签：

#NMS #目标检测

人脸检测(目标检测) 专栏收录该内容

20 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

一篇讲通过改进NMS来提高检测效果的论文。

文章链接：《Improving Object Detection With One Line of Code》

Github链接： https://github.com/bharatsingh430/soft-nms

Motivation

绝大部分目标检测方法，最后都要用到 NMS-非极大值抑制进行后处理。通常的做法是将检测框按得分排序，然后保留得分最高的框，同时删除与该框重叠面积大于一定比例的其它框。

这种贪心式方法存在如下图所示的问题：红色框和绿色框是当前的检测结果，二者的得分分别是0.95和0.80。如果按照传统的NMS进行处理，首先选中得分最高的红色框，然后绿色框就会因为与之重叠面积过大而被删掉。

另一方面，NMS的阈值也不太容易确定，设小了会出现下图的情况（绿色框因为和红色框重叠面积较大而被删掉），设置过高又容易增大误检。

float

思路：不要粗鲁地删除所有IOU大于阈值的框，而是降低其置信度。

Method

先直接上伪代码，如下图：如文章题目而言，就是用一行代码来替换掉原来的NMS。按照下图整个处理一遍之后，指定一个置信度阈值，然后最后得分大于该阈值的检测框得以保留

float

原来的NMS可以描述如下：将IOU大于阈值的窗口的得分全部置为0。

float

文章的改进有两种形式，一种是线性加权的：

float

一种是高斯加权的：

float

分析上面的两种改进形式，思想都是：M为当前得分最高框，$b_i$ 为待处理框，$b_i$ 和M的IOU越大，$b_i$ 的得分$s_i$ 就下降的越厉害。

具体地，下面是作者给出的代码：(当然不止一行T_T)

def cpu_soft_nms(np.ndarray[float, ndim=2] boxes, float sigma=0.5, float Nt=0.3, float threshold=0.001, unsigned int method=0):
    cdef unsigned int N = boxes.shape[0]
    cdef float iw, ih, box_area
    cdef float ua
    cdef int pos = 0
    cdef float maxscore = 0
    cdef int maxpos = 0
    cdef float x1,x2,y1,y2,tx1,tx2,ty1,ty2,ts,area,weight,ov

    for i in range(N):
        maxscore = boxes[i, 4]
        maxpos = i

        tx1 = boxes[i,0]
        ty1 = boxes[i,1]
        tx2 = boxes[i,2]
        ty2 = boxes[i,3]
        ts = boxes[i,4]

        pos = i + 1
    # get max box
        while pos < N:
            if maxscore < boxes[pos, 4]:
                maxscore = boxes[pos, 4]
                maxpos = pos
            pos = pos + 1

    # add max box as a detection 
        boxes[i,0] = boxes[maxpos,0]
        boxes[i,1] = boxes[maxpos,1]
        boxes[i,2] = boxes[maxpos,2]
        boxes[i,3] = boxes[maxpos,3]
        boxes[i,4] = boxes[maxpos,4]

    # swap ith box with position of max box
        boxes[maxpos,0] = tx1
        boxes[maxpos,1] = ty1
        boxes[maxpos,2] = tx2
        boxes[maxpos,3] = ty2
        boxes[maxpos,4] = ts

        tx1 = boxes[i,0]
        ty1 = boxes[i,1]
        tx2 = boxes[i,2]
        ty2 = boxes[i,3]
        ts = boxes[i,4]

        pos = i + 1
    # NMS iterations, note that N changes if detection boxes fall below threshold
        while pos < N:
            x1 = boxes[pos, 0]
            y1 = boxes[pos, 1]
            x2 = boxes[pos, 2]
            y2 = boxes[pos, 3]
            s = boxes[pos, 4]

            area = (x2 - x1 + 1) * (y2 - y1 + 1)
            iw = (min(tx2, x2) - max(tx1, x1) + 1)
            if iw > 0:
                ih = (min(ty2, y2) - max(ty1, y1) + 1)
                if ih > 0:
                    ua = float((tx2 - tx1 + 1) * (ty2 - ty1 + 1) + area - iw * ih)
                    ov = iw * ih / ua #iou between max box and detection box

                    if method == 1: # linear
                        if ov > Nt: 
                            weight = 1 - ov
                        else:
                            weight = 1
                    elif method == 2: # gaussian
                        weight = np.exp(-(ov * ov)/sigma)
                    else: # original NMS
                        if ov > Nt: 
                            weight = 0
                        else:
                            weight = 1

                    boxes[pos, 4] = weight*boxes[pos, 4]

            # if box score falls below threshold, discard the box by swapping with last box
            # update N
                    if boxes[pos, 4] < threshold:
                        boxes[pos,0] = boxes[N-1, 0]
                        boxes[pos,1] = boxes[N-1, 1]
                        boxes[pos,2] = boxes[N-1, 2]
                        boxes[pos,3] = boxes[N-1, 3]
                        boxes[pos,4] = boxes[N-1, 4]
                        N = N - 1
                        pos = pos - 1

            pos = pos + 1

    keep = [i for i in range(N)]
    return keep

Experiments

下图可以看出，基本可以获得平均1%的提升，且不增加额外的训练和计算负担。

float

高斯方差以及NMS的IOU阈值的敏感性测试：

float

您可能感兴趣的与本文相关的镜像

Yolo-v8.3

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

8 条评论

qq_34331228 2019.05.18
天下文章一大抄，我想问下，softnms的迭代条件是什么？B是空是吧，nms有个B=B-bi，但是softnms没有，这个怎么解释？
- 菊子12138回复qq_34331228 2019.10.15
  [reply]qq_34331228[/reply] B不是空好吧？B是所有框的初始集合，D刚开始才是空

Cplusplusrookie 2018.08.28
博主，您好，这soft-nms会不会使得一些目标的bounding box 不是最优解呢？比如说假设对于绿色框里的那匹马，还有一个检测框也是检测除了这匹马，但是它比绿色框在水平线上会偏左一点，那么这个框跟红色那个框的IOU就小一点。我们计算的时候肯定会先计算红色的框嘛，然后它会缩小它周围框的分数，因为偏左一点的框和红色框的IOU比较小，虽然它分数会比绿色的框小一点，但是更新之后，它的分数就比绿色框大了，这样有没有可能说最后检测结果留下的是偏左一点的框，而不是绿色框
- 蔷薇-_-回复Cplusplusrookie 2018.12.19
  [reply]Cplusplusrookie[/reply] 你好，我在看soft-nms，也在思考这个问题。请问你找到答案了吗？

lalianhaizai 2017.12.22
您好：论文中很多地方提到这个precision localization / Localization Performance，这个有没有一个衡量的标准。自己感觉论文中是通过设置不同的overlap thresholds，然后测试对应的AP值来衡量的。

milizhizhuyfgh 2017.11.07
按照soft-nms来看，核心就是降低置信度，比如在一张人脸上的3个重叠的bounding box, 置信度分别为0.9,0.7,0.85 第一次处理过后，分别是0.9, 065, 0.55这时候再选择第二个bounding box作为得分最高的，处理后置信度分别为0.65, 0.45这时候3个框也都还在，置信度分别为0.9, 0.65, 0.45，这时候其实还是使用了一个阈值来筛选最后的框。 nms和soft-nms的核心区别应该是: nms对于迭代-遍历-消除中以iou和阈值的结果作为消除依据，而soft-nms上两阶段的操作，我先以iou和阈值的结果作为降低confidence的依据，最后再用confidence作为消除依据
- 忧郁的常凯申回复milizhizhuyfgh 2019.10.02
  [reply]milizhizhuyfgh[/reply] 我觉得也是这样
- weixin_40624345回复milizhizhuyfgh 2018.06.13
  [reply]milizhizhuyfgh[/reply] 请问你跑通了啊？

西红柿爱吃小番茄 2017.11.07
好文章，谢谢博主

qq_39871205 2017.08.16
博主你好我最近在弄这个代码，我是乌班图系统，使用GPU，请问博主跑成功了么，就是gpu _nms.pyx用不用进行改动，谢谢！
- weixin_40624345回复qq_39871205 2018.06.13
  [reply]qq_39871205[/reply] 请问你跑通了吗？
- shuzfan回复qq_39871205 2017.08.17
  [reply]qq_39871205[/reply] 我没在RCNN里面试过，我是人脸检测在C++上直接实现测试的
- qq_39871205回复shuzfan 2017.08.17
  [reply]shuzfan[/reply] 哦哦好的。我现在再弄cpu版本的，我是直接向在faster rcnn中进行替换，将cpu-nms.py和nms-warpper.py替换成了softnms中的相应文件。并且重新编译，改在使用CPU，可是一直出错。我想就直接用作者的程序，然后我看没有data文件，是可以直接将faster rcnn中的复制过去么？然后作者只给出了RFCN的执行代码./tools/test_net.py --gpu ${GPU_ID} \......请问能不能把faster rcnn的执行代码复制给我？然后还有哪里需要添加或者注意的么？非常感谢！
- shuzfan回复qq_39871205 2017.08.16
  [reply]qq_39871205[/reply] 抱歉，我只在CPU上用过