深入理解非极大值抑制（NMS）算法

Lunar*

已于 2025-03-18 10:11:19 修改

阅读量736

点赞数 5

分类专栏：目标检测算法与优化文章标签：目标检测

于 2024-06-19 17:11:12 首次发布

本文链接：https://blog.youkuaiyun.com/qq_45141261/article/details/139805499

版权

算法与优化同时被 2 个专栏收录

15 篇文章

订阅专栏

目标检测

11 篇文章

订阅专栏

非极大值抑制（NMS）是一种在目标检测中常用的算法，用以减少多余的边界框，保留最佳的一个。本文将详细介绍NMS的工作原理，包括一个详细的Python实现，并通过常见问题解答（Q&A）来帮助更好地理解算法。

NMS算法的基本概念

在目标检测任务中，模型可能会在同一目标上预测多个相互重叠的边界框。NMS通过消除多余的边界框，只保留最有可能包含目标的那些边界框，从而提高检测的准确性。

NMS算法的核心步骤

NMS的实现可以分为以下几个核心步骤：

排序：根据置信度得分对所有边界框进行降序排序。
选择最高得分的边界框：选择得分最高的边界框，并将其加入到最终的保留列表中。
计算IOU：计算这个边界框与其他所有边界框的交并比。
抑制：移除那些与选定边界框IOU超过阈值的边界框。
重复：重复以上步骤，直到所有的边界框都被处理或抑制。

Python代码实现及解释

以下是NMS算法的Python实现，包括详细的注释来帮助理解每一个操作：

import numpy as np

def nms(boxes, scores, iou_threshold):
    """
    非极大值抑制（NMS）实现。
    
    参数:
    boxes (numpy.array): 边界框数组，格式为 [x1, y1, x2, y2]
    scores (numpy.array): 每个边界框对应的置信度得分
    iou_threshold (float): IOU阈值，用于决定是否抑制
    
    返回:
    list: 被选中的边界框的索引列表
    """
    # 计算每个边界框的面积
    x1 = boxes[:, 0]
    y1 = boxes[:, 1]
    x2 = boxes[:, 2]
    y2 = boxes[:, 3]
    areas = (x2 - x1 + 1) * (y2 - y1 + 1)
    
    # 按照置信度排序边界框的索引
    order = scores.argsort()[::-1]
    
    keep = []  # 最终保留的边界框索引列表
    while order.size > 0:
        i = order[0]  # 当前最高得分的边界框索引
        keep.append(i)
        
        # 计算当前边界框与其他所有边界框的交集面积
        xx1 = np.maximum(x1[i], x1[order[1:]])
        yy1 = np.maximum(y1[i], y1[order[1:]])
        xx2 = np.minimum(x2[i], x2[order[1:]])
        yy2 = np.minimum(y2[i], y2[order[1:]])
        w = np.maximum(0, xx2 - xx1 + 1)
        h = np.maximum(0, yy2 - yy1 + 1)
        inter = w * h
        
        # 计算IOU
        ovr = inter / (areas[i] + areas[order[1:]] - inter)
        
        # 保留IOU小于阈值的边界框
        inds = np.where(ovr <= iou_threshold)[0]
        order = order[inds + 1]
    
    return keep

常见问题解答

Q1: scores.argsort()[::-1] 是什么意思？
A1: 这个操作首先调用 argsort() 方法对置信度数组 scores 进行排序，返回的是数组元素从小到大的索引。通过添加 [::-1]，我们将这个索引数组反转，使其表示从大到小的顺序，这样就可以按照置信度从高到低处理边界框。

Q2: 如何理解代码中的 inds = np.where(ovr <= iou_threshold)[0]？
A2: np.where(ovr <= iou_threshold) 返回一个包含满足条件的元素索引的元组，由于这里只有一个条件，所以我们通过 [0] 取出这个元组的第一个元素，即满足条件的索引数组。

Q3: 如何理解代码中的 order = order[inds + 1]？
A3: 对 inds 中的每个索引加1是因为在计算 ovr 时，我们使用了 order[1:]，即除了最高得分边界框外的其他所有边界框。因此，inds 数组中的每个索引实际上都是相对于 order[1:] 而言的。通过对 inds 中的每个值加1，我们实际上是在将这些索引调整回原始的 order 数组的上下文中。通过 order[inds + 1] 选取 order 数组中对应的元素，更新 order 数组，以便在下一个迭代中只考虑那些与当前选中的边界框IOU小于等于阈值的边界框。这样做有效地移除了与当前最高得分边界框重叠较大的边界框，它们不再参与后续的处理。