【概念梳理】NMS 非极大值抑制

本文深入解析了非极大值抑制(NMS)算法在物体检测领域的应用,通过实例演示了NMS如何从多个候选框中筛选出最优边界框,避免重复检测,提升目标检测精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写在最前

本文对网上关于 NMS 的解释整理了一下

一、原理

YOLO在最后的一个步骤就是对 SxSx(Bx5+C) 个向量进行非极大值抑制(Non-max suppression),一开始不是太明白非极大值抑制是如何操作的,也就是不太清楚YOLO最后做完卷积后如何对求得向量进行预测,求得目标框位置。

对YOLO代码分析完之后对其他步骤操作有了一个大致的认识之后,回顾最后一步非极大值抑制,发现非极大值抑制在R-CNN、Fast-RCNN都有用到的同样的概念,因此YOLO的论文并没有提到如何进行非极大值抑制。

其实在物体检测领域当中,非极大值抑制应用十分广泛,目的是为了消除多余的框,找到最佳的物体检测的位置。那么具体如何操作呢?如下图所示,有三个boundingbox,其中第一个绿色boundingbox的置信度是0.7,第二个绿色boundingbox的置信度是0.6,第三个绿色boundingbox的置信度是0.7。非极大值抑制就是在这三个框当中选出置信度最高,且最有可能代表是目标的boundingbox。
在这里插入图片描述
为了研究透NMS到底是如何操作的,我来随机定义了4个窗口,置信度分别是[0.5, 0.7, 0.6, 0.7],对应上图的多了一个方框。算法的核心:

  • 1、把置信度最高的一个boundingbox(bbox)作为目标,然后对比剩下bbox与目标bbox之间的交叉区域
  • 2、如果交叉区域大于设定的阈值,那么在剩下的bbox中去除该bbox(即使该bbox的置信度与目标bbox的置信度一样)—-这个操作就是抑制最大重叠区域
  • 3、把第二置信度高的bbox作为目标,重复1、2

二、代码

import numpy as np
dets = np.array([
                [204, 102, 358, 250, 0.5],
                [257, 118, 380, 250, 0.7],
                [280, 135, 400, 250, 0.6],
                [255, 118, 360, 235, 0.7]])
thresh = 0.3
def nms(dets, thresh):
    x1 = dets[:, 0]
    y1 = dets[:, 1]
    x2 = dets[:, 2]
    y2 = dets[:, 3]
    scores = dets[:, 4]
    
    areas = (x2 - x1 + 1) * (y2 - y1 + 1) # 每个boundingbox的面积
    order = scores.argsort()[::-1] # boundingbox的置信度排序
    keep = [] # 用来保存最后留下来的boundingbox
    while order.size > 0:     
        i = order[0] # 置信度最高的boundingbox的index
        keep.append(i) # 添加本次置信度最高的boundingbox的index
        
        # 当前bbox和剩下bbox之间的交叉区域
        # 选择大于x1,y1和小于x2,y2的区域
        xx1 = np.maximum(x1[i], x1[order[1:]])
        yy1 = np.maximum(y1[i], y1[order[1:]])
        xx2 = np.minimum(x2[i], x2[order[1:]])
        yy2 = np.minimum(y2[i], y2[order[1:]])
        
        # 当前bbox和其他剩下bbox之间交叉区域的面积
        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h
        
        # 交叉区域面积 / (bbox + 某区域面积 - 交叉区域面积)
        ovr = inter / (areas[i] + areas[order[1:]] - inter)
        #保留交集小于一定阈值的boundingbox
        inds = np.where(ovr <= thresh)[0]
        order = order[inds + 1]
        
    return keep
print nms(dets, thresh)

最后的效果就是得到开始定义的4个bbox中的第4个(3):
在这里插入图片描述
祝您浏览愉快!

<think>嗯,用户想了解YOLO目标检测的流程和步骤。需要参考之前的对话历史,发现用户曾提到过SSD(单次检测器),而YOLO也是基于类似的概念。用户可能是个学习者或开发者,希望深入了解YOLO的工作原理。首先需要梳理YOLO的核心机制。YOLO最大的特点是将目标检测转化为单次回归问题,将图像划分成网格单元进行处理。流程上应该包含输入预处理、特征提取、预测生成和后处理几个关键阶段。输入尺寸固定为416×416这类尺寸,这涉及到保持长宽比的缩放填充操作。在特征提取环节,YOLOv3的Darknet-53主干网络值得重点说明,其残差结构能有效提取多层次特征。预测部分要强调三个尺度的特征图融合,这对检测不同尺寸物体至关重要。每个网格预测3个边界框的机制需要具体解释,包括坐标、置信度和分类概率的维度构成。后处理流程容易遗漏细节。非极大值抑制的原理要讲清楚:先按置信度过滤,再通过IoU去除冗余框。最后要说明边界框还原到原始图像坐标的步骤,这关系到最终输出准确性。代码片段可以展示处理流程,但要注意避免过于复杂影响理解。用户引用的文献其实不太相关,主要基于检测任务需求回答。可能在后续补充YOLO的优势和局限,比如速度快但小物体检测稍弱的特性,以及实际应用场景建议。</think> 以下是YOLO目标检测的完整工作流程及核心步骤详解: ### **YOLO目标检测工作流程** ```mermaid graph TD A[输入图像] --> B[图像预处理] B --> C[通过DarkNet CNN提取特征] C --> D[网格划分与边界框预测] D --> E[输出张量解码] E --> F[非极大值抑制处理] F --> G[最终检测结果] ``` ### **详细步骤解析** 1. **图像预处理** - 输入图像缩放到统一尺寸(如YOLOv3使用$416×416$) - 保持长宽比的缩放填充技术(letterbox处理) $$ \text{scale} = \min\left(\frac{\text{target\_w}}{\text{orig\_w}}, \frac{\text{target\_h}}{\text{orig\_h}}\right) $$ - 像素值归一化到$[0,1]$范围 2. **特征提取(以YOLOv3为例)** - DarkNet-53主干网络提取多尺度特征图 - 输出三个尺度的特征图: - $13×13$(检测大物体) - $26×26$(检测中物体) - $52×52$(检测小物体) 3. **网格预测机制** ```python # 预测张量结构示例(SxS网格) # [batch, S, S, B*(5+C)] # B=边界框数, C=类别数, 5=[x,y,w,h,confidence] predictions = model(input_image) ``` - 每个网格单元预测$B$个边界框(YOLOv3中$B=3$) - 每个边界框包含: - 中心坐标$(x,y)$(相对于网格的偏移量) - 宽高$(w,h)$(相对于图像尺寸的比例) - 置信度$ \text{confidence} = P(\text{object}) \times \text{IOU} $ - 类别概率$P(\text{class}|\text{object})$ 4. **输出张量解码** - 坐标还原公式: $$ \begin{cases} b_x = \sigma(t_x) + c_x \\ b_y = \sigma(t_y) + c_y \\ b_w = p_w e^{t_w} \\ b_h = p_h e^{t_h} \end{cases} $$ 其中$(c_x,c_y)$为网格左上角坐标,$(p_w,p_h)$为先验框尺寸 5. **后处理(非极大值抑制-NMS)** ```python def nms(boxes, scores, iou_threshold): sorted_indices = np.argsort(scores)[::-1] keep = [] while sorted_indices: current = sorted_indices[0] keep.append(current) ious = calculate_iou(boxes[current], boxes[sorted_indices[1:]]) remaining = np.where(ious <= iou_threshold)[0] sorted_indices = sorted_indices[remaining+1] return keep ``` - 步骤: 1. 按置信度排序所有预测框 2. 保留最高置信度框 3. 计算该框与剩余框的IoU(交并比) 4. 删除IoU超过阈值(通常0.5)的框 5. 重复直至处理完所有框 6. **输出结果** - 格式:$(x_{min}, y_{min}, x_{max}, y_{max}, \text{class\_id}, \text{confidence})$ - 坐标还原到原始图像尺寸 ### **YOLO核心优势** 1. **单阶段检测**:端到端一次前向传播完成检测(You Only Look Once) 2. **全局上下文**:网格化处理利用全图信息 3. **实时性**:YOLOv8在Tesla V100上可达>300 FPS[^2] ### **典型应用场景** - 自动驾驶感知系统 - 工业视觉缺陷检测 - 安防监控实时分析 - 无人机目标跟踪(需结合ReID算法)
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值