3000类目标检测--R-FCN-3000 at 30fps: Decoupling Detection and Classification

本文提出了一种名为R-FCN-3000的实时物体检测方法,该方法能实现对3000类物体的快速检测,速度可达30帧/秒。通过将物体检测和分类解耦,即使面对数千种不同类型的物体,也能保持稳定的计算负载。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

R-FCN-3000 at 30fps: Decoupling Detection and Classification
Code will be made available

本文主要解决的问题是怎么实时检测3000类物体。主要思路就是将 object检测和物体分类 分离
我们提出的 R-FCN-3000 比 YOLO9000 高 18%,速度每秒 30帧。
对于几十类的物体实时检测已经发展的比较成熟了。但是在实际生活中,物体的类别达到几千种。 最近提出的 fully convolutional class of detectors 对于给定图像计算每个类别的 objectness score,它们使用有限的计算资源可以达到很高的精度。尽管 fully-convolutional representations 对诸如目标检测、实例分割、跟踪、关系检测等提供了一个有效的方法。但是它们需要一组特定滤波器 来学习每个类别的相关信息,require class-specific sets of filters for each class。
例如 R-FCN / Deformable-R-FCN requires 49/197 position-specific filters for each class
Retina-Net requires 9 filters for each class for each convolutional feature map

R-FCN-3000 最关键的地方就是将 objectness detection and classification 解耦,这样类别的增加不会增加定位步骤的计算量。
The key insight behind the proposed R-FCN-3000 architecture is to decouple objectness detection and classification of the detected object so that the computational requirements for localization remain constant as the number of classes increases
这里写图片描述

4.1. Weakly Supervised vs. Supervised?
半监督的效果要差于 监督学习方法,所以这里我们还是用有监督的训练方法。我们对 ImageNet database 里的图像进行标记,每个图像只有 1-2 个物体

We show that careful design choices with respect to the CNN architecture, loss function and training protocol can yield a large-scale detector trained
on the ImageNet classification set with significantly better accuracy compared to weakly supervised detectors

R-FCN-3000 主要思路如下
这里写图片描述

图示显示有两个流程,上面流程负责物体的有无,即提取有效候选区域,不管其具体的物体类别信息, super-class detector。
下面的流程负责每个候选区域的类别信息。
最后将两者的信息融合起来得到每个候选区域的类别信息及有物体的概率。

Super-class Discovery
这里我们首先从 the final layer of ResNet-101 提取 一个 2048-dimensional feature-vectors 表示一个类别的信息,对于 C 个类别 一共有 C 个 2048-dimensional feature-vectors,这个 C 个特征向量 applying K-means clustering,得到 K 个 super-class clusters, When K is 1, the super-class detector predicts objectness

这里写图片描述

11

### UMICS 提出的 Soft-NMS 算法介绍与实现 Soft-NMS 是一种改进的传统非极大值抑制(Non-Maximum Suppression, NMS)方法,旨在解决传统 NMS 的局限性。传统的 NMS 方法会简单地丢弃低于某个阈值的边界框,而 Soft-NMS 则通过调整置信度分数来保留更多可能的目标检测结果。 #### 软件资源 Soft-NMS 的开源代码可以在以下 GitHub 地址找到[^1]: ```plaintext https://github.com/yihui-he/softer-NMS ``` #### 原理概述 Soft-NMS 的核心思想在于不直接移除重叠较高的候选框,而是降低其置信度得分。具体来说,对于每一个检测到的对象,如果它的 IoU(Intersection over Union)与其他高分对象较高,则不会被立即删除,而是将其置信度分数按一定规则衰减。这种方式可以有效减少因遮挡或其他复杂场景带来的误判问题。 置信度分数更新公式如下所示: \[ \text{score}_{\text{new}} = \text{score} \times e^{-\frac{\text{IoU}^2}{\sigma}} \] 其中 \( \sigma \) 控制衰减速率。 #### 实现细节 以下是基于 Python 和 NumPy 的 Soft-NMS 实现示例: ```python import numpy as np def soft_nms(dets, sigma=0.5, Nt=0.3, threshold=0.001, method=1): """ :param dets: ndarrays of shape (N, 5), where each row is [x1, y1, x2, y2, score]. :param sigma: variance of Gaussian decay. :param Nt: IOU threshold. :param threshold: score threshold. :param method: methods to perform suppression. 1 - linear soft-NMS, 2 - gaussian soft-NMS, otherwise - hard-NMS. :return: indices of the selected boxes. """ # Initialize variables scores = dets[:, 4].copy() areas = (dets[:, 2] - dets[:, 0] + 1) * (dets[:, 3] - dets[:, 1] + 1) order = scores.argsort()[::-1] keep = [] while order.size > 0: i = order[0] keep.append(i) xx1 = np.maximum(dets[i, 0], dets[order[1:], 0]) yy1 = np.maximum(dets[i, 1], dets[order[1:], 1]) xx2 = np.minimum(dets[i, 2], dets[order[1:], 2]) yy2 = np.minimum(dets[i, 3], dets[order[1:], 3]) w = np.maximum(0.0, xx2 - xx1 + 1) h = np.maximum(0.0, yy2 - yy1 + 1) inter = w * h ovr = inter / (areas[i] + areas[order[1:]] - inter) if method == 1: # Linear weight = np.ones_like(ovr) ind = np.where(ovr > Nt)[0] weight[ind] = 1 - ovr[ind] elif method == 2: # Gaussian weight = np.exp(-(ovr ** 2) / sigma) else: # Hard NMS weight = np.ones_like(ovr) weight[np.where(ovr > Nt)] = 0 scores[order[1:]] *= weight inds = np.where(scores[order[1:]] >= threshold)[0] order = order[inds + 1] return keep ``` 此函数实现了三种不同的软 NMS 方法:线性、高斯以及硬 NMS。用户可以通过 `method` 参数选择具体的策略。 #### 应用背景 Soft-NMS 首次应用于目标检测领域中的 R-FCN 模型中,并取得了显著的效果提升。相关研究详见论文《R-FCN-3000 at 30fps: Decoupling Detection and Classification》[^2]。 尽管 Soft-NMS 主要用于目标检测任务,但它也可以扩展至其他计算机视觉应用中,例如实例分割或姿态估计等。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值