Object Detection
文章平均质量分 94
目标检测
00000cj
计算机视觉,论文阅读记录
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
YOLO-MS 论文解读
本文没有引入新的训练或优化技术,而是通过学习更丰富的多尺度特征表示来改进实时目标检测模型。这使得我们的方法与之前的工作有很大的不同。具体来说,我们从两个新的角度来思考编码多尺度特征的实时目标检测从局部的角度来看,我们设计了一个具有简单而有效的层次特征融合策略的MS-Block。受Res2Net的启发,我们在MS-Block中引入了多个分支来进行特征提取,但不同的是,我们使用了一个带有深度卷积的inverted bottleneck block,从而可以有效地使用大卷积核。从全局的角度来看,我们提出随着原创 2024-03-21 11:44:35 · 1751 阅读 · 0 评论 -
ASFF自适应空间特征融合
本文提出了一种新的数据驱动的金字塔特征融合策略,称为自适应空间特征融合(adaptively spatial feature fusion, ASFF)。它学习对冲突信息进行空间过滤以抑制不一致性的方法,从而提高了特征的尺度不变性,并几乎没有增加额外开销。原创 2024-03-14 00:28:17 · 4511 阅读 · 0 评论 -
Slim-Neck by GSConv
本文提出了一种新的轻量级卷积方法,即GSConv。该方法使卷积计算的输出尽可能接近SC,并降低了计算成本。本文为自动驾驶的检测架构提供了一个设计范式,即标准backbone和slim-neck。本文验证了各种广泛使用的trick在GSConv-Slim-Neck Detector上的有效性,为该领域的研究提供了参考。原创 2024-03-12 21:08:48 · 2445 阅读 · 1 评论 -
YOLOX论文解读
本文在YOLOv3的基础上进行了一些改进:包括将检测头进行解耦的decoupled head、从anchor-based转为anchor-free、标签分配使用OTA的简化版本SimOTA,提出了YOLOX,在large-scale和light-weight模型方面都取得了SOTA的结果原创 2024-03-08 18:34:08 · 1405 阅读 · 0 评论 -
Feature Pyramid Grids 原理与代码解析
本文提出了Feature Pyramid Grids(FPG),一种深度多路径特征金字塔网络,它将特征尺度空间表示为平行路径之间通过多向横向连接融合的规则网格。FPG通过多个平行金字塔路径丰富了卷积网络的backbone中构建的层次特征表示。FPG是FPN在密集横向连接结构下从1到 \(p\) 条路径的深度推广。原创 2024-01-24 21:14:11 · 1191 阅读 · 0 评论 -
Nas-FPN(CVPR 2019)原理与代码解析
本文采用神经网络结构搜索(Neural Architecture Search, NAS),在一个覆盖所有跨尺度连接的新型可扩展搜索空间中发现了一个新的特征金字塔结构,NAS-FPN。与原始FPN相比,NAS-FPN显著提高了目标检测的性能,并取得了更好了速度-精度的平衡。原创 2024-01-24 21:13:20 · 3965 阅读 · 0 评论 -
Gold-YOLO(NeurIPS 2023)论文与代码解析
针对FPN式结构存在的问题,本文在TopFormer理论的基础上,提出了一种新的聚合-分发(GD)机制,它通过融合多层特征并将全局信息注入到更高层,在YOLO中实现高效的信息交换。这显著增加了neck的信息融合能力,同时没有显著增加延迟。基于此提出了一个新的模型Gold-YOLO,它提高了多尺度特征融合的能力,并在所有尺度上实现了延迟和精度之间的理想平衡。此外,本文首次在YOLO系列中实现了MAE-style的预训练,使得YOLO系列可以从无监督预训练中受益。原创 2024-01-23 21:25:26 · 7801 阅读 · 0 评论 -
DDOD(Disentangle Your Dense Object Detector)解析
本文通过实验证明了解耦上述三种联结可以显著提升模型性能。对于标签分配的联结,针对分类和回归设计了分离的label assigner,从而可以分别为两个分支挑选出最合适的训练集。对于空间特征的联结,基于可变形卷积提出了一种自适应特征解耦模块(adaptive feature disentanglement module),可以自动关注有利于分类和回归的不同特征。对于FPN监督的联结,设计了一种重加权机制,基于每一层的正样本,自适应的调整不同FPN层的监督大小。结合上述三点,提出了一种新的dense detec原创 2024-01-22 20:59:59 · 2051 阅读 · 0 评论 -
Dual Weighting Label Assignment(CVPR 2022)论文与代码解析
本文探索了一种新的加权范式,称为双加权dual weighting(DW)来分别定义正权重和负权重。作者首先通过分析目标检测中的评价指标,确定正/负权重的关键影响因素,然后在这基础上设计正/负权重。具体来说,一个样本的正权重由其分类和定位得分之间的一致性确定,而负权重被分解为两项:样本作为负样本的概率和重要性。这种加权策略为区分重要样本和不重要样本提供了更大的灵活性,从而得到一个更有效的检测模型。原创 2024-01-22 20:58:41 · 1759 阅读 · 0 评论 -
轻量检测模型NonoDet-Plus解析
nanodet-plus在nanodet的基础上做了一些改进,保持轻量的同时大大提高了检测精度原创 2024-01-06 17:54:32 · 2091 阅读 · 0 评论 -
轻量检测模型PP-PicoDet解析
本文设计了一种新的轻量型目标检测模型PP-PicoDet原创 2024-01-04 21:17:41 · 2018 阅读 · 0 评论 -
轻量检测模型NanoDet解析
YOLO之外的另一选择,手机端97FPS的Anchor-Free目标检测模型NanoDet现已开源~ - 知乎原创 2024-01-04 21:16:06 · 1232 阅读 · 0 评论 -
PP-YOLOE论文解读
本文在PP-YOLOv2的基础上进行改进,采用anchor-free范式,用CSPRepResStage构建了更强大的backbone和neck,采用了ET-head和动态标签分配算法TAL,根据不同的场景提供了s/m/l/x模型。在Tesla V100上,PP-YOLOE-l在COCO测试集上获得了51.4mAP的精度和78.1FPS的速度,相比于上一版本的PP-YOLOv2和YOLOX分别提升了(+1.9AP,+13.35% speed up)和(+1.3AP,+24.96% speed up)。原创 2023-12-29 15:58:35 · 1444 阅读 · 0 评论 -
RTMDet原理与代码解析
本文提出了一种新的单阶段实时目标检测模型RTDMet,超越了现有的YOLO系列,并且可以很方便了扩展到其它检测任务比如实例分割、选择目标检测等。原创 2023-11-24 20:28:57 · 3144 阅读 · 0 评论 -
VarifocalNet: An IoU-aware Dense Object Detector(CVPR 2021)原理与代码解析
目前的目标检测模型,大都是先生成一组冗余的检测框,然后通过NMS过滤掉同一对象的重复检测框,一般来说,NMS中都是用分类得分对检测框进行排序。但是这有可能会降低模型的性能,因为分类得分并不总是能很好的评估检测框的定位精度,而且精确定位但分类得分低的检测框有可能被NMS误删。为了解决这个问题,现有的检测模型会预测一个额外的IoU score或centerness score来作为定位精度的评价指标,并把它们和分类得分相乘的结果作为NMS中排序的指标。这些方法可以缓解分类得分和定位准确度之间的不对齐misa原创 2023-05-07 18:03:33 · 1727 阅读 · 0 评论 -
EfficientDet(BiFPN)(CVPR 2020)原理与代码解析
本文受EfficientNet的启发,提出了一种用于目标检测模型的复合尺度变换方法,不仅可以同时对分辨率、网络深度、网络宽度三个维度进行统一缩放,而且可以对目标检测模型中的骨干网络、特征网络、分类/回归预测网络中的上述三个维度进行统一缩放。此外,本文还提出了一种新的加权双向特征金字塔网络(bi-directional feature pyramid network,BiFPN),可以简单快速地进行多尺度特征融合。基于上述两点,并入引入更好的backbone即EfficientNet,作者提出了一个原创 2023-04-13 23:43:32 · 15848 阅读 · 4 评论 -
PANet(CVPR 2018)原理与代码解析
信息在神经网络中的传播方式是非常重要的。本文提出的路径聚合网络(Path Aggregation Network, PANet)旨在促进proposal-based实例分割框架中的信息流动。具体来说,通过自底向上的路径增强,利用底层中精确的定位信息来增强整个特征层次,缩短了下层与最上层之间的信息路径。本文还提出了自适应特征池化(adaptive feature pooling),它将特征网格和所有层级的特征连接起来,使每个特征层级上有用的信息直接传播到后面的proposal subnetworks。此外还增原创 2023-04-03 00:31:19 · 14588 阅读 · 0 评论 -
标签分配PAA(ECCV 2020)原理与代码解析
本文提出了一种新的标签分配策略,根据模型的学习状态自适应的将anchor划分为正负样本,从而能够以概率的方式解释正负样本的划分。为此首先基于模型计算anchor的得分,然后用一个概率分布拟合这些分数,然后根据anchor的概率将其划分正负样本。此外作者还研究了训练和测试目标之间的差距,并提出预测检测框的IoU作为定位质量的评估来减少这种差距。将分类得分和定位质量的联合作为NMS中过滤的阈值,和提出的标签分配结合使用,可以显著提高模型的性能。原创 2023-03-16 21:46:42 · 847 阅读 · 0 评论 -
FoveaBox原理与代码解析
给定一个GT box \((x_{1},y_{1},x_{2},y_{2})\),首先将其映射到特征金字塔的目标层 \(P_{l}\)其中 \(s_{l}\) 是下采样步长。定义输出特征图上对应GT box中心区域为正样本区域 \(R^{pos}\)其中 \(\sigma\) 是收缩系数,文中 \(\sigma = 0.4\)。训练阶段,正样本区域内的每个像素位置都标为对应的目标类别标签,整个特征图上,除了正样本区域其它都是负样本区域。如下图右灰色区域所示。原创 2023-02-11 11:34:22 · 1134 阅读 · 0 评论 -
BorderDet 原理与代码解析
作者首先做了个对比实验比较bounding box各种特征表示的精度差异,首先采用一个简单的检测器FCOS作为baseline来生成coarse边界框预测,然后如下图2中(b)-(e)的方法重新提取特征,然后逐步用不同的特征作为单点特征的补充来refine粗边界框预测结果。实验结果如下表所示根据对比实验的结果,作者得到了以下结论:区域特征比单点特征的表示能力更强。用区域特征作为补充特征AP提升了1.3。当使用区域特征来增强单点特征时,边界特征在区域特征中起主要作用。原创 2023-02-05 15:49:09 · 864 阅读 · 1 评论 -
LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析
给定一张输入图片 \(M\),假设共有 \(J\) 个anchor和 \(I\) 个GT,在一次前向传播中,我们可以得到分类得分预测 \(S(\theta, M)\in \mathbb{R}^{J\times N}\),其中 \(N\) 是类别数,\(\theta\) 是模型权重参数,同时可以得到bounding box预测 \(B(\theta, M)\in \mathbb{R}^{J\times 4}\)。原创 2023-01-30 21:09:41 · 780 阅读 · 0 评论 -
RepPoints原理与代码解析
本文提出对一组自适应点进行建模,如下,其中n=9逐步refine边界框的定位和特征提取对多阶段目标检测非常有意义,对于RepPoints,refine过程可表示如下其中 \(\left \{ \left ( \bigtriangleup x_{k},\bigtriangleup y_{k} \right ) \right \} ^{n}_{k=1}\) 是预测的新的采样点相对于旧的采样点的偏移。原创 2023-01-17 19:57:31 · 1280 阅读 · 0 评论 -
Deformable ConvNets v2 原理与代码解析
以ResNet-50为例,DCN v1只将conv5阶段的3x3卷积替换成了可变形卷积,因此整个网络中有3层可变形卷积。在DCV v2中,将conv3~conv5阶段所有的3x3卷积都替换成了可变形卷积,总共有12层可变形卷积,进一步增强了网络对几何变换的建模能力。原创 2023-01-09 21:57:36 · 2477 阅读 · 0 评论 -
DCN v1 可变形卷积v1解析(修正篇)
在两年前的这篇文章中,当时对可变形卷积进行了代码解读,后来被网友指出其中的解释是错的,里面引用的keras版本的代码实现也是错的,后来查看了一些其他人的文章,其中正确和错误的解释都掺杂在一起,不少人和我之前的错误理解是一样的,一直不敢确定所以文章一直没有修正,现在应该是搞懂了,在这里对当时的错误解析进行纠正。这里讲解的代码实现来自于,其中当modulation=True时,就是v2,否则就是v1,这里只考虑v1。原创 2023-01-03 22:05:03 · 1556 阅读 · 2 评论 -
Deformable Convolution(可变形卷积)代码解析(有错误,修改中)
目录基本原理代码解读Offsets转换双线性插值参考基本原理本文主要从代码的角度解析下deformable convolution的原理,因为在看代码的时候各种transpose、stack、tile、reshape操作,看了一会维度就搞晕了,因此将过程注释一下方便理解,本文以keras实现GitHub - kastnerkyle/deform-conv: Deformable Convolution in TensorFlow / Keras代码为例。对于一个3*3的卷积核原创 2020-12-08 15:25:54 · 4545 阅读 · 5 评论 -
SIoU Loss 原理与代码解析
paper:SIoU Loss: More Powerful Learning for Bounding Box Regressioncode:https://github.com/meituan/YOLOv6/blob/main/yolov6/utils/figure_iou.py#L75 之前的目标检测模型的回归损失考虑到了预测的bounding box和gt box之间的distance、overlap area、aspect ratio等因素(如GIoU、CIoU等),但是都没有考虑到方向不匹配的问原创 2022-12-15 19:20:06 · 3517 阅读 · 0 评论 -
TOOD: Task-aligned One-stage Object Detection 原理与代码解析
paper:TOOD: Task-aligned One-stage Object Detectioncode:https://github.com/fcjian/TOOD 目标检测包括分类和定位两个子任务,分类任务学习的特征主要关注物体的关键或显著区域,而定位任务是为了精确定位整个对象主要关注物体的边界。由于分类和定位学习机制的不同,两个任务学习的特征的空间分布可能会不同,当使用两个独立的分支进行预测时,会导致一定程度的misalignment。如下图所示,Result栏第一行是ATSS预测dining原创 2022-12-11 15:32:03 · 5772 阅读 · 2 评论 -
OTA: Optimal Transport Assignment for Object Detection 原理与代码解读
从 \(gt_{i}\) 传输一个正标签到anchor \(a_{j}\) 的运输成本 \(f^{fg}\) 定义为它们之间的分类损失和回归损失的加权和。其中 \(\oslash\) 表示背景类,把 \(c^{bg}\in \mathbb{R}^{1\times n}\) 拼接到 \(c^{fg}\in \mathbb{R}^{m\times n}\) 的最后一行即得到了完整的cost matrix \(c\in \mathbb{R}^{(m+1)\times n}\)。在标准的最优传输问题中,原创 2022-11-23 19:36:01 · 3267 阅读 · 0 评论 -
Generalized Focal Loss v2 原理与代码解析
paper:Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Detectioncode:GitHub - implus/GFocalV2: Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Detection, CVPR2021单阶段原创 2022-10-30 13:32:59 · 1830 阅读 · 2 评论 -
Generalized Focal Loss 原理与代码解析
为了方便网络优化,作者将连续区间上的积分转换成了离散的形式,通过将区间 \(\left [ y_{0},y_{n} \right ] \) 转换成一组等间隔 \(\triangle\)(为了方便取\(\triangle=1\))的离散区间 \(\left \{ y_{0},y_{1},...,y_{i},y_{i+1},...,y_{n-1},y_{n} \right \} \),根据离散分布的性质 \(\sum_{i=0}^{n} P(y_{i})=1\),回归估计值可由下式得到。原创 2022-10-26 09:19:01 · 3078 阅读 · 1 评论 -
YOLOF - You Only Look One-level Feature 原理与实现解析
paper:You Only Look One-level Featurecode:GitHub - megvii-model/YOLOF前言Feature Pyramid Networks(FPN)之所以有效的两个原因:一是多尺度特征融合,即融合不同分辨率的特征输入从而得到更好的特征表示;二是分治策略,即将不同大小的物体分配到不同大小的输出层上进行预测从而克服尺度预测问题。本文研究了这两个因素对最终效果的影响,以单阶段检测器RetinaNet为基础...原创 2022-04-17 00:09:37 · 3404 阅读 · 0 评论 -
AutoAssign: Differentiable Label Assignment for Dense Object Detection
论文https://arxiv.org/abs/2007.03496原创 2022-03-15 00:57:01 · 2960 阅读 · 0 评论 -
IoU Loss汇总
IoU Loss论文UnitBox: An Advanced Object Detection Network解决的问题用\(l_{2}\) loss作为边框回归loss的两个缺点:在\(l_{2}\) loss中,bounding box的坐标(以\(x_{t},x_{b},x_{l},x_{r}\)的形式)是作为四个单独的变量优化的,这违背了物体的边界是高度相关的事实。这可能会导致预测框和ground truth的某一条或两条边很接近,但整体的框效果很差。 \(l_{2}\) lo原创 2022-03-06 22:37:06 · 5650 阅读 · 0 评论 -
FreeAnchor 原理与代码解析
论文FreeAnchor: Learning to Match Anchors for Visual Object Detection官方代码https://github.com/zhangxiaosong18/FreeAnchor作者指出IoU-based label assignment对于acentric, slinder, crowded objects,其正负样本的分配可能效果不好。比如以下图的月亮为例,其中绿框是gt box,红框是anchor,在基于IoU的规则下可...原创 2022-02-21 20:25:41 · 1086 阅读 · 0 评论 -
ATSS:Adaptive Training Sample Selection原理与代码解读
论文Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection官方代码GitHub - sfzhang15/ATSS: Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection, CVPR, Oral, 202..原创 2022-02-15 13:09:29 · 3479 阅读 · 6 评论 -
YOLO v3原理与代码解析
https://github.com/qqwweee/keras-yolo3网络通过多尺度预测输出三个大小不同的预测,分别为13*13*255,26*26*255,52*52*255,这里255=3*(80+5),y_true的shape为[(m, 13, 13, 3, 25), (m, 26, 26, 3, 25), (m, 52, 52, 3, 25)],其中m是batch size,25是voc数据集的class_num + 5, 5是4个坐标和1个置信度。9个anchor的大小为(10,原创 2021-06-21 15:57:48 · 273 阅读 · 0 评论 -
CenterNet解析
论文https://arxiv.org/abs/1904.07850代码https://github.com/xingyizhou/CenterNet CenterNet是在CornerNet的基础上进行改进,CornerNet是预测目标的一对角点,而CenterNet则是预测目标的中心点和宽高。CornerNet模型最终输出heatmap、offset、embedding三个特征图,分别用于预测角点的位置和类别、下采样坐标取整导致的偏差、将属于同一目标的一对角点组合起来。对应的,C...原创 2021-04-17 16:23:28 · 1191 阅读 · 0 评论 -
FCOS原理与代码解析(更新改进trick)
anchor-based目标检测存在的缺陷:anchor会引入很多需要优化的超参数, 比如anchor number、anchor size、anchor ratio 因为anchor的大小、比例、数量都是提前确定的,会影响模型的泛化性能。对与新的检测任务,需要重新设计anchor的各种参数。 为了保证high recall rate,需要大量密集分布的anchor boxes,会导致训练阶段正负样本不均衡的问题。 因为anchor boxes数量特别多,训练阶段需要计算所有anchor boxe原创 2020-11-01 23:37:40 · 6481 阅读 · 0 评论 -
Faster RCNN原理与代码解析
本文主要根据这版keras实现https://github.com/dishen12/keras_frcnn来梳理一下Faster RCNN(原作者删了这个实现,这是别人fork的)。同时这个tensorflow实现的版本也比较清楚(个人感觉不如keras版简单),可以对照着看。数据处理backbone用的是vgg16,输出feature_map相对于网络输入stride=16,我们知道feature_map每个点对应9个anchor(3个ratio*3个scale),假设feature_map的宽原创 2020-11-05 17:02:35 · 380 阅读 · 0 评论 -
YOLO v1原理与代码解读
将输入图片分成个网格,如果物体的中心位于某个网格中,这个网格就负责检测该物体。每个网格预测B个bounding boxes和confidence,,即confidence描述的是该box含有object的置信度以及该box预测的有多准确。每个bounding box包含5个预测值,,表示box的中心相对于网格的的距离,是相对于整张图的宽高。每个网格还预测C个类别条件概率,即该网格有物体的情况下属于类别的概率。不管一个网格预测几个boxes,都只预测一组类别概率。...原创 2020-11-09 20:13:48 · 405 阅读 · 1 评论
分享