
Detection
Bruce_0712
这个作者很懒,什么都没留下…
展开
-
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
前言之前我所在的公司七月在线开设的深度学习等一系列课程经常会讲目标检测,包括R-CNN、Fast R-CNN、Faster R-CNN,但一直没有比较好的机会深入(但当你对目标检测有个基本的了解之后,再看这些课程你会收益很大)。但目标检测这个领域实在是太火了,经常会看到一些写的不错的通俗易懂的资料,加之之前在京东上掏了一本书看了看,就这样耳濡目染中,还是开始研究了。今年五一,从保定回京,怕高速路上堵 没坐大巴,高铁又没抢上,只好选择哐当哐当好几年没坐过的绿皮车,关键还不断晚点。在车站,用手机做个热点转载 2020-10-22 13:21:02 · 966 阅读 · 0 评论 -
R-FCN: Object Detection via Region-based Fully Convolutional Networks
本篇博客一方面介绍R-FCN算法(NISP2016文章),该算法改进了Faster RCNN,另一方面介绍其Caffe代码,这样对算法的认识会更加深入。论文:R-FCN:object detection via region-based fully convolutional networks论文链接:http://papers.nips.cc/paper/6465-r-fcn-object-detection-via-region-based-fully-convolutional-networks转载 2020-10-22 11:13:15 · 425 阅读 · 0 评论 -
PVANET
论文:PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection论文链接:https://arxiv.org/abs/1608.08021代码链接:https://github.com/sanghoon/pva-faster-rcnnRCNN系列的object detection算法总体上分为特征提取、RPN网络和分类回归三大部分,Faster RCNN的效果虽好,但是速度较慢,这篇文章的出发点是改进Fast转载 2020-10-22 09:44:26 · 324 阅读 · 0 评论 -
End-to-End Object Detection with Transformers
论文下载地址:https://arxiv.org/abs/2005.12872代码下载地址:https://github.com/facebookresearch/detr摘要:该算法简化了目标检测算法的流程,同时将那些需要手动设计的技巧nms(极大值抑制)和anchor成功的删除掉,实现端到端自动训练和学习。DETR算法使基于集合的全局损失函数,通过二部图匹配和编码解码网络结构来强制进行唯一的预测。 给定一小组固定的经过学习的object queries(后面会讲到什么是object que...转载 2020-10-21 16:36:14 · 580 阅读 · 0 评论 -
高斯混合模型
https://zhuanlan.zhihu.com/p/30483076https://zhuanlan.zhihu.com/p/31103654https://blog.youkuaiyun.com/jinshengtao/article/details/26278725原创 2020-10-19 10:04:49 · 173 阅读 · 0 评论 -
Stacked Hourglass Networks for Human Pose Estimation
《Stacked Hourglass Networks for Human Pose Estimation》ECCV2016,密歇根大学的研究团队,Hourglass。 后续的很多人体姿态估计方法都借鉴了hourglass网络结构,并进行了改进,可以说hourglass的网络结构算是受到了业界的认可。简介:本文使用全卷积神经网络,对给定的单张RGB图像,输出人体关键点的精确像素位置,使用多尺度特征,捕捉人体各关节点的空间位置信息。网络结构形似沙漏状,重复使用top-down到bottom-up来转载 2020-10-18 09:49:39 · 1156 阅读 · 0 评论 -
Yolo系列
Yolov5https://zhuanlan.zhihu.com/p/172121380Yolov3https://zhuanlan.zhihu.com/p/76802514Yolov2https://zhuanlan.zhihu.com/p/124269512Yolov1https://zhuanlan.zhihu.com/p/46691043原创 2020-10-15 17:54:21 · 183 阅读 · 0 评论 -
优化策略(终)
1. Mosaic数据增强方法这个方法在解析U版YOLOv3的时候就讲过了,将4张不同的图片镶嵌到一张图中,其优点是:混合四张具有不同语义信息的图片,可以让检测器检测超出常规语境的目标,增强模型的鲁棒性。 由于BN是从四张图片计算得到的,所以可以减少对大的mini-batch的依赖。评价:这个方法在U版YOLOv3中很早就出现了,在自己数据集上也用过,但是感觉效果并不是很稳定。笔者数据集只有一个类,所以可能不需要这种特殊的数据增强方法,欢迎各位读者通过自己的实验来验证这个数据增强方法的有效性原创 2020-10-15 09:19:42 · 798 阅读 · 0 评论 -
优化策略(八)常用backbone
VGG ResNet(ResNet18,50,100) ResNeXt Xception DenseNet SqueezeNet Darknet(Darknet19,53) MobileNet ShuffleNet DetNet DetNAS SpineNet EfficientNet(EfficientNet-B0/B7) CSPResNeXt50 CSPDarknet53ResNeXt 图3:ResNeXt结构...原创 2020-10-14 14:49:23 · 762 阅读 · 0 评论 -
优化策略(五)Skip-connections
Residual connections Weighted residual connections Multi-input weighted residual connections Cross stage partial connections (CSP)二、Weighted Residuals for Very Deep Networks最近,深度剩余网络在许多具有挑战性的计算机视觉任务中表现出了引人注目的性能。然而,原有的残差结构仍然存在一些缺陷,使得其难以在深度很深的网络上收敛..原创 2020-10-13 18:45:30 · 4198 阅读 · 0 评论 -
优化策略(四)常用激活函数和loss
激活函数:Sigmoid Tanh ReLU LReLU PReLU ReLU6 Scaled Exponential Linear Unit (SELU) Softplus Swish hard-Swish Mish(一)Sigmoid优点:平滑、易于求导,sigmoid的输出是(0,1),可以被表示做概率或者用于输入的归一化等等;缺点:1. 梯度消失:注意:Sigmoid 函数趋近 0 和 1 的时候变化率会变得平坦,也就是说,Sigmoid 的梯度趋近于原创 2020-10-13 14:43:33 · 1248 阅读 · 0 评论 -
庖丁解牛yolo_v4之DropBlock
论文:DropBlock: A regularization method forconvolutional networksGithub:https://github.com/miguelvr/dropblockhttps://github.com/DHZS/tf-dropblock论文主要提出了一种针对卷积层的正则化方法DropBlock,最终在ImageNet分类任务上,使用Resnet-50结构,将精度提升1.6%个点,在COCO检测任务上,精度提升1.6%个点。(...转载 2020-06-10 20:46:49 · 1270 阅读 · 0 评论 -
优化策略(三)正则化和BN方式
正则化:DropOut DropConnect DropPath Spatial DropOut DropBlockBN:Batch Normalization (BN) GN,BN和LN Cross-GPU Batch Normalization (CGBN or SyncBN) Filter Response Normalization (FRN) Cross-Iteration Batch Normalization (CBN)Dropout的理解我们先来看看在D.原创 2020-10-12 17:25:22 · 1957 阅读 · 0 评论 -
优化策略(二)数据不均衡
解决数据不均衡:Focal loss hard negative example mining OHEM S-OHEM A-Fast-RCNN GHM(较大关注easy和正常hard样本,较少关注outliners) PISAHard Negative Mining/OHEM 二者的区别吗?Hard Negatie Mining与Online Hard Example Mining(OHEM)都属于难例挖掘,它是解决目标检测老大难问题的常用办法,运用于R-CNN,fast R-CNN,原创 2020-10-12 14:09:29 · 2938 阅读 · 0 评论 -
优化策略(一)数据处理
一、数据增强方式图像扰动, 改变亮度、对比对、饱和度、色调 加噪声 随机缩放 随机裁剪(random crop) 翻转 旋转 随机擦除(random erase) Cutout MixUp CutMix Mosaic 随机擦除(random erase) Cutout...原创 2020-10-10 14:35:55 · 1225 阅读 · 0 评论 -
Deformable Convolution 关于可变形卷积
Abstract如何有效地对几何图形的变化进行建模一直是一个挑战,大体上有两种处理方法:(1)构建一个包含各种变化的数据集,其本质是数据扩增(2)使用具有形变不变性的特征和算法(如SIFT)。这两种方法都有很大的局限性:几何形变被假设是固定和已知的,这是一种先验信息,用这些已知的形变去处理未知的形变是不合理的;手工设计的特征或算法无法应对过度复杂的形变,即使该形变是已知的。近年来,CNNs在计算机视觉领域取得了飞速的发展和进步,在图像分类,语义分割,目标检测领域都有很好的应用。然后鉴于CNNs固定的几何结转载 2020-10-09 09:39:19 · 1329 阅读 · 0 评论 -
一文看尽物体检测中的各种FPN
早期的物体检测算法,无论是一步式的,还是两步式的,通常都是在Backbone的最后一个stage(特征图分辨率相同的所有卷积层归类为一个stage)最后一层的特征图,直接外接检测头做物体检测。此种物体检测算法,可以称之为单stage物体检测算法。由于单stage物体检测算法中,Backbone的最后一个stage的stride通常是32,导致输出的特征图分辨率是输入图片分辨率的1/32,太小,不利于物体检测,因此单stage的物体检测算法,一般会将最后一个stage的MaxPooling去掉或者将str转载 2020-09-30 14:08:08 · 1990 阅读 · 1 评论 -
CSPNet
YOLOv4中的backbone使用的是CSPNET,还是得到了AlexAB大神的认可的。同时,轻量化以及神经网络表达能力一直是研究的热点,本文也是在此范畴。因此本文对其原始论文进行解读。如有任何问题或建议,请在文末留言。神经网络使用最先进的方法,在对象检测之类的计算机视觉任务上实现令人难以置信的结果。 然而,这种成功极大地依赖于昂贵的计算资源,这不便于人们在廉价设备使用最先进的技术。 在本文中,我们提出了跨阶段局部网络(CSPNet:Cross Stage Partial Network),以缓解以前转载 2020-09-29 13:59:52 · 1856 阅读 · 0 评论 -
M2Det
『写在前面』Single-shot目标检测新模型,使用multi-level特征。作者机构:Qijie Zhao等,北京大学&阿里达摩院文章标题:《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid》原文链接:https://arxiv.org/abs/1811.04533相关repo:https://github.com/qijiezhao/M2Det ...转载 2020-09-28 14:28:43 · 179 阅读 · 0 评论 -
ASFF
ASFF:自适应特征融合方式ASFF来自论文:《Learning Spatial Fusion for Single-Shot Object Detection》,也就是著名的yolov3-asff。金字塔特征表示法(FPN)是解决目标检测尺度变化挑战的常用方法。但是,对于基于FPN的单级检测器来说,不同特征尺度之间的不一致是其主要限制。因此这篇论文提出了一种新的数据驱动的金字塔特征融合方式,称之为自适应空间特征融合(ASFF)。它学习了在空间上过滤冲突信息以抑制梯度反传的时候不一致的方法,从而改善了转载 2020-09-28 13:49:36 · 5617 阅读 · 0 评论 -
Cascade RCNN
论文:Cascade R-CNN Delving into High Quality Object Detection论文链接:https://arxiv.org/abs/1712.00726代码链接:https://github.com/zhaoweicai/cascade-rcnnCascade R-CNN算法是CVPR2018的文章,通过级联几个检测网络达到不断优化预测结果的目的,与普通级联不同的是,cascade R-CNN的几个检测网络是基于不同IOU阈值确定的正负样本上训练得到的,这是该转载 2020-09-28 09:40:51 · 269 阅读 · 0 评论 -
RefineDet
论文:Single-Shot Refinement Neural Network for Object Detection论文链接:https://arxiv.org/abs/1711.06897代码链接:https://github.com/sfzhang15/RefineDetRefineDet是CVPR2018的论文,个人觉得是一篇很不错的文章,大致上是SSD算法和RPN网络、FPN算法的结合,可以在保持SSD高效的前提下提高检测效果(实验效果提升挺明显)。第一眼看到这篇文章就让我想起了RON转载 2020-09-27 15:40:53 · 154 阅读 · 0 评论 -
EfficientDet
EfficientDet: Scalable and Efficient Object DetectionGoogle Brain 团队的三位 Auto ML 大佬 Mingxing Tan, Ruoming Pang, Quoc V. Le 在 CVPR 2020 发表一篇文章EfficientDet: Scalable and Efficient Object Detection,代码已经开源到了Github。这篇工作可以看做是中了 ICML 2019 Oral 的EfficientNet...转载 2020-09-27 15:19:58 · 247 阅读 · 0 评论 -
Mask RCNN
不断更新目标检测和语义分割的文章,感兴趣的请关注我。令人拍案称奇的Mask RCNN最近在做一个目标检测项目,用到了Mask RCNN。我仅仅用了50张训练照片,训练了1000步之后进行测试,发现效果好得令人称奇。就这个任务,很久之前用yolo v1训练则很难收敛。不过把它们拿来比当然不公平,但我更想说的是,mask RCNN效果真的很好。所以这篇文章来详细地总结一下Mask RCNN。Mask RCNN沿用了Faster RCNN的思想,特征提取采用ResNet-FPN的架构,另外多加了一转载 2020-09-27 15:09:24 · 273 阅读 · 0 评论 -
PANet
论文:Path Aggregation Network for Instance Segmentation论文链接:https://arxiv.org/abs/1803.01534这篇是CVPR2018关于实例分割(instance segmentation)的文章,既是COCO2017实例分割比赛的冠军,也是目标检测比赛的第二名。这篇文章提出的Path Aggregation Network (PANet)整体上可以看做是在Mask RCNN上做多处改进,充分利用了特征融合,比如引入bottom转载 2020-09-27 15:07:39 · 787 阅读 · 0 评论 -
YOLOv2、v3使用K-means聚类计算anchor boxes的具体方法
k-means需要有数据,中心点个数是需要人为指定的,位置可以随机初始化,但是还需要度量到聚类中心的距离。这里怎么度量这个距离是很关键的。距离度量如果使用标准的欧氏距离,大盒子会比小盒子产生更多的错误。例。因此这里使用其他的距离度量公式。聚类的目的是anchor boxes和临近的ground truth有更大的IOU值,这和anchor box的尺寸没有直接关系。自定义的距离度量公式:到聚类中心的距离越小越好,但IOU值是越大越好,所以使用 1 - IOU,这样就保证距离越小,IOU值越大。使.转载 2020-09-23 21:09:16 · 991 阅读 · 0 评论 -
YOLO V1
这是继RCNN,fast-RCNN 和 faster-RCNN之后,rbg(Ross Girshick)大神挂名的又一大作,起了一个很娱乐化的名字:YOLO。虽然目前版本还有一些硬伤,但是解决了目前基于DL检测中一个大痛点,就是速度问题。其增强版本GPU中能跑45fps,简化版本155fps。YOLO主要特点是:速度快,能够达到实时的要求。在 Titan X 的 GPU 上 能够达到 45 帧每秒。 使用全图作为 Context 信息,背景错误(把背景错认为物体)比较少。 泛化能力强。..转载 2020-09-23 19:51:27 · 153 阅读 · 0 评论 -
ROI Align的基本原理及rpn与rcnn head锚框标签制作
在谈到faster rcnn时,很多细节还有待深究,一直想好好看看其源码,并整理出来,好像还挺遥遥无期,留待以后吧。现在主要针对三处比较模糊的地方进行分析。一、ROI Align的基本原理讲到Align有必要谈一下双线性插值的原理。数字图像中实现缩放的方法有很多种,其中一种就是双线性插值,在实现图像缩放时,有两种方法来确定缩放后的图像的像素值,第一种是根据原图像中的的像素找到对应的缩放后的图像中的像素,第二种是根据缩放后的图像找到对应的原图像中的像素,如下图但是第一种方法有缺点,因为转载 2020-07-31 09:19:54 · 932 阅读 · 0 评论 -
Detection物体检测及分类方法总结(RFCN/SSD/RCNN/FastRCNN/FasterRCNN/SPPNet/DPM/OverFeat/YOLO)
这里搜集了一些关于物体检测的方法分析和介绍,看好哪个可以去详细研究一下,基本都有论文或代码的链接。这里是简述各种方法,下面有详细叙述方法选择:========DPM=========使用传统的slider window的方法 计算量非常大========OverFeat====改进了Alex-net,并用图像缩放和滑窗方法在test数据集上测试网络;提出了一种图像定位的方法;最后通过一个卷积网络来...转载 2018-05-12 17:11:38 · 1110 阅读 · 0 评论