
计算机视觉
计算式视觉相关
专注于计算机视觉的AndyJiang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
目标检测之anchor_based和anchor_free优缺点
anchor based优点使用anchor机制产生密集的anchor box,使得网络可直接在此基础上进行目标分类及边界框坐标回归。加入先验,训练稳定密集的anchor box可有效提高网络目标召回能力,对于小目标检测来说提升非常明显。缺点anchor机制中,需要设定的超参:尺度(scale)和长宽比( aspect ratio) 是比较难设计的。这需要较强的先验知识。冗余框非常之多:一张图像内的目标毕竟是有限的,基于每个anchor设定大量anchor box会产生大量的easy-sa原创 2020-09-19 20:40:35 · 10394 阅读 · 7 评论 -
目标检测之单阶段和两阶段检测算法的对比
双阶段精度高但速度慢,单精度速度快但精度稍逊。双阶段目标检测器采用了两段结构采样来处理类别不均衡的问题,rpn使正负样本更加均衡使用了两阶段级联的方式来拟合bbox,先粗回归,再精调。One stage detector 的一个通病就是既要做定位又要做classification。最后几层1x1 conv layer 的loss 混在一起,并没有什么专门做detection 或者专门做bbox regression的参数,那每个参数的学习难度就大一点。Two stage detector 的第一个s原创 2020-09-19 20:39:21 · 30083 阅读 · 0 评论 -
目标检测之RCNN,Fast RCNN,Faster RCNN
R-CNNRich feature hierarchies for accurate object detection and semantic segmentation-CVPR2014训练过程准备region proposal。对于训练集中的所有图像,采用selective search方式来获取,最后每个图像得到2000个region proposal。准备正负样本。如果某个region proposal和当前图像上的所有ground truth中重叠面积最大的那个的IOU大于等于0.5原创 2020-09-18 17:06:02 · 483 阅读 · 0 评论 -
目标检测之MAP计算方式
precision表示某一类样本预测有多准。 Recall表示某一类样本,预测正确的与所有Ground Truth的比例。 Recall和Precision一样,脱离类别是没有意义的。说道这两个指标,一定指的是某个类别的。以Recall为横轴,Precision为纵轴,就可以画出一条PR曲线,PR曲线下的面积就定义为AP。所有类别的平均即为MAPimport numpy as npdef voc_ap(rec, prec, use_07_metric=False): """ a原创 2020-09-16 20:20:22 · 595 阅读 · 0 评论 -
目标检测实例分割之mask rcnn
本文参考以下链接,如有侵权,联系删除参考Mask RCNN-ICCV2017概要Mask R-CNN是ICCV2017的best paper,在一个网络中同时做目标检测(object detection)和实例分割(instance segmentation)。该算法在单GPU上的运行速度差不多是5 fps,并且在COCO数据集的三个挑战赛:instance segmentation、bounding-box object detecton、person keypoint detection中的效果原创 2020-09-09 16:10:51 · 1431 阅读 · 0 评论 -
损失函数之center loss
A Discriminative Feature Learning Approach for Deep Face Recognition-ECCV2016概要对于常见的图像分类问题,我们常常用softmax loss来求损失,最后各个类别学出来的特征分布大概如下图Fig2。这个图是以MNISTt数据集做的实验,一共10个类别,用不同的颜色表示。从Fig2可以看出不管是训练数据集还是测试数据集,都能看出比较清晰的类别界限。如果你是采用softmax loss加上本文提出的center loss的损失,原创 2020-09-09 15:16:46 · 2070 阅读 · 0 评论 -
目标检测之YOLT(you only look twice)
本文参考以下链接,如有侵权,联系删除参考You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery-2018概要这篇文章是做卫星图的目标检测,在YOLO v2算法基础上做了改进得到YOLT(You Only Look Twice)算法,因为卫星图的目标检测和常见的目标检测场景最大的区别在于卫星图像本身尺寸很大(比如16000*16000),其次目标尺寸非常小而且常常聚集在一起。因此YOLT算法整体上是解决卫原创 2020-09-09 14:45:51 · 1846 阅读 · 0 评论 -
目标检测之FPN(feature pyramid networks)
本文参考以下链接,如有侵权,联系删除参考feature pyramid networks for object detection-2017概述原来多数的object detection算法都是只采用顶层特征做预测,但我们知道低层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略。另外虽然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做预测,而本文不一样的地方在于预测是在不同特征层独立进行的。motivation(a)图像金字塔,即将图像原创 2020-09-09 10:49:57 · 366 阅读 · 0 评论 -
目标检测之IOU系列
Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression-AAAI 2020IOU lossIoU是目标检测里面很重要的一个指标,通过预测的框和GT间的交集与并集的比例进行计算,经常用于评价bbox的优劣 。但一般对bbox的精调都采用L2范数,而一些研究表明这不是最优化IoU的方法,因此出现了IoU lossIoU loss直接通过IoU计算梯度进行回归,论文提到IoU loss的无法避免的缺点:当两个bo原创 2020-09-08 10:28:13 · 1378 阅读 · 0 评论 -
目标检测之Deformable Convolutional Networks
本文参考以下链接,如果侵权,联系删除参考Deformable Convolutional Networks-ICCV2017原创 2020-08-19 15:16:17 · 875 阅读 · 1 评论 -
目标检测之ATSS算法anchor-free和anchor-based的差异
本文参考以下链接,如有侵权,联系删除参考Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection -CVPR 2020概要anchor-free算法:CornerNet-2018,FCOS-2019,CenterNet-2019ATSS(Adaptive Training Sample Selection)主要就是研究anchor-free和anch原创 2020-08-17 16:57:09 · 1197 阅读 · 0 评论 -
图像分类之优化trick
本文参考以下链接,如有侵权,联系删除参考链接Bag of Tricks for Image Classification with Convolutional Neural Networks-CVPR2018概要论文复现对很多人而言难度都比较大,因为常常涉及很多细节,部分细节对于模型效果影响很大,但是却很少有文章介绍这些细节.这篇文章是亚马逊科学家介绍CNN网络调优的细节,许多实验是在图像分类算法做的,比如ResNet,作者不仅复现出原论文的结果,在许多网络结构上甚至超出原论文的效果,而且对于目标检原创 2020-08-14 10:49:05 · 979 阅读 · 0 评论 -
目标检测之优化trick
本文参考以下链接,如有侵权,联系删除参考链接Bag of Freebies for Training Object Detection Neural Networks-CVPR2019概要这篇介绍的优化技巧具体而言包括mixup、label smoothing、学习率修改策略的选择、跨卡BN层计算和随机尺度训练。mixupmixup是指将2张输入图像按照一定权重合并成一张图像,基于这种合成图像进行训练的模型更加鲁棒,能够有效降低对抗图像的影响。如图Figure2是在分类算法中使用mixup的例子原创 2020-08-13 21:25:26 · 952 阅读 · 0 评论 -
目标检测之EfficientNet
论文:EfficientNet: Rethinking Model Scaling for Convolutional Neural NetworksEfficientNet: Rethinking Model Scaling for Convolutional Neural Networks-ICML 2019概要这篇ICML2019的论文对目前分类网络的优化提出更加泛化的思想,认为目前常用的加宽网络、加深网络和增加分辨率这3种常用的提升网络指标的方式之间不应该是相互独立的。因此提出了compoun原创 2020-08-13 20:49:53 · 1752 阅读 · 1 评论 -
目标检测之小目标检测和遮挡问题
小目标检测trick小目标难检测原因小目标在原图中尺寸比较小,通用目标检测模型中,一般的基础骨干神经网络(VGG系列和Resnet系列)都有几次下采样处理:导致小目标在特征图的尺寸基本上只有个位数的像素大小,导致设计的目标检测分类器对小目标的分类效果差。如果分类和回归操作在经过几层下采样处理的 特征层进行,小目标特征的感受野映射回原图将可能大于小目标在原图的尺寸,造成检测效果差。小目标在原图中的数量较少,检测器提取的特征较少,导致小目标的检测效果差。神经网络在学习中被大目标主导,小目标在整个原创 2020-08-11 20:07:06 · 23259 阅读 · 1 评论 -
生成模型之变分自编码器VAE
参考知乎分布变换通常我们会拿 VAE 跟 GAN 比较,的确,它们两个的目标基本是一致的——希望构建一个从隐变量 Z 生成目标数据 X 的模型,但是实现上有所不同。更准确地讲,它们是假设了服从某些常见的分布(比如正态分布或均匀分布),然后希望训练一个模型 X=g(Z),这个模型能够将原来的概率分布映射到训练集的概率分布,也就是说,它们的目的都是进行分布之间的变换。生成模型的难题就是判断生成分布与真实分布的相似度,因为我们只知道两者的采样结果,不知道它们的分布表达式。我们怎么判断这个通过 f 构造原创 2020-07-24 10:28:01 · 725 阅读 · 0 评论 -
目标检测之TridenNet
Scale-Aware Trident Networks for Object DetectionTridenNet (ICCV2019)motivation图像金字塔和特征金字塔本质上都是希望不同尺度的目标有不同的感受野,这样提取到的特征才比较全面,因此TridentNet算法从感受野入手,通过引入空洞卷积增加网络的感受野,从而实现不同尺度目标的检测那么感受野和检测效果之间到底存在什么关系?作者做了一个关于感受野和检测效果之间的联系的对比实验,实验结果如Table1所示。这个实验通过修改Faste原创 2020-08-10 14:18:57 · 434 阅读 · 0 评论 -
目标检测之CenterNet
Objects as PointsCenterNet (CVPR2019)概要这篇CenterNet算法也是anchor-free类型的目标检测算法,基于点的思想和CornerNet(参考博客:CornerNet笔记)是相似的,方法上做了较大的调整,整体上给人一种非常清爽的感觉,算法思想很朴素、直接,而且重点是在效果和效率之间能取得很好的平衡,提供的几个模型基本上能满足大部分人对效果和效率的需求.CenterNet和CornerNet的对比预测目标的中心点CenterNet,从算法名也可以看出原创 2020-08-10 10:47:05 · 5589 阅读 · 0 评论 -
目标检测之FCOS
FCOS: Fully Convolutional One-Stage Object DetectionFCOS (CVPR2019)创新点去掉了anchor做检测,也就是常说去掉了anchor做检测,也就是常说anchor free,这是最近一段时间目标检测领域比较活跃的方向,比如ECCV2018上的CornerNet为什么要去掉anchoranhcor的引入对目标检测算法的效果提升帮助很大,这也是为什么最近几年流行的目标检测算法基本上都是基于anchor来预测目标框位置的。但是显然anchor原创 2020-08-10 10:46:11 · 1940 阅读 · 0 评论 -
目标检测之CornerNet
CornerNet (ECCV2018)CornerNet: Detecting Objects as Paired Keypoints创新点1、将目标检测问题当作关键点检测问题来解决,也就是通过检测目标框的左上角和右下角两个关键点得到预测框,因此CornerNet算法中没有anchor的概念,这种做法在目标检测领域是比较创新的而且能够取得不错效果是很难的。2、整个检测网络的训练是从头开始的,并不基于预训练的分类模型,这使得用户能够自由设计特征提取网络,不用受预训练模型的限制。目前大部分常用的目原创 2020-08-10 09:06:43 · 784 阅读 · 0 评论 -
语义分割之FCN 全卷积网络
参考FCN-2015语义分割介绍语义分割(Semantic Segmentation)的目的是对图像中每一个像素点进行分类,与普通的分类任务只输出某个类别不同,语义分割任务输出是与输入图像大小相同的图像,输出图像的每个像素对应了输入图像每个像素的类别。FCN 全卷积网络网络结构FCN 的基本结构很简单,就是全部由卷积层组成的网络。用于图像分类的网络一般结构是"卷积-池化-卷积-池化-全连接",其中卷积和全连接层是有参数的,池化则没有参数。论文作者认为全连接层让目标的位置信息消失了,只保留了语义信息原创 2020-07-27 11:01:52 · 388 阅读 · 0 评论 -
语义分割之经典网络Unet
UNET网络结构如上图,Unet 网络结构是对称的,形似英文字母 U 所以被称为 Unet。整张图都是由蓝/白色框与各种颜色的箭头组成,其中,蓝/白色框表示 feature map;蓝色箭头表示 3x3 卷积,用于特征提取;灰色箭头表示 skip-connection,用于特征融合;红色箭头表示池化 pooling,用于降低维度;绿色箭头表示上采样 upsample,用于恢复维度;青色箭头表示 1x1 卷积,用于输出结果。Encoder 由卷积操作和下采样操作组成,文中所用的卷积结构统一为 3x3原创 2020-07-27 10:01:06 · 1581 阅读 · 0 评论 -
目标检测之Yolov4
从2018年Yolov3年提出的两年后,在原作者声名放弃更新Yolo算法后,俄罗斯的Alexey大神扛起了Yolov4的大旗。(2020年提出)Yolov4: Optimal Speed and Accuracy of Object Detection参考链接YOLOV 3 回顾Yolov3是2018年发明提出的,这成为了目标检测one-stage中非常经典的算法,包含Darknet-53网络结构、anchor锚框、FPN等非常优秀的结构。网络结构可视化基本组件上图三个蓝色方框内表示Yolo原创 2020-07-26 12:48:31 · 11725 阅读 · 1 评论 -
目标检测之详解yolov3的anchor、置信度和类别概率
参考1参考2参考3提要yolov3 在网络最后的输出中,对于每个grid cell产生3个bounding box,每个bounding box的输出有三类参数:一个是对象的box参数,一共是四个值,即box的中心点坐标(x,y)和box的宽和高(w,h);一个是置信度,这是个区间在[0,1]之间的值;最后一个是一组条件类别概率,都是区间在[0,1]之间的值,代表概率。假如一个图片被分割成 SxS 个grid cell,我们有B个anchor box,也就是说每个grid cell有B个原创 2020-07-25 20:20:38 · 19149 阅读 · 11 评论 -
目标检测之YOLOV 3论文阅读笔记
提出时间:2018年,a tech report网络结构如下backbone-Feature Extractordarknet53Bounding Box PredictionClass Predictionmultilabel classification use independent logistic classifiersPredictions Across Scales每一个尺度都有,共三个尺度,每一个尺度3个bounding boxes.N × N × [3 ∗ (4 +原创 2020-07-25 20:21:01 · 188 阅读 · 0 评论 -
目标检测之One-Stage经典算法
SSD-2016创新点:基于Faster R-CNN中的Anchor,提出了相似的先验框(Prior box)从不同比例的特征图(多尺度特征)中产生不同比例的预测,并明确地按长宽比分离预测。SSD使用VGG16网络作为特征提取器(和Faster R-CNN中的CNN一样),将后面的全连接层替换成卷积层,并在之后添加自定义的卷积层,并在最后直接采用卷积进行检测。在多个特征图上设置不同缩放比例和不同宽高比的先验框以融合多尺度特征图进行检测,靠前的大尺度特征图可以捕捉到小物体的信息,而靠后的小尺度特征图原创 2020-07-25 20:19:54 · 1589 阅读 · 0 评论 -
目标检测之YOLO系列-V1至V3详解
YOLOv1(You only look once:Unified,Real-Time Object Dection)特点它将目标检测任务当作是一个回归任务处理,这个回归任务包括在空间上独立的两部分:定位框和对应的类别概率; 它不像R-CNN那样先用卷积神经网络在建议区域提取特征,然后再用SVM做分类之后进一步提炼bounding boxes,而是整个过程都在一个完整的神经网络中完成。YOLOv1容易出现定位错误,但是它能够很好地区分前景和背景,同时它提取特征的能力很强优点1.YOLO执行速度很快(原创 2020-07-25 20:19:31 · 2457 阅读 · 0 评论 -
目标检测之Yolov3 darknet训练自己的数据集
1配置darknet环境参考官网 darknetgit clone https://github.com/pjreddie/darknetcd darknet更改Makefile, 令GPU=1,CUDNN=1,OPENCV=1ARCH= -gencode arch=compute_30,code=sm_30 \ -gencode arch=compute_35,code=sm_35 \ -gencode arch=compute_50,code=[sm_50,com原创 2020-06-13 19:36:23 · 598 阅读 · 0 评论 -
目标检测之Faster RCNN详解
Faster RCNN其实可以分为4个主要内容:Conv layers。作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于positive或者negative,再利用bounding box reg.原创 2020-06-05 15:34:23 · 736 阅读 · 0 评论 -
目标检测之ROI Pooling和ROI Align
ROI Pooling和ROI AlignROI Pooling这两个都是用在rpn之后的。具体来说,从feature map上经过RPN得到一系列的proposals,大概2k个,这些bbox大小不等,如何将这些bbox的特征进行统一表示就变成了一个问题。即需要找一个办法从大小不等的框中提取特征使输出结果是等长的 。假如现在有一个8x8的feature map,现在希望得到2x2的输出...原创 2020-05-08 13:28:54 · 669 阅读 · 0 评论 -
目标检测之nms和Soft-nms
nms和Soft-nmsNMS算法的大致思想:对于有重叠的候选框:若大于规定阈值(某一提前设定的置信度)则删除,低于阈值的保留。对于无重叠的候选框:都保留。所谓非极大值抑制:先假设有6个输出的矩形框(即proposal_clip_box),根据分类器类别分类概率做排序,从小到大分别属于车辆的概率(scores)分别为A、B、C、D、E、F。(1)从最大概率矩形框F开始,分别判断A~E与F的重...原创 2020-05-08 12:12:06 · 433 阅读 · 0 评论