
CV大白菜
文章平均质量分 73
CV大白菜
这个作者很懒,什么都没留下…
展开
-
Gradient Harmonized Single-stage Detector
AAAI 2019Gradient Harmonized Single-stage Detector本篇论文用于解决检测中正负样本不均衡的问题,其实这里可以拓展到很多类似的问题中。论文提出了 gradient harmonizing mechanism(GHM) 的思想,这种思想既可以用于分类,也可以用于检测框的回归。之前的Focal loss使得梯度集中于分类概率小的难样本,所以梯度分布就...原创 2019-09-05 17:26:47 · 418 阅读 · 0 评论 -
如果解决长尾数据(样本不均衡)
最近突然高产,苦逼的秋招开始了,哭哭有几种已经常用的方法:过采样和重采样每个Batch对每类样本设置比例,保证在一个Batch里是相对均衡的以上这些的缺点很明显:对于大样本采样过少,会导致某张图片只训练了一次,这样使得大样本训练不好,导致整体的正确率都会下降,并且小样本会过拟合。focal loss(多用于检测中二分类,不是严格意义上的长尾数据)这里介绍一下focal loss,...原创 2019-06-26 20:20:14 · 16541 阅读 · 2 评论 -
激活函数总结:Relu及其变体
Relu会导致神经元死亡,输出值具有偏移现象(输出均值恒大于零),偏移现象和神经元死亡会影响网络的收敛性。他的另一个性质的提供神经网络的稀疏表达能力。PRelu:其负半轴斜率可被学习 ,原文献建议初始化alphaalphaalpha为0.25,不采用正则,但是这要根据具体数据和网络,通常情况下使用正则可以带来性能提升。与Relu比起来,PRelu收敛速度更快,因为其输出均值更接近0,使SGD...原创 2019-06-26 11:47:08 · 1457 阅读 · 0 评论 -
为什么神经网络中的参数不能设为一样的,那要怎么设置呢
话不多说了直接放链接吧,我自己也没有链接说得好。为什么参数不能设为一样的:因为每次更新,每层的参数都会是一样的参数设置实验参数如何设置:加了BN层之后其实对输入分布有了约束,大大减少了参数初始化造成的影响,所以一般取均值为0,标准差为0.01的随机初始化方式或者,小方差的高斯分布。...原创 2019-06-25 18:33:53 · 877 阅读 · 0 评论 -
Retinanet
这个论文的核心就是解决了样本不平衡问题,是focal loss的变体放上一个大佬的博客:优快云首先我们来说说为什么one stage的检测效果差于two stage。首先two stage对于bbox有个筛选过程,这个筛选会筛除大部分的背景bbox,剩下的bbox会进行regression对于这些筛出来的bbox会进行二次regression由第一条就可以看出,two stage在...原创 2019-06-04 14:53:26 · 240 阅读 · 0 评论 -
SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks
这篇文章借鉴了SEnet,然后做了结构的改动。作者提到,一个完整的feature是由许多sub feature组成的,并且这些sub feature会以group的形式分布在每一层的feature里,但是这些子特征会经由相同方式处理,且都会有背景噪声影响。这样会导致错误的识别和定位结果。所以作者提出了SGE模块,它通过在在每个group里生成attention factor,这样就能得到每个su...原创 2019-06-07 19:06:14 · 4110 阅读 · 5 评论 -
Stacked Hourglass Networks
终于跳进人体姿态估计的坑了,本篇文章来源于ECCV2016。论文链接它的亮点是通过反复上采样和下采样,不断地融合空间信息,这样就可以把各个关键点的信息连贯地融合到一起,最后输出基于像素点的预测,它是一个singel pipeline,其中feature map最小的是4 * 4。它的设计如图3:经由卷积层和max pooling层将feature map降至较低的分辨率,在Max pool...原创 2019-06-12 19:30:12 · 1063 阅读 · 0 评论 -
Non-local Neural Networks
论文链接:论文一位大佬的博客:博客一般深度学习的各种操作都是local的,比如CNN,conv都是局部感受野,但其实全局的信息对于图像的任务更有价值,比如短视频分类任务等等,目前全局信息的使用就是FC,但是这会带来大量的参数。这篇文章提出了一个nonlocal的操作,他把position当成了一个权重,这里的position可以指空间,时间,或者时空关系,计算全局的关联性。eg视频中第一帧的A...原创 2019-05-23 15:54:56 · 5373 阅读 · 0 评论 -
SKNET
之前有聊过SENet,这里附上论文链接这里附上一个知乎链接,说的非常棒:SKnet他可以很方便的嵌入到现在的网络结构中去,实现精度的提升。首选介绍一下他的思想。在神经网络中,每一层的感受野都是一样大小的,但是在人的视觉中,物体大小不同,感受野的大小会变化。那我们提出一个动态选择机制也可以认为是Soft attention,在CNNs中,允许每一个神经元根据输入信息的多尺度自适应调整其接受域...原创 2019-05-12 18:02:26 · 2021 阅读 · 0 评论 -
Snapshot Distillation: Teacher-Student Optimization in One Generation
又来营业啦,这段时间应该更新的都是蒸馏论文链接他提出了快照蒸馏(snapshot distillation)。我们从早期样本遍历后的模型 (教师模型) 提取有用信息对后期遍历中的模型 (学生模型) 进行监督训练。与此同时,该方法保证教师和学生模型的神经网络差异性,来防止欠拟合问题的发生。在实际训练中,我们用余弦函数学习率,用每一轮最后的快照作为teacher,来训练下一轮的student,这样...原创 2019-07-02 16:32:58 · 1251 阅读 · 0 评论 -
Knowledge Transfer via Distillation of Activation Boundaries Formed by Hidden Neurons
论文链接这篇论文的核心思想非常简单,他认为不能只是用神经元的激活值来做蒸馏约束,而应该使用神经元的激活区域做约束,故在网络最后输出的feature map上做了一个约束的损失函数,这里的损失函数比较复杂,详情可以看论文,但是可以尝试用L2 loss替换,如果feature map size对不上的话,可以使用conv 1x1来对齐,但我认为如果feature map size相差较大的话,其实对...原创 2019-07-10 14:48:54 · 1231 阅读 · 0 评论 -
Robust Classification with Convolutional Prototype Learning
2018 CVPRURL:http://openaccess.thecvf.com/content_cvpr_2018/papers/Yang_Robust_Classification_With_CVPR_2018_paper.pdf在图像分类方面,虽然现在正确率很高,CNN也会被很相似的图片欺骗,所以说明网络的鲁棒性还不够。这篇文章讨论了由于softmax层所以缺乏了鲁棒性。为了提高鲁棒性...原创 2019-09-02 18:18:32 · 2458 阅读 · 1 评论 -
Towards Faster Training of Global Covariance Pooling Networks by Iterative Matrix Square Root Normal
Towards Faster Training of Global Covariance Pooling Networks by IterativeMatrix Square Root NormalizationgithubICCV2017Is Second-order Information Helpful for Large-scale Visual Recognition的进阶版。在1...原创 2019-08-13 20:32:50 · 1274 阅读 · 0 评论 -
Is Second-order Information Helpful for Large-scale Visual Recognition?
Is Second-order Information Helpful for Large-scale Visual Recognition?这篇文章指出,目前state of art都在探寻又深又宽的网络结构,鲜少探究feature分布的信息,对feature做pooling等等只是对于一阶信息的处理,它往往快速有效,但对于所有情况并不适用。比如我们的有些选择需要方差小的样本,但是一阶信息并不...原创 2019-08-13 15:47:58 · 1562 阅读 · 0 评论 -
Pairwise Confusion for Fine-Grained Visual Classification
今年秋招CV坑位很少的样子,哭哭又是篇细粒度啦上链接:Pairwise Confusion for Fine-Grained Visual Classification这篇论文的核心在于,降低对于细粒度的过拟合,添加了confuse loss(emmm。。。其实就是L2)...原创 2019-08-01 16:41:45 · 1321 阅读 · 2 评论 -
centor loss
centor loss详解以及梯度更新方式,我自己写的也不如大佬们的总结,就不开贴来,直接放链接知乎专栏csdn原创 2019-07-22 11:28:29 · 273 阅读 · 0 评论 -
几个reid的链接
一个强力的ReID basemodel一个更加强力的ReID Baseline此外,欢迎关注旷视VIDEO组知乎专栏原创 2019-07-15 19:14:31 · 340 阅读 · 0 评论 -
Looking for the Devil in the Details: Learning Trilinear Attention Sampling Network for Fine-grained
细粒度又要开张啦url:https://arxiv.org/pdf/1903.06150.pdf首先个人拙见,评估一下这篇论文。这篇论文将模型分成了三个部分,第一部分为三线性attention,旨在self attention,定位细节,第二部分为attention sample,这里根据attention对input进行采样,可以放大attention权重高的部分,提取细节。第三部分是di...原创 2019-07-15 12:44:13 · 3650 阅读 · 3 评论 -
Multi-Attention Multi-Class Constraint for Fine-grained Image Recognition
又回到了细粒度分类的工作,这一类工作的重点都在于attention。菜是真的菜,同事们说话都瑟瑟发抖不敢发言,菜就是原罪,哭唧唧。论文链接搜了一圈好像没有代码,主要他的损失函数复现起来比较麻烦,自己写的话有点费劲他的另一大贡献是提供了dog in wild数据,他的质量和标注都非常优秀。主体部分18年的ECCV,之前的细粒度都是多阶段或者多尺度,不是end to end,这篇文章提出了...原创 2019-07-10 17:38:12 · 1714 阅读 · 0 评论 -
Mobilenet-v2
接上一篇Mobilenet-v1,这篇论文写的比较晦涩,直接读比较费劲。这里链接一篇比较好的博客,本篇中也涉及篇幅比较多的引用。Preliminaries, discussion and intuitionDepthwise Separable Convolutions见Mobilenet-v1描述Linear Bottlenecks这里Relu用的Relu6,ReLU6 就是普通的R...原创 2019-05-12 17:01:06 · 316 阅读 · 0 评论 -
mobilenet-v1
论文地址:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications这是第一版的mobilenet,它是一个轻量级的网络,既可以保证accurate掉点不严重,又可以保证高速,是可以在CPU上或者其他嵌入式设备上实施运行的模型。这篇论文引入了两个全局超参数来权衡时延和accurate。常规...原创 2019-05-12 14:55:17 · 382 阅读 · 0 评论 -
AI City challenge2018冠军论文阅读
原文:论文代码:github这个队伍的想法很创新,首先他对于SCT,没有采用深度学习提取特征的这种方法,而是偏向使用图像图形学的知识,而且对于mtmc的处理,大部分论文使用了聚类的办法,但是它采用了计算非训练的方法,经由reid之后,去一一匹配。下面说一下他的创新点:首先进行相机校准。为什么要进行相机校准呢:在多镜头多目标的追踪下,需要利用不同镜头下的物体视觉信息,减少被遮挡区域,并且提供...原创 2019-04-15 11:28:31 · 1089 阅读 · 5 评论 -
SSD简述
SSD也是one stage的检测。one stage的特点是:均匀的在图片的不同位置进行密集抽样,抽样采用不同的尺寸和长宽比,然后利用CNN提取特征之后,直接进行回归和分类。整个过程只有一步。它的优势是速度快,但是密集采样会导致正负样本(前景和背景)及其不均衡,使得模型准确度较低。下面来看看two stage和one stage在mAP和speed上的差异。SSD采用CNN直接进行检测。不像...原创 2018-12-10 17:10:54 · 1371 阅读 · 0 评论 -
faster rcnn中的一些细节问题
RPN网络首先经过一个3 ∗*∗ 3的卷积层,然后兵分两路:foreground anchorsbounding box regression偏移量可以看到RPN网络实际分为2条线,上面一条通过softmax分类anchors获得foreground和background(检测目标是foreground),下面一条用于计算对于anchors的bounding box regressio...原创 2018-12-09 21:50:41 · 1874 阅读 · 1 评论 -
CNN基础知识
字节跳动的面试题就涉及了这方面内容,突然发现这些方面其实自己很欠缺CNN在图像分类上有什么优势对于比较相似的图片来说,分类的特征不能很好地提高。所以瓶颈在于特征的选择上。CNN可以自动提取特征,减少计算量。为什么使用卷积层在生物上说,人的视觉系统的信息处理是分级的。从低级的V1去提取边缘特征,V2区提取形状或者目标,再到更高层,整个目标,目标的行为,也就是说高层的特征是底层特征的组合,从底...原创 2018-12-19 15:46:11 · 1261 阅读 · 1 评论 -
YOLOv3训练
训练教程官网:YOLO官网一通操作之后,发现没有loss和IOU的可视化,非常不方便,所以又找到了可视化的教程:loss等可视化在这里说一下cfg中一些参数的意义:mask的意义:每一层都要知道所有的anchor boxes,但是每一层的预测是其中的子集,这里的mask是告诉每一层他们负责预测的anchor box是哪些。在这张截图里,它负责预测的是最大的三个anchor box。如果没...原创 2018-12-05 17:15:32 · 430 阅读 · 0 评论 -
Softmax和交叉熵损失函数反向传播推导
当softmax作为中间层的激活函数时,会导致小数相乘,使得效果很不好,所以softmax一般和交叉熵损失函数一起使用,放在最后一层。原创 2018-11-27 18:14:11 · 2051 阅读 · 0 评论 -
yolov3
首先品一品yolov3的速度yolov3做了哪些改进呢,我们首先来看论文。Bounding Box Prediction在yolov2里,使用1−IOU1-IOU1−IOU聚类的方式来预测anchor的边界框。每个bbox有四个预测量(tx,ty,tw,th)每个cell左上角的坐标为(cx,cy),每个bbox的宽度和高度为(pw,ph)。预测值和它们的关系为:在训练时,(tx,...原创 2018-12-04 20:00:44 · 392 阅读 · 0 评论 -
C3D的视频分类
很久之前做了C3D的视频分类,现在详细把整个项目的细节描述一下。首先介绍一下C3D:对于一段视频来说,它是连续的帧图像叠加起来的,所以可以考虑在生成通道图像的时候,把多帧图像叠加的特性讨论进去。一个视频段输入,其大小为 c∗l∗h∗w ,其中c为图像通道(一般为3),l为视频序列的长度,h和w分别为视频的宽与高。进行一次kernel size为3∗3∗3,stride为1,padding=Tr...原创 2018-11-26 16:56:39 · 6691 阅读 · 10 评论 -
CV面试题汇总以及相关解答
最近要找实习了,先开个贴,会慢慢把常见的面试题汇总,然后再自己写一下答案。祝大家都能拿到心仪的offer原创 2018-11-16 11:51:33 · 4254 阅读 · 1 评论 -
L1和L2正则化
L1使矩阵更稀疏,L2使矩阵忽略对结果影响较小的特征值L1L1 regularization 时,只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值,x = 0 就会变成一个极小值点。原因是我们可以对0两边进行求导分别得到f’(0) - C和f‘(0) + C,如果C > f’(0),那么左右两边就会异号,这样的话,0就成了极小值点了。L2...原创 2018-12-29 15:51:24 · 448 阅读 · 0 评论 -
Rethinking ImageNet Pre-training 论文解读
随机初始化参数的模型其训练结果不比预训练模型差(使用了合适的normalization),唯一的不同是增加了训练迭代次数。随机初始化训练具有很好的鲁棒性,甚至在以下情况仍然成立:仅适用10%训练数据用于更深和更宽的模型用于多任务和多指标结论随机初始化的模型在训练一段时间后就要赶上预训练模型,其时间=预训练模型训练时间+微调时间。预训练模型不能提供更好的正则化,当训练数据较少时,发现...原创 2019-01-15 22:14:53 · 309 阅读 · 0 评论 -
SENet
论文地址:SENetsenet:它学习了channel之间的相关性,筛选出了哪些channel的feature作用更大,哪些channel的feature作用更小。它稍稍增加了模型的计算量,但是提点明显。它首先对图片进行卷积运算,然后对于feature map进行global average pooling(squeeze),把它变成11C的向量,然后通过两层FC(excitation),乘...原创 2019-04-22 11:41:17 · 3921 阅读 · 0 评论 -
目标追踪(一):siamese-fc
这是2016CVPR收录的在此之前,目标追踪一般都是online的,在这里引入了深度学习offline的训练,他提出了一种思想:similarity learning他有三大contribution:首先在速度上可以实现实时检测通过一个范本来定位想要的被追踪物体(detection物体为卷积核,卷积下一帧的feature map)使用了全卷积网络他的 缺点:如果物体size变化...原创 2019-04-15 20:34:26 · 1997 阅读 · 0 评论 -
图像分类任务的trick总结
针对图像分类,提升准确率的方法有两个:1.修改模型;2.各种数据处理和训练的技巧图像分类中的技巧对于目标检测,图像分割也有很好的作用Warmupwarm up是resnet论文中提到的一种学习率预热的方法。由于刚开始训练模型的权重是随机初始化的,这里权重不能全部置为零,置为零的话,网络中的每个神经元都计算相同的输出,那么它们在反向传播时也会计算相同的梯度,并经历完全相同的参数更新。如果随机初...原创 2019-04-01 22:16:55 · 2727 阅读 · 0 评论 -
高斯回归过程
最近在整目标跟踪,AI city challenge有关于冠军的论文,他的思路:相机校准+自底而上的聚类,聚类可以把一个个目标检测到的tracklet连成一个长轨迹。聚类使用loss是众多loss的和:轨道平滑+速度改变+相邻tracklet的时间间隔+appearance改变附上论文连接:AI City challenge2018冠军论文其中轨道平滑采取的是高斯回归,已知上一帧检测物体的坐标...原创 2019-04-10 18:59:00 · 406 阅读 · 0 评论 -
S3FD
SSD也可用于目标检测,但是对于小物体检测存在局限性,愿意在于feature map提取的语义没有深层语义。他有6个采样层:conv4_3,conv7_2,conv8_2,conv9_2,conv10_2,conv11_2(1 * 1 * 1024+3 * 3 * channel-stride降采样)最后SSD300一共可以预测38×38×4+19×19×6+10×10×6+5×5×6+3×3×4...原创 2019-03-18 23:02:44 · 489 阅读 · 0 评论 -
FPN总结
经典的two stage检测网络有:faster RCNN和SSD,它们用于做bbox regression的模型各有不同,faster RCNN是VGG,feature map经过不断地下采样,最后的feature map送入RPN层,这样不断地下采样使得小检测框的像素非常小,无法进行训练的到,得到很好的结果。而SSD则是分别对不同尺寸的feature map进行bbox regression,...原创 2019-03-07 17:32:36 · 1475 阅读 · 0 评论 -
我的CV实习工作总结
两个月不到的实习,总结一下。洗数据的大路走到了黑我负责的模块是人脸检测,人脸检测的最终目的,是可以实现视频中人脸实时的关键点检测。对于检测的recall,precision,检测框是否切脸,检测速度都有要求。需要解决的问题是:无法检测出靠近镜头的大脸图片,易对背景产生误检解决办法:最好的解决办法就是给高质量的数据集(很无奈哦)然后开始洗数据方法:首先调用了百度API,这里写了一个调...原创 2019-02-27 15:21:24 · 981 阅读 · 0 评论 -
YOLO以及YOLOv2综述以及对比
YOLO及YOLOv2综述最近在阅读yolo系列的文章,以下将对yolo以及yolov2做个综述YOLOYOLO核心思想:从R-CNN到Fast R-CNN一直采用的思路是***proposal+分类*** (proposal 提供位置信息, 分类提供类别信息)精度已经很高,但是速度还不行。 YOLO提供了另一种更为直接的思路: 直接在输出层回归bounding box的位置和boundin...原创 2018-11-13 15:31:59 · 2505 阅读 · 0 评论