
深度学习
hzhj
写作不只为了传播,更重要的是思考和学习。
展开
-
训练gallery
yolov5训练自定义数据集:https://github.com/ultralytics/yolov5/wiki/Train-Custom-Data原创 2022-04-09 08:43:12 · 178 阅读 · 0 评论 -
数据增强——非像素维度
图片来自这里图片遮挡原图处理 random-erase和cutout gridmask Random erase和CutOut方法类似,随机选择矩形区域,前者是随机填充矩形区域的像素值,后者是填充0值,代码见这里; Hide-and-seek和Grid mask方法类似,前者是随机采样矩形区域,后者是均匀采样矩形区域,均填充0像素值;特征图处理该部分更多的属于网络的正则化方法,yoloV4中将其归结为数据增...原创 2020-07-05 18:36:21 · 1033 阅读 · 0 评论 -
数据增强——像素维度的改变
传统的数据增强方法主要针对像素信息进行处理,主要从光度畸变和几何畸变两方面进行处理。光度畸变:颜色空间、图片亮度、对比度、色调、饱和度、噪声等; 几何畸变:尺度缩放、裁剪、翻转、旋转等。func keras ImageDataGenerator 类 对应的tf处理函数tf.keras.preprocessing.image.ImageDataGenerator 参考文献:yoloV4 图像预处理 ...原创 2020-07-05 15:07:51 · 947 阅读 · 0 评论 -
“人脸识别技术全面总结:从传统方法到深度学习”读后感
本文是对人脸识别技术全面总结:从传统方法到深度学习文章中总结的内容进行梳理。 技术难点 文章中提到,无约束环境中,人脸识别需要应对头部姿势、年龄、遮挡、光照条件和人脸表情等难点问题;项目的实际应用中都会遇到横向和纵向的难点,横向是周围因素对物体的影响:光照、遮挡;纵向是物体自身的影响:姿势、表情和年龄(人脸特有的属性); 提高准确度的方法:训练数据、CNN 架构和损失函数 神经网络是实际应用中的工具,总的目的是希望NN可以提取出能够泛化到训练集中未曾出现过的主体上的特征。数据集原创 2020-06-12 19:48:35 · 1647 阅读 · 0 评论 -
Listwise View Ranking for Image Cropping论文理解
该论文针对图片裁剪中的排序问题和形变问题提出了解决方案。序列排序方法数据(文章或图片)转换为特征向量,作为待排序的对象——序列。 pointwise 以单个序列作为排序的对象。通过机器学习方法获得针对每个序列的分类或回归(排序)模型,当输入新序列时,模型的预测结果即为排序结果; pairwise 以两个序列的组合作为排序对象。通过网络学习输入中相关的任意两序列组合的排序模型,以此获得结果中不同序列的先后顺序; listwise 将所有序列的组合作为排序对象。直接对查询结果的所有...原创 2020-05-17 17:56:24 · 443 阅读 · 0 评论 -
resnet 中bottleneck
图片来自这里论文中指明将为减少训练时间,将原始的残差模块(上图左侧)替换为bottleneck的残差模块。上图中右侧图有两处需要说明,一个是bottleneck中第二个1*1卷积的通道为什么是256维度;一个是左右两侧为相同的输入,为什么图右变为256维度的恒等映射;对于第一个问题,可理解为参数设置将最后一个卷积的通道设置为当前输入通道的4倍;对于第二个问题,要想实现加运算,...原创 2020-03-15 17:26:23 · 7393 阅读 · 0 评论 -
faster-rcnn pkl文件的生成
参考程序pascal_voc.py中_load_pascal_annotation函数用来读取标注信息,gt_roidb用于保存或读取pkl文件。单个文件的标注信息提取流程详见如下程序。import osimport scipyimport numpy as npimport xml.etree.ElementTree as ET_classes = ('__backgroun...原创 2019-12-12 14:38:59 · 1068 阅读 · 0 评论 -
卷积操作可视化
Why MobileNet and Its Variants (e.g. ShuffleNet) Are Fast文章通过输入与输出连通性的角度直观上分析了不同卷积模式计算量的改变情况。图片来自这里基础卷积模块standard convolution图片来自这里标准卷积的计算量为HWNK²M,可以分为3部分(1) the spatial size of the input...原创 2019-12-10 11:09:04 · 607 阅读 · 0 评论 -
检测损失函数比较
检测算法中回归部分常用到L1, L2(yolo),Smooth L1(Faster rcnn, ssd)等损失函数,如下将对不同损失函数进行简单对比。损失函数形式: L1 Loss L2 Loss Smooth L1 Loss特点:L2 Loss L1 Loss 不太鲁...原创 2019-05-14 21:07:15 · 764 阅读 · 0 评论 -
人脸损失函数的各种变体
人脸损失函数的各种变体都是基于softmax的交叉熵损失函数进行改进的,因此本文首先介绍基础形式,然后对各种变体进行说明。基于softmax的交叉熵损失函数先放上两者的基本形式 CE形式,其中为样本真实分布,为该样本观察分布 Softmax形式基于softmax的交叉熵损失函数,就是利用softmax的值替代CE中样本的观察分布,真实分布为...原创 2019-04-27 18:52:38 · 592 阅读 · 0 评论 -
ROI Align 解析
ROI Align 是何凯明在2017年的论文Mask-RCNN中提出的,该方法很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)问题。本文将先从实验结果入手,然后分析ROI Pooling产生局限性的具体原因和ROI Align的解决方法,最后就两种方法的反向传播公式进行简单说明。实验对比 首先通过论文中针对ROI Align和ROI P...原创 2018-03-08 20:45:09 · 6645 阅读 · 0 评论 -
ROI Pooling解析
ROI Pooling最早由Ross Girshick在2015年的论文fast rcnn中提出,是对ROI(Region of Interest)的Pooling操作,广泛应用于物体检测的研究领域。该操作旨在对输入特征图中不同大小的ROI利用池化方法获得固定大小的输出特征图。ROI Pooling层的输入:经过基础网络卷积和池化后的固定大小的特征图; 表示ROI信息的N*5维的...原创 2018-03-07 14:54:07 · 3769 阅读 · 2 评论 -
cnn中感受野的计算
medium上的这篇文章A guide to receptive field arithmetic for Convolutional Neural Networks是目前关于感受野计算最详细的文章,其翻译详见文章卷积神经网络中的感受野计算(译)和关于卷积神经网络(CNN)中的感受野,你知道多少? 感受野(receive field)是指当前feature map中的一个原子点P与输...原创 2018-04-09 21:17:09 · 933 阅读 · 0 评论 -
rnn理解
直观感受下cnn(左图)和rnn(右图)的整体结构,其中rnn中输出层和隐层间间的双向箭头不一定存在,一般是到输出的单向箭头。 图片1来自这里 为将整体结构与下文中的结构进行过度,先给出rnn的展开结构。图片2来自这里 接着对比下单神经元的处理。图a即可以看作是输入到输出的变换,也可以看作是输入到隐层的变换。作为输入到输出的变换时,本质上和图c中的变换是一样的。cnn与r...原创 2018-04-18 19:53:30 · 462 阅读 · 0 评论 -
vgg 16模型的内存和参数量的计算
cs231n上关于VGG-16模型的内存和参数的计算过程如下。INPUT: [224x224x3] memory: 224*224*3=150K weights: 0CONV3-64: [224x224x64] memory: 224*224*64=3.2M weights: (3*3*3)*64 = 1,728CONV3-64: [224x224x64] ...原创 2018-05-02 14:14:10 · 25863 阅读 · 5 评论 -
那些年我们一起追过的ILSVRC冠军
ILSVRC共举办7年, 其中产生一些如AlexNet,GoogleNet等经典网络,如下对其检测和分类领域的冠军进行总结。ps:下图前三个图展示了不同task对应的意义。图片来源 年代 task 网络/队名 结果 说明 2012 分类 AlexNet test top-5 error =0.16422 仅使用2012年的数...原创 2019-02-16 16:34:42 · 6461 阅读 · 0 评论 -
卷积操作及其变体
受变形卷积核、可分离卷积?卷积神经网络中十大拍案叫绝的操作文章的启发,我们从卷积操作本身进一步进行理解。下图方便直观理解标准的卷积过程。图片来自这里 卷积核的维度由四个参数决定:输入特征图的通道数、滤波器的高度、滤波器的宽度和输出特征图的通道数。如下通过对这四个参数本身或者参数之间的关联方式来见证奇迹的发生。ps:输入通道数和输出通道数本身数值并不会发生改...原创 2019-02-17 16:10:11 · 980 阅读 · 0 评论 -
注意力机制笔记
本文是对深度学习中的注意力机制做的笔记,并附上注意力机制应用的部分例子。首先,从其功能感受下注意力机制的作用。注意力机制让神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分从上述表达提取出两个关键字段:更多关注和相关部分,两者的实现直接对应着attention机制的权重如何进行分配。具体的,原文通过Encoder-Decoder模式的计算过程进行阐明。 ...原创 2019-03-07 23:18:51 · 879 阅读 · 0 评论 -
DL开发语言框架
没有什么比一张图更能说明情况的了。由于没能找到原图出处,侵删。文末推荐几个深度学习的tutorials: http://cs231n.github.io/ https://github.com/sjchoi86 ...原创 2019-03-28 22:23:42 · 413 阅读 · 0 评论 -
Mask R-CNN
该论文于2017年3月首次上传至arxiv,2018年1月份更新至第三版,并在版本中公布了源码。本文主要介绍第三版中涉及的内容,并按照论文的行文结构组织进行呈现。另,第五章节及附录内容不作翻译。文中如有理解偏差,请各位指正。摘要 本文提出一个简单、灵活、通用的物体实例分割框架,Mask R-CNN。该框架是在Faster R-CNN框架上添加一条并行于边界框识别的预测物体掩膜...翻译 2018-03-28 18:27:31 · 746 阅读 · 0 评论