
项目-深度学习
368chen
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
caffe 学习
caffe 教程:https://www.cnblogs.com/denny402/p/5067265.htmlcaffe 编译安装:https://www.cnblogs.com/denny402/p/5067265.htmlcaffe conda 安装:https://blog.youkuaiyun.com/weixin_39916966/article/details/93221564问题解决caffe 报错:https://blog.youkuaiyun.com/weixin_38883095/ar原创 2020-11-06 15:22:22 · 248 阅读 · 0 评论 -
Vision Transformer 论文
https://openreview.net/pdf?id=YicbFdNTTyAN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALEAbstract:Transformer 架构早已在自然语言处理任务中得到广泛应用,但在计算机视觉领域中仍然受到限制。在计算机视觉领域,注意力要么与卷积网络结合使用,要么用来代替卷积网络的某些组件,同时保持其整体架构不变。该研究表明,对 CNN 的依赖不是必需的,当直原创 2020-10-08 19:13:19 · 36231 阅读 · 9 评论 -
MobileNetV2 论文
https://arxiv.org/abs/1801.04381Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification, Detection and SegmentationAbstract本文提出了一种新的移动架构MobileNetv2,改善了多个任务和基准的State-of-the-art水平。同时我们介绍了一种基于此框架的面向目标检测任务的有效应用模型SSDLite。此外,我们介绍了简化移动原创 2020-10-08 11:20:36 · 2221 阅读 · 0 评论 -
MobileNet v1 论文
https://arxiv.org/pdf/1704.04861.pdfSummary:总的来说,MobileNet相对于标准卷积过程有以下几点不同:1) 将标准的卷积操作分为两步:depthwise convolution和pointwise convolution。即先分解卷积滤波,再用1x1的卷积连接起来。通过文中的计算复杂度可以看出MobileNet的计算量降低了很多。2) 引入了两个超参数:width multiplier和resolution multiplier。这两个超参数的原创 2020-10-06 21:42:38 · 510 阅读 · 0 评论 -
驱动重装
https://zhuanlan.zhihu.com/p/82521884原创 2020-09-17 15:01:12 · 164 阅读 · 0 评论 -
sklearn 中指标计算公式
TP:正例预测正确的个数FP:负例预测错误的个数TN:负例预测正确的个数FN:正例预测错误的个数1. accuracy_score(y_true,y_pred)准确率(accuracy)是所有预测对的right/all例子:>>>y_pred = [0, 2, 1, 3]>>>y_true = [0, 1, 2, 3]>>>accuracy_score(y_true, y_pred)0.52.prec...原创 2020-08-13 17:13:22 · 1818 阅读 · 0 评论 -
pytorch-固定某些层参数不训练
ref:https://blog.youkuaiyun.com/Arthur_Holmes/article/details/103493886原创 2020-08-07 11:42:53 · 3502 阅读 · 0 评论 -
nn.Module -使用Module 类来自定义网络
1 前言: 如何自定义一个模型-通过继承nn.Module 类来实现,在__init__ 构造函数中申明各个层的定义,在forward 中实现层直接的连接关系,实际上就是前向传播的过程。实际上,在pytorch 里面自定义层也是通过继承nn.Module 类来实现,pytorch 里面一般没有层的概念,层也是当成一个模型来处理的。2 torch 里面实现神经网络有两种方法:(1) 高层API 方式: 高层API 是使用类的形式来包装的,类可以存储参数,例如全连接层的权重值矩阵,偏置矩阵等都可以作原创 2020-08-06 16:16:57 · 739 阅读 · 2 评论 -
Mobilenet 网络结构-Depthwise Separable Convoltion
1)常规卷积运算假设输入层为一个大小为64×64 像素,三通道的彩色图片。经过一个包含4个filter 的卷积层,最终输出4个Feature Map,并且尺寸与输入层相同。此时卷积层共4个filter,每个filter 包含3个kernel,每个kernel的大小为3×3,因此卷积层的参数量如下计算:N_std=4×3×3×3×3=1082 Separable Convolution核心思想是将一个完整的卷积运算分解为两步,分别为Depthwise Convolution 与Poi.原创 2020-08-06 11:01:50 · 419 阅读 · 0 评论 -
CS231N斯坦福计算机视觉公开课笔记
p6 可视化卷积神经网络: 导向反向传播让轮廓更明显,找到识别最大的原始图像p9 : CNN 网络工程的实践技巧,,3*3 卷积,步长为1 ,padding =1 使得feature map 维度不变。两个3*3 替换一个5*5 ,感受野相同,可以减少参数,非线性变换的次数增多。输入H*W*C,C是通道数,要C个卷积核,卷积核大小是7*7,参数是7*7*C*C,3个3*3 来代替,参数是3*3*C*C乘法运算量: feature map 元素数* 每次卷积感受野数量: (H*W*C)*(7.原创 2020-08-02 16:20:45 · 320 阅读 · 0 评论 -
目标检测-评估标准
常用: 平均精度均值 mAP,交并比 IoU,非极大值抑制 NMS, 每秒帧频FPS(每秒处理的图片数量)1 AP:代表平均精度,是PR 曲线下的面积,分类器分类效果越好,AP 越大。mAP:多类别的AP 的平均值,mean 代表对每个类别下得到的AP 再求平均。mAP 的取值范围为[0,1],值越大越好。mAP 涉及到的相关概念: 混淆矩阵:TP,FP,FN,TN,Precision,Recall。F1-score 是precision和recall 的调和均值:即 2/F1=1/Pr原创 2020-07-28 09:58:37 · 755 阅读 · 0 评论 -
SSD 原理-1
ref:https://blog.youkuaiyun.com/qianqing13579/article/details/82106664预测阶段有两种滑动窗口的策略:1 策略1: 使用不同大小的滑动窗口,对每个滑动窗口提取特征并分类判断是否是人脸,最后经过NMS 得到最后的检测结果,本文的SSD 本质上就是这种策略,不同检测层的anchor 就类似于不同大小的滑动窗口。2 策略2:构造图像金字塔,只使用一种大小的滑动窗口在所有的金字塔图像上滑动,对每个滑动窗口提取特征并判断是否是人脸,最后经过NMS 得原创 2020-07-24 18:29:25 · 337 阅读 · 0 评论 -
kaggle:iMet Collection 2019 - FGVC6
1 评估指标f2 score=2 训练集与109237 张,测试集分为两个阶段,第一个阶段7443 张,第二阶段是unseen的,大小5.2 倍于test1.3 数据分析3.1 类别总数:1103 类,其中culture 有398 类,tag 有705 类3.2 每张图像所含类别个数:1~11 ,大多数图像含有2-3个标签,但是有张图像含有11个。3.3 前20的label 中的culture 和tag 分别占了整个数据集的0.72%和1.83% ,这说明大多数label 是所出现次原创 2020-06-29 17:45:18 · 439 阅读 · 0 评论 -
比赛总结
1https://cloud.tencent.com/developer/article/1505687原创 2020-06-26 17:09:23 · 301 阅读 · 0 评论 -
层次贝叶斯模型
1 概念:层次贝叶斯模型是具有结构化层次的统计模型,它可以用来为复杂的统计问题建立层次模型从而避免参数过多导致的过拟合问题。通过贝叶斯方法来估计后验分布的参数。2 推断过程:我们对层次贝叶斯推断的策略与一般的多参数问题一样,但由于在实际中层次模型的参数很多,所以比较困难,在实际中我们很难画出联合后联合概率分布的图形。但是可以使用近似的基于仿真的方法.运用层次贝叶斯模型主要需要计算所有参赛在已知观察量下的条件后验概率,其推导过程主要包含三个步骤:1)写出联合后验密度,p(θ, φ|y),.原创 2020-10-22 16:41:48 · 8806 阅读 · 0 评论 -
LSTM 时间序列预测
1 LSTM客流量预测:https://zhuanlan.zhihu.com/p/94757947原创 2020-06-24 10:13:08 · 429 阅读 · 0 评论 -
基于VAE 利用重建概率的异常检测
1 VAE和AE的区别AE 将输入变量直接编码成隐藏层变量,再解码成输出变量,VAE 也有编码和解码过程,但VAE将输入变量"编码" 成隐变量的分布,再从隐变量分布采样,将隐变量分布解压成输出变量的分布。网络学习目标变成使变量的分布函数逼近真实的分布函数,这个问题的求解需要采用变分方法,因此取名变分自编码器。2 VAE 的loss摘要: 本文提出了一种利用变分自动编码器重构概率的异常检测方法,https://www.cnblogs.com/asawang/p/10407551.html..原创 2020-06-23 21:54:13 · 2221 阅读 · 0 评论 -
深度学习-GRU
ref:https://blog.youkuaiyun.com/vivian_ll/article/details/88780661只有两个门:重置门和更新门。把细胞状态和隐藏状态进行了合并,2014年提出,与LSTM 相似,但是更易于计算。其中,rt表示重置门,Zt 表示更新门。重置门决定是否将之间的状态忘记。当rt 趋近于0的时候,前一个时刻的状态信息ht-1会被忘掉,隐藏状态ht会被重置为当...原创 2019-11-27 14:49:36 · 819 阅读 · 0 评论 -
深度学习-变分自编码器
ref:https://zhuanlan.zhihu.com/p/88750084http://www.atyun.com/17976.htmlhttps://www.spaces.ac.cn/archives/52531 为每个潜在属性表示为可能值的范围。VAE 会生成一个隐空间,从中对点进行采样。VAE的结构:任何自编码器的目标都是重建原始输入。通常,自编码器首先将输入...原创 2019-11-24 11:17:55 · 617 阅读 · 0 评论 -
LeNet的详细网络结构
包含2个卷积层,2个max 池化层,2个全连接层和1个relu 层与一个softmax 层。1 输入层: 输入层输入一个28*28 的图片2 卷积层1:该层使用20个5*5 的卷积核分别对输入层图片进行卷积,所以包含20*5*5 =500 个参数权值参数。卷积后图片边长为(28-5+1)/1=24 ,故产生20个24*24个map ,包含20*24*24 =11520个神经元。3 池化...原创 2019-10-25 11:39:55 · 505 阅读 · 0 评论 -
编程语言-python
1 python 生成器python 生成器是一个返回可以迭代对象的函数,可以被用做控制循环的迭代行为。生成器类似于返回值为数组,这个函数可以接受参数,可以被调用,一般的函数会返回包括所有数值的数组。生成器一次只能返回一个值,这样消耗的内存将会大大减小。2 python 中is 和== 的区别is 是用来判断两个变量引用的对象是否为同一个。== 用于判断引用对象的值是否相等,可以通过i...原创 2019-09-27 15:36:13 · 167 阅读 · 0 评论 -
深度学习- ShuffleNet
介绍:受计算力受限的移动设备,新的架构利用两个操作:逐点群卷积(pointwise group convolution)和通道混洗(channel shuffle).Xception和ResNeXt 在小网络模型中效率低: 大量的1*1 卷积耗费计算资源。提出了逐点群卷积帮助降低计算复杂度,但是使用逐点群卷积会有副作用,故在此基础上,论文提出通道混洗帮助信息流通,相比于其他模型,ShuffleNe...原创 2019-09-09 15:54:32 · 377 阅读 · 0 评论 -
深度学习:ResNet:Deep Residual for Image Recognition
1abstract将层改为residualfunctions,模型更容易优化模型越深越好,是VGG的8倍。模型复杂度比VGG更低是2015年ImageNet的1st深度是获胜的关键2indroduction模型的深度丰富了模型的features深模型的问题:梯度消失或爆炸,难找到最优值,现有方案:normalized initlalization ,interm...原创 2019-04-14 14:22:09 · 232 阅读 · 0 评论 -
深度学习2
1 神经网络为啥用交叉熵通过神经网络解决多分类问题时,最常用二道一种放肆就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN 中都是如此,比如在AlexNet中最后输出层有1000个节点的输出层。交叉熵就是用来判定实际的输出和期望的输出的接近程度。2 LSTM与GRU的区别GRU和LSTM 的性能在很多任务上不分伯仲,2) GRU 参数更少,因此更容易收敛,但是数据集很大...原创 2019-09-26 15:00:31 · 154 阅读 · 0 评论 -
深度学习1
1 BatchNormalization的作用神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失,而Batch Normalization 的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使数据能够分布在激活函数的敏感区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。2 ...原创 2019-09-26 12:34:36 · 537 阅读 · 0 评论 -
深度学习-tensorflow
1 tensorflow 的工作原理tensorflow 是用数据流图来进行数值计算的,而数据流图是描述有向图的数值计算过程,在有向图中,节点表示为数学运算,边表示传输多维数据,节点也可以被分配到计算设备上从而并行的执行操作。2 tensorflow 中的interactivesession 和session的区别tf.interactivesession() 默认自己就是用户要操作的...原创 2019-09-25 20:08:34 · 176 阅读 · 0 评论 -
深度学习-梯度爆炸
1 产生的原因sigmoid 的导数取值范围(0,0,25),即一面的每一项,都小于1,则当网络足够深,会导致越接近输入层的神经元,梯度几乎为0,长时间得不到更新。若为tanh,则范围为(0,2) ,当每一项大于1时就会出现梯度爆炸,权重更新不稳定。RNN:在CNN 中,所谓权重仅发生在单个的一层,不同层对应的wi 是不同的,而在RNN 中,则每个时间步都共用一个权重,因此梯度是累...原创 2019-08-03 00:05:28 · 412 阅读 · 0 评论 -
深度学习-CNN-反向传播
https://www.nowcoder.com/discuss/2052601 CNN 反向传播笔记33页参考:https://www.cnblogs.com/makefile/p/BP.html2 Adam优化器的迭代公式笔记37页https://zhuanlan.zhihu.com/p/22252270https://hellozhaozheng.githu...原创 2019-07-24 20:26:20 · 423 阅读 · 0 评论 -
油田数据处理
07-12中师姐给我的参与者里面和后续有交集的有2714个,在07-18这12年都坚持体检的,有825个人;2714个人中,患病的:96,正常的:2618;825个人中,患病的:38,正常的:787.1 得到07-12 和13-18 都有的数据G:\fw2\new_data\07-12-overlap\2 先拿到每一年必要特征的数据G:\fw2\new_data\中山大学\...原创 2019-06-02 11:24:26 · 567 阅读 · 0 评论 -
VGG: VERY DEEP Convolutional Networks for large-sacle Image Recognition
1abstract:只有3*3 和1*1 的卷积核VGG是16层到19层的模型,3*3的filter,改进大introduction :固定其他的超参数,不断增加层数,trick: 3*3的filter2.1 ConvNetconfigurationinput:224*224的RGB预处理:减去RGB均值convfilter: 3*3 ;1*1 (一...原创 2019-04-14 16:16:27 · 169 阅读 · 0 评论 -
各个指标计算
假阳性:错认为正的负样本/所有负样本的比例假阴性:错认为 负的正样本/所有正样本的比例ACC =(TP+TN)/(P+N):准确率F1score=2TP/(2TP+FP+FN):准确率和召回率的加权平均MCC (马修相关系数) =用来判断两组数据的相关程度...原创 2019-04-14 01:28:09 · 520 阅读 · 0 评论 -
GRU 神经网络
RNN的连续的连乘 会导致梯度消失的重大问题,1 LSTM:解决梯度消失或者梯度爆炸遗忘门:候选memorycell:更新门:更新后的memorycell:输出门:2 GRU是CNN的变种,全称门控循环单元,就是在RNN上多加几个门,目的是和LSTM基本一样,为了加强RNN神经网络的记忆能力。...原创 2019-04-14 00:01:43 · 1376 阅读 · 0 评论 -
深度学习识点复习:鞍点
讨论寻找凸路径时可能会遇到的临界点。1 临界点类型:为了最小化函数一般是梯度下降(假定所有的函数都是可微的)当梯度等于0的时候,该点为临界点,也就是局部最优解,对于强凸函数,也就是全局最小点。对于非凸函数,例如,当x=(0,0) 时,梯度为0 向量,很明显此点不是局部最小值点,这种情况下,(0,0) 叫做该函数的鞍点。为了区分这种情况,需要考虑二阶导数,,n*n 的矩阵,称为H...原创 2019-04-10 09:18:24 · 1715 阅读 · 0 评论 -
深度学习知识点复习:feature normalization和batch normalization
1 为什么要对input 做normalization:input上的值差异非常巨大,导致模型训练的很慢,如左图所示,如果差异很小,训练很快,如右图为了使得loss改变,不同的w的改变的幅度不一样,因此左图纵向上波动很短。右图因为w1和w2的波动对损失的影响差不多,因此是一个对称的圆形。通常对左边情况的只有将lr 调低一点,使得w2 缓慢调整降低loss。2 feature n...原创 2019-04-09 18:05:11 · 1889 阅读 · 0 评论 -
变分自编码VAE
1 )损失函数推导encoder是要拟合一个p(z)由p(x,z)=p(z|x)*p(x)得到p(x)=p(x,z)/p(z|x),上下同时除以一个q(z)得到p(x) =(p(x,z)/q(z))/(p(z|x)/q(z))求极大似然是要对两边取log得到:lnp(x)= ln(p(x,z)/q(z))-ln(p(z,x)/q(z)) .用q(z)积分得到:...原创 2019-04-09 11:26:43 · 287 阅读 · 0 评论 -
深度学习-欠拟合和过拟合
1 欠拟合的解决方法模型复杂度过低,特征量少(1) 增加新特征,考虑加入特征组合,高次特征来增大假设空间(2) 添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者多次想使泛化能力更强。(3) 减少正则化参数,(4) 使用非线性模型:比如核SVM,决策树,深度学习等模型(5) 调整模型的容量,容量时指拟合各个函数的能力。(6) 容量低的模型...原创 2019-09-08 15:41:46 · 284 阅读 · 0 评论 -
深度学习-正则化
1 为啥L1 更具有稀疏性https://www.nowcoder.com/discuss/61907两种解释:1 从L 1和L2 的来源来看,贝叶斯学派认为仅仅使用数据是不够的,还要加入先验知识,L1 等于拉普拉斯先验,L2 等于高斯先验,为了推导和计算方便,会对分布函数取对数,然后再去优化,最后由于参数考虑了 数据先验,学到的规则更加接近实际,拉普拉斯密度函数的图形和表达式:...原创 2019-09-07 17:52:07 · 131 阅读 · 0 评论 -
深度学习-优化算法
·1梯度下降和随机梯度下降的区别?https://www.nowcoder.com/discuss/619071-1 标准梯度下降是在权值更新前对所有样例汇总误差,而随机梯度下降的权值是通过考查某个训练样例的更新的。1-2 标准梯度下降中,权值更新的每一步对多个样例求和,需要更多的计算1-3 标准梯度下降,由于使用真正的梯度,标准梯度下降对于每一次权重更新经常使用比随机梯度下降...原创 2019-09-07 16:54:19 · 671 阅读 · 0 评论 -
深度学习-经典网络对比
1)AlexNet 相比于传统的CNN 的改动1.数据增强2 dropout3 Relu 激活函数4 Local Response Normalization 局部响应归一化,利用临近的数据做归一化5 overlapping Pooling pooling 的步长比Pooling kernel 的对应边要小6 多GPU 并行2) VGG 很好的继承了AlexNet...原创 2019-09-15 21:50:24 · 1006 阅读 · 0 评论 -
深度学习-激活函数比较
参考:https://www.jianshu.com/p/22d9720dbf1a原创 2019-09-11 10:11:36 · 152 阅读 · 0 评论