
深度学习
文章平均质量分 87
NIGHT_SILENT
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
参数、超参数区别
在机器学习或者深度学习领域,参数和超参数是一个常见的问题,个人根据经验给出了一个很狭隘的区分这两种参数的方法。参数(parameters):是模型根据数据可以自动学习出的变量。eg,(深度学习的权重,偏差等)超参数(hyperparameters):超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。用来确定模型的一些参数,超参数不同,模型是不同的(这个模型不同的意思就是有微小的...转载 2018-06-24 21:01:58 · 2921 阅读 · 0 评论 -
过拟合(定义、出现的原因4种、解决方案7种)
定义定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 ———《Machine Learning》Tom M.Mitchell出现过拟合的原因1. 训练集的数量级和模型的复杂度不匹配。训练集的数量级要小于模型的复杂度;2. 训练集和测试集特征分布不一致;3. 样本...原创 2018-06-25 11:07:27 · 61277 阅读 · 0 评论 -
非线性激活函数(为什么需要它、导数、优缺点)
为什么需要非线性激活函数?a=z 叫做线性激活函数 或 恒等激活函数如果使用线性激活函数,那么这个模型的输出不过是你输入特征x的线性组合。神经网络只是把输入线性组合再输出。所以即使你有很多个隐含层,但是你如果使用线性激活函数或者不用激活函数,一直在做的只是计算线性激活函数,所以还不如直接去掉全部隐藏层。所以除非引入非线性,那么无法计算更有趣的函数。只有一个地方可以使用线性激活函数,那就是回归问题。...原创 2018-06-25 21:56:11 · 16065 阅读 · 2 评论 -
深度网络架构
Rumelhart、Hinton和Williams在1986年提出了反向传播(BP)算法。LeNet奠定了CNN的三大核心思想:局部感受野,权值共享,下采样。Alexnet为什么成功:imagenet、gpu(多gpu计算)、relu替代sigmoid、dropout、数据增广Vgg:将网络加深,卷积核全部使用3*3GoogLenet:何凯明在17年CVPR的报告中总结GoogLe...原创 2018-07-04 09:49:27 · 2119 阅读 · 0 评论 -
交叉熵作为损失函数在神经网络中的作用
一般情况下,最后一个输出层的节点个数与分类任务的目标数相等。假设最后的节点数为N,那么对于每一个样例,神经网络可以得到一个N维的数组作为输出结果,数组中每一个维度会对应一个类别。在最理想的情况下,如果一个样本属于k,那么这个类别所对应的的输出节点的输出值应该为1,而其他节点的输出都为0,即[0,0,1,0,….0,0],这个数组也就是样本的Label,是神经网络最期望的输出结果,交叉熵就是用来判定...转载 2018-07-17 14:24:40 · 1084 阅读 · 2 评论 -
梯度消失和梯度爆炸
梯度消失和梯度爆炸定义:它的定义经常被人们搞不清楚,看似和梯度有关系,但是从吴恩达的视频来看,梯度消失和梯度爆炸指的是——后面层神经元的值变得非常大或者非常小。 当w仅仅比1大一点点,那么随着层数的增加,后边神经元的值会越来越大,叫做梯度爆炸; 当w仅仅比1小一点点,那么随着层数的增加,后边神经元的值会越来越小,叫做梯度消失。梯度消失和梯度爆炸的解决方案:将w的初始值...原创 2018-08-02 19:46:50 · 916 阅读 · 0 评论