- 博客(6)
- 收藏
- 关注
原创 Inception V2阅读笔记
[1] internal covariate shift:训练深度神经网络的时候每一层的输入会随着训练发生变化,因为前一层参数的变化会引起这一层输入的分布发生变化,需要很小心设置参数的初始值,否则网络可能训练变慢难以收敛。本文提出了一种Batch Normalization的方式来解决这个问题。 [2] Batch Normalization本质思想:深层神经网络在做非线性变换前的激活输入值随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近
2020-11-17 15:11:48
146
原创 GoogLenet V1阅读笔记
[1] 对输入进行零均值预处理,目的是为了加快训练。图像数据是高度相关的,假设其分布如下图a所示(简化为2维)。由于初始化的时候,我们的参数一般都是0均值的,因此开始的拟合y=Wx+b,基本过原点附近,如图b红色虚线。因此,网络需要经过多次学习才能逐步达到如紫色实线的拟合,即收敛的比较慢。如果我们对输入数据先作减均值操作,如图c,显然可以加快学习。更进一步的,我们对数据再进行去相关操作,使得数据更加容易区分,这样又会加快训练,如图d。 [2] 提出了Inception网络结构,在增加网络深度和宽度的同时减
2020-11-17 15:10:55
175
原创 VGG网络阅读笔记
[1] VGG中使用的是3×3卷积核和2×2的池化核,并且使用了连续多个卷积层,由于每个卷积层都有一个非线性的激活函数,多个卷积层增加了非线性映射。 [2] VGG认为2个连续的3×3卷积核能够替代一个5×5卷积核,三个连续的3×3能够代替一个7×7。使用连续的小卷积核代替大的卷积核,网络的深度更深,并且对边缘进行填充,卷积的过程并不会降低图像尺寸,仅使用小的池化单元降低图像的尺寸。 [3] 使用更深的层可以使得函数具有更好的分辨能力,通过这样做也可以减少参数。 [4] VGGNet在训练的时候先训级别A的
2020-11-17 15:09:06
251
原创 AlexNet阅读笔记
[1] 使用Relu替换之前的sigmoid/tanh作为激活函数。sigmoid一个很大的问题就是梯度饱和,当输入的数字较大(或较小)时,其函数值趋于不变,其导数变的非常的小;而ReLU有输出的部分,导数始终为1。Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。 [2] 采用局部响应归一化。用激活函数将神经元的输出做一个非线性映射,tanh和sigmoid的值域是有范围的,但是ReLU激活函数得到的值域没有一个区间,所以对ReLU得到的结
2020-11-17 15:08:31
185
原创 Lenet阅读笔记
[1] 首次提出了卷积神经网络的基本组成:卷积层,池化层和全连接层。卷积层的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征,更多层的网络能从低级特征中迭代提取更复杂的特征。池化层可以大幅降低输入维度,从而降低网络复杂度,使网络具有更高的鲁棒性,同时能够有效的防止过拟合。 [2] 卷积神经网络的网络连接相对于一般的神经网络具有局部连接、权值共享的特点。 [3] 局部连接:相对于一般神经网络的全连接而言,指本层的某个节点只与上一层部分节点相连接,只用来学习局部特征,大幅减少了参数数量,加快了学
2020-11-17 15:07:49
189
转载 批大小、mini-batch、epoch的含义
作者:X_xxieRiemann 链接:https://www.jianshu.com/p/99d790f8208b 来源:简书 每次只选取1个样本,然后根据运行结果调整参数,这就是著名的随机梯度下降(SGD),而且可称为批大小(batch size)为1的SGD。 批大小,就是每次调整参数前所选取的样本(称为mini-batch或batch)数量: 如果批大小为N,每次会选取N个样本,分别代入网络,算出它们分别对应的参数调整值,然后将所有调整值取平均,作为最后的调整值,以此调整网络的参数。 如果批大小N很
2020-11-17 10:02:10
2124
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅