
NN
zy_ky
这个作者很懒,什么都没留下…
展开
-
网络训练时出现错误:Nan in summary histogram
文章目录起因解决办法参考来源链接起因本来运行好好的程序,改了一点儿特征提取,就在网络开始训练的第一步遇到这个问题,我修改了特征提取中除法和log函数中可能有的0值,全都加上了一个小值,防止出现NAN,还是不行。之前特征提取没有加小值防止NAN也没有出现问题,训练一直很正常。解决办法删除checkpoint和save model、tensorboard的保存文件,虽然我修改后的特征shape与原来相同,也不知道怎么回事,反正删除后正常了。网上看到还有各种可能,我只写我遇到的,以后遇到其他的情况再写吧转载 2020-07-17 14:08:21 · 1367 阅读 · 0 评论 -
VGG模型解读
文章目录起因参考来源链接起因想明白1*1卷积核的作用,VGG,所以就学习明白VGG原理吧。B站学习链接。参考来源链接https://blog.youkuaiyun.com/ft_sunshine/article/details/90953784转载 2020-06-06 15:36:19 · 2559 阅读 · 0 评论 -
AlexNet模型解读
文章目录起因参考来源链接起因想明白1*1卷积核的作用,bottleneck(1∗1卷积核)是在2014年的AlexNet中首先应用的,所以就学习明白AlexNet原理吧。B站学习链接。参考来源链接https://blog.youkuaiyun.com/ft_sunshine/article/details/90953784...转载 2020-06-06 15:20:36 · 953 阅读 · 0 评论 -
1*1卷积核的作用
文章目录起因1*1卷积核的作用用1*1 卷积的目的参考来源链接起因想明白1*1卷积核的作用,bottleneck(1∗1卷积核)是在2014年的GoogLeNet中首先应用的,所以就学习明白GoogLeNet原理吧。1*1卷积核的作用B站学习链接。卷积神经网络中用11 卷积有什么作用或者好处呢?其他博主写的内容大都是从吴恩达的视频课中的笔记得来。所以可以直接看吴恩达的CNN课,吴恩达在CNN时,B站分了43节小课,算是很详细了很全面了。这是吴恩达11卷积的链接。看了原版吴恩达的课直接就理解了,转载 2020-06-05 10:47:53 · 637 阅读 · 0 评论 -
CNN的filter的阶数为什么是奇数?
文章目录起因参考来源链接起因在学习CNN的时候并不知道,自己写的CNN的filter有3、4、5,结果也没有问题,无意中搜另一个问题的时候发现别人在讨论为什么filter的阶数需要是奇数?。。。我居然不知道。。。So, I‘m here。。。参考来源链接...转载 2020-06-05 09:53:15 · 620 阅读 · 0 评论 -
GPU在model.fit时存在的问题
文章目录问题解决方法参考来源链接问题解决方法添加下面代码:参考来源链接https://blog.youkuaiyun.com/tsyccnh/article/details/102938368转载 2020-06-03 17:07:48 · 1919 阅读 · 0 评论 -
激活函数(待完善)
文章目录ReLUMaxoutMaxout如何训练sigmoidtanh参考链接来源ReLU也就说,ReLU激活函数的输入小于0,那这个就直接置零,如果大于零,就相当于不变直接输出,那么就相当于是单纯的线性神经网络,网络中就没有非线性的部分了,这样的话神经网络就退化为单纯的一次线性变换了。那为什么还有那么多人使用ReLU?因为ReLU的输入不会是全部大于0,这样的话对于一个样本而言,激活的ReLu神经元是固定的,如果下一个样本和这个样本的特征输入变化很小,送给ReLu的输入符号相同,那么还真就是相当转载 2020-05-28 13:23:10 · 510 阅读 · 0 评论 -
防止过拟合(待完善)
文章目录Early stopping增加训练样本(数据增广)损失函数添加正则化项几何解释(KKT条件)数学公式解释概率分布解释Dropout参考来源链接防止过拟合的方法:1.Early stopping2.增加训练样本(数据增广)3.损失函数添加正则化项;4.DropoutEarly stopping 对模型进行训练的过程即是对模型的参数进行学习更新的过程,往往会用到一些迭代方法,如梯度下降学习算法,Early stopping便是一种迭代次数截断的方法来防止过拟合的方法,在模型对训练集迭代转载 2020-05-26 18:41:37 · 954 阅读 · 0 评论 -
为什么分类问题不能使用mse损失函数
文章目录起因原因最根本的原因交叉熵损失函数原理另一个次要原因用交叉熵损失函数后还会有梯度消失的问题吗?参考来源链接起因因为最开始听一个老师讲的时候把这个问题将偏了,或者说没有说明根本原因,所以现在这个问题把我搞蒙了。原因最根本的原因在线性回归中用到的最多的是MSE(最小二乘损失函数),这个比较好理解,就是预测值和目标值的欧式距离。而交叉熵是一个信息论的概念,交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预转载 2020-05-26 18:21:05 · 11030 阅读 · 3 评论 -
RNN、LSTM、GRU
相关名词的学习文章目录IID参考来源链接IID独立同分布independent and identically distributed (i.i.d.)参考来源链接转载 2020-05-25 21:49:31 · 213 阅读 · 0 评论 -
tf.data.Dataset.shuffle(buffer_size)中buffer_size的理解
文章目录起因函数内部设置参考来源链接起因我给buffer_size = 1,发现没有shuffle的作用。所以想知道到底是如何shuffle的。函数内部设置首先,Dataset会取所有数据的前buffer_size数据项,填充 buffer,如下图:然后,从buffer中随机选择一条数据输出,比如这里随机选中了item 7,那么buffer中item 7对应的位置就空出来了。然后,从Dataset中顺序选择最新的一条数据填充到buffer中,这里是item 10。然后在从Buffer中随转载 2020-05-22 10:55:52 · 3693 阅读 · 0 评论 -
神经网络参数选择原则
# 对过拟合添加Dropout层,抑制过拟合# Dropout,人为地丢弃掉一些层# 当训练数据数量确定的情况下,可以选用:# 1.DropOut; # 2.正则化# 3.图像增强(音频增强)当做调整使得网络不再过拟合了,再调节其他参数。调参的时候一定要进行交叉验证,因为调参的时候就是朝着测试集优化得方向调参的,所以就是把参数泄漏给了测试数据。构建网络的总原则:保证神经网络容量足够拟合数据。参考来源https://www.bilibili.com/video/BV1Zt41..转载 2020-05-19 11:56:31 · 1209 阅读 · 0 评论 -
归一化
beta和gama都是神经网络训练出来的,他们的取值并不会影响原神经网络的准确性,因为是线性变换。这种处理可以加快训练速度,使得网络训练避开很多由模型选取人为引入的局部极小值。输入越稳定,训练越快越准。输入不稳定,训练结果乱跳,于是就减小学习率,减小学习率作用对输入数据的变化大效果并不明显,但是减小学习率会使得训练速度变慢。而归一化后再输入下一层可以保证有每一次都有较大的学习率。...转载 2020-05-19 10:02:03 · 312 阅读 · 0 评论 -
优化器
文章目录参考链接来源动量法用于解决局部梯度的反方向不一定是函数整体下降的方向,如隧道型曲面的震荡。吸收一部分上次更新的余势,就类似于加上了铁球的惯性,铁球有惯性,就一直在下滑方向保持一定的速度。上一步的余势加上当前点处的梯度。针对于学习率有关的下面两个问题:自适应学习率优化算法针对于机器学习模型的学习率,传统的优化算法要么将学习率设置为常数要么根据训练次数调节学习率。极大忽视了学习率其他变化的可能性。然而,学习率对模型的性能有着显著的影响,因此需要采取一些策略来想办法更新学习率转载 2020-05-18 21:04:42 · 311 阅读 · 0 评论 -
循环神经网络(RNN)
文章目录循环神经网络(RNN)参考链接循环神经网络(RNN) 神经网络包含输入层、隐层、输出层,通过激活函数控制输出,层与层之间通过权值连接。激活函数是事先确定好的,那么神经网络模型通过训练“学“到的东西就蕴含在“权值“中。 基础的神经网络只在层与层之间建立了权连接,RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。首先看一个简单的循环神经网络如,它由输入层、一个隐藏层和一...转载 2019-12-10 11:16:23 · 230 阅读 · 0 评论