
神经网络基础
文章平均质量分 55
DreaMaker丶
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Deep Learning with Torch
Reference:https://github.com/soumith/cvpr2015/blob/master/Deep%20Learning%20with%20Torch.ipynbDeep Learning with Torch: the 60-minute blitzGoal of this talkUnderstand torch and the neural networks pac...转载 2018-04-03 20:51:35 · 374 阅读 · 0 评论 -
神经网络中,加上bias是如何让网络变得更灵活
reference:https://www.zhihu.com/question/68247574实际上,bias相当于多了一个参数。在增加网络少量拟合能力的情况下,bias和其它普通权值相比无论前向还是后向,计算上都要简单,因为只需要一次加法。同时,bias与其它权值的区别在于,其对于输出的影响与输入无关,能够使网络的输出进行整体地调整,算是另一维自由度吧。放在二维上,权值相当于直线的斜率,而b...转载 2018-04-07 22:11:11 · 8322 阅读 · 0 评论 -
epoch, iteration, batchsize相关说明
batchsize:中文翻译为批大小(批尺寸)。简单点说,批量大小将决定我们一次训练的样本数目。batch_size将影响到模型的优化程度和速度。为什么需要有 Batch_Size :batchsize 的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。 Batch_Size的取值:全批次(蓝色)如果数据集比较小我们就采用全数据集。全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值...原创 2018-04-04 20:42:32 · 256 阅读 · 0 评论 -
Adam:一种随机优化方法
简介: Adam 这个名字来源于 adaptive moment estimation,自适应矩估计。概率论中矩的含义是:如果一个随机变量 X 服从某个分布,X 的一阶矩是 E(X),也就是样本平均值,X 的二阶矩就是 E(X^2),也就是样本平方的平均值。Adam 算法根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针对于每个参数的学习速率。Adam 也是基于梯度下降的方法,但...转载 2018-04-18 18:11:16 · 1307 阅读 · 0 评论 -
深度学习优化算法之SGD
引言最优化问题是计算数学中最为重要的研究方向之一。而在深度学习领域,优化算法的选择也是一个模型的重中之重。即使在数据集和模型架构完全相同的情况下,采用不同的优化算法,也很可能导致截然不同的训练效果。梯度下降是目前神经网络中使用最为广泛的优化算法之一。为了弥补朴素梯度下降的种种缺陷,研究者们发明了一系列变种算法,从最初的 SGD (随机梯度下降) 逐步演进到 NAdam。然而,许多学术界最为前沿的文...转载 2018-04-18 18:25:51 · 4226 阅读 · 0 评论 -
香农信息量、信息熵、交叉熵
香农信息量:只考虑连续型随机变量的情况。设p为随机变量X的概率分布,即p(x)为随机变量X在X=x处的概率密度函数值,随机变量X在x处的香农信息量定义为:其中对数以2为底,这时香农信息量的单位为比特。香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小。如随机事件“中国足球进不了世界杯”不需要多少信息量(比如要不要多观察几场球赛的表现)就可以消除不确定性,因此该随机事件的...原创 2018-07-19 17:05:48 · 6282 阅读 · 0 评论 -
Jensen–Shannon divergence
Jensen–Shannon divergence(J-S散度) is a method of measuring the similarity between two probability distributions.It is based on the Kullback–Leibler divergence(K-L散度), with some notable(and useful)...原创 2018-07-19 17:17:43 · 7158 阅读 · 0 评论