
机器学习【数学知识】
TaoTaoFu
这个作者很懒,什么都没留下…
展开
-
KL散度
KL散度(Kullback–Leibler divergence)KL散度是度量两个分布之间差异的函数。在各种变分方法中,都有它的身影。转自:https://zhuanlan.zhihu.com/p/22464760一维高斯分布的KL散度多维高斯分布的KL散度:KL散度公式为:...转载 2019-12-17 17:17:39 · 560 阅读 · 0 评论 -
【深度学习】深入理解Batch Normalization批标准化
这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出。 Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-T...转载 2019-02-22 18:55:04 · 313 阅读 · 0 评论 -
对全连接层的深入理解
原文地址:http://m.blog.youkuaiyun.com/YiLiang_/article/details/60468530理解全连接层连接层实际就是卷积核大小为上层特征大小的卷积运算,卷积后的结果为一个节点,就对应全连接层的一个点。(理解)假设最后一个卷积层的输出为7×7×512,连接此卷积层的全连接层为1×1×4096。如果将这个全连接层转化为卷积层:1.共有4096转载 2017-12-06 12:18:43 · 7646 阅读 · 0 评论 -
参数估计--点估计
原创 2017-09-09 16:47:52 · 800 阅读 · 0 评论 -
方差计算过程中分母为什么不是n?
========================================================================================================================转载 2017-08-17 12:12:16 · 432 阅读 · 0 评论 -
拉格朗日乘子法与KKT条件
拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。前提是:只有当目标函数为凸函数时,使用这两种方法才保证求得的是最优解。对于无约束最优化问题,有很多经典的求解方法,参见无约束最优化方法。拉格朗日乘子法先来看拉格朗日乘子法是什么,再讲为什转载 2017-08-21 11:04:36 · 769 阅读 · 0 评论 -
协方差 与 相关系数
转至:https://www.zhihu.com/question/20852004转载 2017-08-17 11:39:26 · 555 阅读 · 0 评论 -
机器学习-逻辑回归-参数迭代公式推导
原始出处:http://sbp810050504.blog.51cto.com/2799422/1608064在《机器学习实战》一书的第5章中讲到了Logistic用于二分类问题。书中只是给出梯度上升算法代码,但是并没有给出数学推导。故哪怕是简单的几行代码,依然难以理解。 对于Logistic回归模型而言,需要读者具有高等数学、线性代数、概率论和数理统计的基础的数学转载 2016-10-26 23:46:59 · 2726 阅读 · 0 评论 -
梯度下降与梯度上升
梯度下降法是机器学习和神经网络学科中我们最早接触的算法之一。但是对于初学者,我们对于这个算法是如何迭代运行的从而达到目的有些迷惑。在这里给出我对这个算法的几何理解,有不对的地方请批评指正! 梯度下降法定义 (维基百科)梯度下降法,基于这样的观察:如果实值函数 在点 处可微且有定义,那么函数 在 点沿着梯度相反的方向 下降最快。转载 2016-10-16 17:40:36 · 1166 阅读 · 0 评论 -
协方差矩阵
1. 协方差定义X、Y 是两个随机变量,X、Y 的协方差 cov(X, Y) 定义为:其中: 、2. 协方差矩阵定义矩阵中的数据按行排列与按列排列求出的协方差矩阵是不同的,这里默认数据是按行排列。即每一行是一个observation(or sample),那么每一列就是一个随机变量。协方差矩阵:转载 2016-10-09 11:11:18 · 978 阅读 · 0 评论