
数学基础
Pikachu5808
这个作者很懒,什么都没留下…
展开
-
霍夫丁不等式(Hoeffding's inequality)
1.简述 在概率论中,霍夫丁不等式给出了随机变量的和与其期望值偏差的概率上限,该不等式被Wassily Hoeffding于1963年提出并证明。霍夫丁不等式是Azuma-Hoeffding不等式的特例,它比Sergei Bernstein于1923年证明的Bernstein不等式更具一般性。这几个不等式都是McDiarmid不等式的特例。2.霍夫丁不等式2.1.伯努利随机变原创 2018-02-03 16:39:05 · 12533 阅读 · 2 评论 -
梯度下降(Gradient Descent)(一)
梯度下降法(gradient descent)或最速下降法(steepest descent)是求解无约束优化问题的一种最常用的方法,实现简单,属于一阶优化算法,也是迭代算法。1.梯度 在微积分中,对多元函数的参数求偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y)f(x,y)f(x,y),分别对x,yx,yx,y求偏导数,求得的梯度向量就是(...原创 2018-02-08 10:04:50 · 602 阅读 · 0 评论 -
梯度下降(Gradient Descent)(三)
在之前的博客中,我们分别讲了梯度下降的基本原理和三种变体。作为当今最流行的优化(optimization)算法(尤其是在深度学习中的应用),梯度下降存在很多问题和挑战,研究人员也相应地提出了许多优化方式,本文将对此作详细的讲解,作为梯度下降系列的最后一篇。 考虑到篇幅过长,且有几篇关于此的文章已经写得非常好,笔者仅在这里给出相应的参考文献及简要介绍,读者可自行前往阅读。 [1]...原创 2018-03-10 17:23:53 · 769 阅读 · 0 评论 -
最小二乘法(Least Squares Method)
最小二乘法,是机器学习中的一个基础概念——基础却很重要,本文将对其作一个详细的讲解,以便更好地掌握和利用。1、最小二乘 最小二乘,广义上来说其实是机器学习中的平方损失函数: L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2 对应于模型fff的线性和非线性之分,最小二乘也相应地分为线性最小二乘和非线性最小二...原创 2018-03-17 17:48:43 · 5693 阅读 · 0 评论 -
梯度下降(Gradient Descent)(二)
在机器学习领域,梯度下降有三种常见形式:批量梯度下降(BGD,batch gradient descent)、随机梯度下降(SGD,stochastic gradient descent)、小批量梯度下降(MBGD,mini-batch gradient descent)。它们的不同之处在于每次学习(更新模型参数)所使用的样本个数,也因此导致了学习准确性和学习时间的差异。 本文以线性...原创 2018-03-04 21:58:30 · 462 阅读 · 0 评论 -
牛顿法和拟牛顿法
牛顿法(Newton method)和拟牛顿法(quasi Newton method)是求解无约束最优化问题的常用方法,有收敛速度快的优点。牛顿法是迭代算法,每一步都需求解目标函数的海塞矩阵(Hessian Matrix),计算比较复杂。拟牛顿法通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵,简化了这一计算过程。1、牛顿法1.1、原理 牛顿法的原理是使用函数f(x)f(...原创 2018-03-29 22:15:56 · 2129 阅读 · 0 评论 -
极大似然估计和贝叶斯估计
极大似然估计(Maximum Likelihood Estimation,MLE)和贝叶斯估计(Bayesian Estimation)是统计推断中两种最常用的参数估计方法,二者在机器学习中的应用也十分广泛。本文将对这两种估计方法做一个详解。 考虑这样一个问题:总体XXX的概率密度函数为f(x|θ)f(x|θ)f(x|\boldsymbol \theta),观测到一组样本(X1,X2...原创 2018-04-01 16:59:06 · 645 阅读 · 0 评论 -
几个常用数学知识点
机器学习跟数学有着紧密的关系,因此掌握一些常用的数学知识点,有助于我们理解某些模型的底层相关原理。1、泰勒公式2、鞍点3、范数...原创 2018-09-06 23:15:39 · 1009 阅读 · 0 评论