导数和偏导数
解析:导数是指对X一个自变量求倒,偏导数是有两个或多个变量求倒
导数:z=f(x,y)点(x0,y0)是其定义域D内一点.把y固定在y0而让x在x0有增量△x
偏导数:△z=f(x0+△x,y0)-f(x0,y0),如果△z与△x之比当△x→0时的极限存在,那么此极限值称为函数z=f(x,y)在(x0,y0)处对x的偏导数.
说明:几何意义上的理导数只是在二维平面上一条曲线上某点的斜率.偏导数是在三维空间内有一张曲面f,垂直于Y轴切曲面一刀可以得到刀具与曲面间的一条曲线,对这条曲线某一点求斜率就是传说中的 偏f/偏x;同理垂直于x轴切曲面一刀可以得到刀具与曲面间的另一条曲线,对这条曲线某一点求斜率就是传说中的 偏f/偏y.总之,都可以看做求斜率,只不过一个二维一个三维.
奇异矩阵和满秩矩阵
由定义直接可得n阶可逆矩阵的秩为n,通常又将可逆矩阵称为满秩矩阵, det(A)≠0;不满秩矩阵就是奇异矩阵,det(A)=0。
矩阵的秩
如果一个矩阵Am×n存在k阶子式不为0,且任意k+1阶子式全为0,称这个矩阵的秩是k,r(A)=k。
高斯分布
- 正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到,高斯分布函数代表的是概率分布函数
- 测量误差(测量)服从高斯分布的情况下, 最小二乘法等价于极大似然估计
- 正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线
- 若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布
- 一维正太分布公式:
- 标准正太分布公式:
,其中x为误差项,相当于
,x不是曲线函数中的自变量,而
- 正态分布图形特征:
- 参数的含义:
- 正态分布有两个参数,即期望(均数)μ和标准差σ,σ2为方差。
- 正态分布具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布记作N(μ,σ2)。
- μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数、中位数、众数相同,均等于μ。
对数公式
- 对数公式是数学中的一种常见公式,如果a^x=N(a>0,且a≠1),则x叫做以a为底N的对数,记做x=log(a)(N),其中a要写于log右下。其中a叫做对数的底,N叫做真数。通常我们将以10为底的对数叫做常用对数,以e为底的对数称为自然对数。
- 基本性质:
-
-
-
-
- 负数与零无对数.
-
*
=1
-
-
-
-
-
最大似然估计
- 是根据已有的大量样本(实际上就是利用已知的条件)来推断事件本身的一些属性参数的方法,最大估计更是最能反映这些出现的样本的,所以这个参数值也是最可靠和让人信任的,得到这个参数值后,等来了一个新样本 X(i+1) 后,我们可以预测它的标签值
- 最大似然函数应用:https://mp.weixin.qq.com/s/Wb7rXEBK_UVV1hgJBjzaEA
- 公式:
极小值
- 在某一坐标点,斜率为0的点,也就是斜率与x轴平行
- 求自变量的偏导数,可以求得函数的极小值
- 在偏导为零的这个点,函数对求偏导的自变量的变化率是零,也就是说在认为其他自变量为常量的情况下,函数在这一点的变化是零
梯度下降
- 梯度下降的方向就是在该点处使值变小最快的方向
- 梯度是函数在某点处的一个方向,并且沿着该方向变化最快,变化率最大
- 用数学方法直接求解最小二乘项的权重参数,然而有时参数是无法直接求解的,此时我们就得借助梯度下降法,不断迭代直到收敛得到最终的权重参数
最小二乘法
- 我们口头中经常说:一般来说,平均来说,如平均来说,不吸烟的健康优于吸烟者,之所以要加“平均”二字,是因为凡事皆有例外,总存在某个特别的人他吸烟但由于经常锻炼所以他的健康状况可能会优于他身边不吸烟的朋友。而最小二乘法的一个最简单的例子便是算术平均
-
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。用函数表示为:
- 使误差「所谓误差,当然是观察值与实际真实值的差量」平方和达到最小以寻求估计值的方法,就叫做最小二乘法,用最小 二乘法得到的估计,叫做最小二乘估计;当然,取平方和作为目标函数只是众多可取的方法之一。
最小二乘法的解法
概念梳理:
- 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等);如果预测的变量是连续的,我们称其为回归
- 回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析
- 如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析
- 对二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面
对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。
选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:
- 用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
- 用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
- 最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感
最常用的是普通最小二乘法( Ordinary Least Square,OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小,即采用平方损失函数