多元回归中的最大似然和最小二乘估计
- 最大似然估计
最大似然估计:对于因变量YY,最大似然估计就是去找到的参数估计值θθ ,使其发生概率最大,利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
函数YY中的自变量是相互独立,变量发生的概率联合分布可以写作当个边际分布的乘积,我们通常最大化的似然函数:
也就是联合所有的y的取值,所有 N 个变量发生概率乘积.
∏Ni=1∏i=1N为乘积算子,用乘积计算往往造成大量计算上的困难,概率乘积得到的结果会越来越小,有可能超过计算机可以计算的最小值,即数值下溢现象
通过取其对数函数:
在独立同分布前提下,Λ(θ)Λ(θ) 写作:
θθ 的解被称之为最大似然估计量(Maximum Likehood Estimator,MLE)
记为 θ̂θ^它的值被称作最大似然估计值
在正态分布中
此处 y为观察值,
不依赖于y,暂时不予考虑.
−12σ2−12σ2作为参数因子,因为假设σ2σ2 已知,暂时也忽略.
对数似然的最重要部分是:
最大似然的最大值等价求解于最小二乘求解的最小值。
所以这所谓的高斯-马尔可夫定理(Gauss-Markov Assumptions)
对上式关于μμ 的一阶导 使之等于0,求此时 μμ的值
得到μμ的最大似然估计量:
二阶导:
因为−Nσ2−Nσ2总是小于0 ,所以我们求得的解为最大值.
高斯密度函数有两个参数,即期望和方差,有时我们也需要获得最大似然关于方差这个估计量,也可以通过求二阶导来完成.
对于多元函数来讲,μ=Xβμ=Xβ 中的μμ表示其中N 个自变量的期望,也就是N×1N×1维向量,ββ为p×1p×1参数向量,我们通过相似的方法求最大似然解:
对于某一个变量上的参数,其偏导为
得到最大似然解:
如果熟悉回归方程系数的话,你会发现:
其二阶导数为
因为 X′XX′X 是一个正定矩阵 ,1σ21σ2也必须是正值。所以二阶导数的矩阵是负定,也就告诉我们,所求解的这个多元回归是 方程最大值。
也就是说,最小二乘法假设建立的关于参数的函数(方程)是正确的,通过降低模型与真实值之间的(欧式)距离得到目的,函数是关于方程模型取值与真实值之差,最小的时参数的取值。最大似然是假设变量最有可能发生的时候,此时参数的取值。度量的是经验的概率分布与模型的概率分布之间的差异,即Kullback-Leibler divergence,KL散度,或者相对熵,严格来说不是距离,因为二者是不具备对乘关系。