极大似然估计的直观推导和应用(OLS、Lasso、Ridge)

本文深入探讨了极大似然估计(MLE)在概率论与数理统计中的应用,及其与贝叶斯理论的关系。通过分析,揭示了MLE与最小二乘法、Ridge回归和Lasso回归之间的联系,提供了对这些常见统计方法背后的理论基础的深刻理解。

极大似然估计(Maximum Likelihood Estimation)在概率论与数理统计中极为重要的参数估计方法,它是基于贝叶斯理论的,而贝叶斯定理详细解释参看https://blog.youkuaiyun.com/To_be_to_thought/article/details/81223561

Part1.贝叶斯理论(Bayesian Theorem):

                                                     

为先验概率, 是似然, 为基于数据集y的参数的后验概率,前两式由条件概率公式易得。而对于来自相同总体的样本数据集, 是一样的,只需要知道 即可,而基于不同的采样数据集, 是不一样的。换句话说只有对于来自相同总体(保证先验分布相同)的统一数据集才能比较似然函数(likelihood)大小,“后验概率”是“似然值”的“先验概率”倍。

因为上面的正比例关系,所以记似然函数 。如果数据集中 是独立的或者在给定 时条件独立,则在整个数据集上的似然函数为各个独立样本似然函数的乘积:

                                                             

为避免计算时数据下溢,并且计算求导更加方便,取对数得到对数似然函数(log-likelihood function):

                                                                   

上述过程中不难看出,贝叶斯估计中有待商榷的就是如何假设出合适准确的先验概率。

Part2:极大似然估计与最小二乘原理的联系

2.1在多元线性回归中,假设

                               

整个数据集D上的似然函数为:

                                           

取最大值时的参数 ,只需要求 的最小值,到了这一步与普通最小二乘法(OLS)的目标函数一致,下面就可以用标准公式法或者梯度下降法求解参数向量

2.2极大似然估计与RidgeRegression

除了假设残差 服从某种分布,也可以假设 服从某种分布,具体为 ,i=1,2,…,p ,并且 相互独立。

                                       

取最大值时的参数 ,只需要求 :

                                                   

上式与岭回归(Ridge Regression)的损失函数一致:

                                                              

2.3极大似然估计与LassoRegression

假设 ,并且 相互独立。laplace的概率密度函数为:

                                                                     

整个数据集上的似然函数为:

                            

取最大值时的参数 ,只需要求 :

                                                     

上式与Lasso的损失函数一致:

                                                           

至此,OLS、Lasso、Ridge的损失函数都有其概率统计理论支持。

<think>嗯,我现在需要理解线性回归的极大似然估计。首先,我记得线性回归是用来建立自变量因变量之间关系的模型,通常用最小二乘法来估计参数。但为什么这里提到极大似然估计呢?是不是说极大似然估计最小二乘法有关系? 让我先回忆一下线性回归的基本形式。假设有数据点$(x_i, y_i)$,其中$x_i$是自变量,$y_i$是因变量。线性回归模型可以表示为: $$y_i = \beta_0 + \beta_1 x_i + \epsilon_i$$ 这里$\beta_0$$\beta_1$是待估计的参数,$\epsilon_i$是误差项。通常假设误差项服从正态分布,均值为0,方差为$\sigma^2$,也就是$\epsilon_i \sim N(0, \sigma^2)$。这可能极大似然估计有关,因为极大似然需要假设误差的分布。 接下来,极大似然估计的原理是找到参数使得观测数据出现的概率最大。那如何应用到线性回归中呢?首先,我需要写出似然函数。因为每个$y_i$都是独立同分布的,所以它们的联合概率密度函数就是各个概率密度的乘积。 假设误差项$\epsilon_i$独立且服从正态分布,那么$y_i$的条件分布也是正态的,即$y_i | x_i \sim N(\beta_0 + \beta_1 x_i, \sigma^2)$。因此,$y_i$的概率密度函数为: $$ f(y_i | x_i; \beta_0, \beta_1, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - (\beta_0 + \beta_1 x_i))^2}{2\sigma^2}\right) $$ 那么似然函数是所有样本点概率密度的乘积: $$ L(\beta_0, \beta_1, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - (\beta_0 + \beta_1 x_i))^2}{2\sigma^2}\right) $$ 为了方便计算,通常取对数似然函数: $$ \ln L = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2 $$ 接下来,为了最大化对数似然函数,需要对参数$\beta_0$、$\beta_1$$\sigma^2$求导并令导数为零。注意到对于$\beta_0$$\beta_1$,最大化对数似然相当于最小化残差平方$\sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2$,这最小二乘法的目标函数是一样的。因此,极大似然估计给出的$\beta$参数估计最小二乘法的结果相同。 那对于$\sigma^2$的估计呢?求导之后应该能得到它的估计量,可能是一个有偏估计?例如,可能分母是n而不是n-2?不过需要具体推导一下。 另外,可能需要考虑多元线性回归的情况,此时参数$\beta$是一个向量,推导过程类似,但需要用到矩阵的导数。不过用户的问题可能先关注简单的一元情况,然后再推广。 有没有可能哪里出错了?比如,是否必须假设误差服从正态分布才能用极大似然?是的,因为如果误差不是正态的,极大似然估计可能最小二乘的结果不同。所以在线性回归中使用极大似然估计的前提是误差项的正态性假设。 总结一下步骤应该是:建立模型,假设误差分布,写出似然函数,取对数,求导,解得参数估计。然后指出在正态假设下,极大似然估计与最小二乘结果一致,并得到$\sigma^2$的估计量。</think>线性回归的极大似然估计(MLE)是一种基于概率模型的参数估计方法,其核心是假设误差服从正态分布,并通过最大化观测数据出现的概率来求解参数。以下是详细步骤解释: --- ### **1. 线性回归模型与假设** 假设有$n$个观测数据$(x_i, y_i)$,线性模型为: $$y_i = \beta_0 + \beta_1 x_i + \epsilon_i,$$ 其中: - $\beta_0, \beta_1$为待估参数, - $\epsilon_i$为误差项,满足$\epsilon_i \sim N(0, \sigma^2)$(独立同分布的正态误差)。 --- ### **2. 构建似然函数** 由于$y_i$的条件分布为$y_i | x_i \sim N(\beta_0 + \beta_1 x_i, \sigma^2)$,其概率密度函数为: $$ f(y_i | x_i; \beta_0, \beta_1, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - (\beta_0 + \beta_1 x_i))^2}{2\sigma^2}\right). $$ 所有观测值的联合似然函数为: $$ L(\beta_0, \beta_1, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - (\beta_0 + \beta_1 x_i))^2}{2\sigma^2}\right). $$ --- ### **3. 对数似然函数** 取自然对数简化计算: $$ \ln L = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2. $$ --- ### **4. 最大化对数似然** 为最大化$\ln L$,需分别对$\beta_0$、$\beta_1$$\sigma^2$求偏导并令其为0。 #### **(1) 对$\beta_0$$\beta_1$求导** 最大化$\ln L$等价于最小化**残差平方**: $$ \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2. $$ 这与最小二乘法(OLS)的目标函数一致,因此: - $\hat{\beta}_0$$\hat{\beta}_1$的MLE估计OLS结果相同。 #### **(2) 对方差$\sigma^2$求导** 解得方差估计量为: $$ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2, $$ 其中$\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$。此估计量是**有偏的**,通常修正为无偏估计: $$ s^2 = \frac{1}{n-2} \sum_{i=1}^n (y_i - \hat{y}_i)^2. $$ --- ### **5. 关键结论** - **参数估计**:在正态误差假设下,MLE给出的$\beta_0$$\beta_1$估计与最小二乘法相同。 - **方差估计**:MLE的$\sigma^2$估计是有偏的,但可通过自由度修正为无偏。 --- ### **6. 推广到多元线性回归** 对于多元模型$y = X\beta + \epsilon$($X$为设计矩阵,$\beta$为参数向量),MLE推导类似: - 对数似然函数为: $$ \ln L = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} (y - X\beta)^\top (y - X\beta). $$ - 参数估计结果为: $$ \hat{\beta} = (X^\top X)^{-1} X^\top y. $$ --- ### **总结** 线性回归的极大似然估计在正态误差假设下,提供了与最小二乘法一致的参数估计,并扩展了方差估计的理论基础。这一方法将统计模型与概率分布结合,为后续的假设检验置信区间构建奠定了基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值