最大似然估计

在线性回归中,最大似然估计(Maximum Likelihood Estimation,
MLE)是一种通过观测数据估计模型参数的常用方法,其核心思想是找到使得观测数据出现概率最大的参数值。以下从模型设定、概率假设、似然函数构建、参数求解及与最小二乘法的联系等方面详细介绍:

一、线性回归模型设定

考虑多元线性回归模型,设自变量矩阵为 X∈Rn×p\mathbf{X} \in \mathbb{R}^{n \times p}XRn×pnnn 为样本数,ppp 为特征数),因变量为 y∈Rn\mathbf{y} \in \mathbb{R}^nyRn,模型可表示为:
y=Xβ+ϵ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} y=Xβ+ϵ
其中 β∈Rp\boldsymbol{\beta} \in \mathbb{R}^pβRp 是待估参数(包含截距项),ϵ∈Rn\boldsymbol{\epsilon} \in \mathbb{R}^nϵRn 是误差项向量。

二、误差项的概率假设

最大似然估计的关键是对误差项 ϵ\boldsymbol{\epsilon}ϵ 的分布作出假设。在线性回归中,通常假设:

  1. 独立同分布(i.i.d.):每个样本的误差相互独立且服从相同分布;
  2. 正态分布ϵ∼N(0,σ2I)\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I})ϵN(0,σ2I),即误差服从均值为 0、方差为 σ2\sigma^2σ2 的正态分布。

根据模型 y=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}y=Xβ+ϵ,可得因变量 y\mathbf{y}y 的条件分布为:
y∣X,β,σ2∼N(Xβ,σ2I) \mathbf{y} \mid \mathbf{X}, \boldsymbol{\beta}, \sigma^2 \sim \mathcal{N}(\mathbf{X}\boldsymbol{\beta}, \sigma^2 \mathbf{I}) yX,β,σ2N(Xβ,σ2I)
即给定 X\mathbf{X}X 和参数 β,σ2\boldsymbol{\beta}, \sigma^2β,σ2y\mathbf{y}y 服从均值为 Xβ\mathbf{X}\boldsymbol{\beta}Xβ、协方差矩阵为 σ2I\sigma^2 \mathbf{I}σ2I 的多元正态分布。

三、构建似然函数与对数似然函数

1. 似然函数(Likelihood Function)

对于独立同分布的样本,似然函数是观测数据 y\mathbf{y}y 关于参数 β,σ2\boldsymbol{\beta}, \sigma^2β,σ2 的联合概率密度函数:
L(β,σ2;X,y)=∏i=1n12πσ2exp⁡(−(yi−Xiβ)22σ2) L(\boldsymbol{\beta}, \sigma^2; \mathbf{X}, \mathbf{y}) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - \mathbf{X}_i\boldsymbol{\beta})^2}{2\sigma^2}\right) L(β,σ2;X,y)=i=1n2πσ21exp(2σ2(yiXiβ)2)
其中 Xi\mathbf{X}_iXiX\mathbf{X}X 的第 iii 行,对应第 iii 个样本的自变量向量。

2. 对数似然函数(Log-Likelihood Function)

为简化计算,对似然函数取对数,得到对数似然函数:
ln⁡L(β,σ2)=−n2ln⁡(2π)−n2ln⁡σ2−12σ2∑i=1n(yi−Xiβ)2 \ln L(\boldsymbol{\beta}, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - \mathbf{X}_i\boldsymbol{\beta})^2 lnL(β,σ2)=2nln(2π)2nlnσ22σ21i=1n(yiXiβ)2
最大化对数似然函数等价于最大化似然函数(因对数函数是单调递增函数)。

四、参数求解:最大化对数似然函数

我们需要同时估计 β\boldsymbol{\beta}βσ2\sigma^2σ2,分两步进行:

1. 求解 β\boldsymbol{\beta}β(固定 σ2\sigma^2σ2

观察对数似然函数,第二项和第三项包含 β\boldsymbol{\beta}β。忽略与 β\boldsymbol{\beta}β 无关的常数项,最大化目标可简化为最小化:
12σ2∑i=1n(yi−Xiβ)2 \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - \mathbf{X}_i\boldsymbol{\beta})^2 2σ21i=1n(yiXiβ)2
由于 σ2>0\sigma^2 > 0σ2>0 是常数,最小化上式等价于最小化误差平方和(SSE):
SSE(β)=∑i=1n(yi−Xiβ)2=(y−Xβ)T(y−Xβ) SSE(\boldsymbol{\beta}) = \sum_{i=1}^n (y_i - \mathbf{X}_i\boldsymbol{\beta})^2 = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) SSE(β)=i=1n(yiXiβ)2=(yXβ)T(yXβ)
β\boldsymbol{\beta}β 求偏导并令导数为零:
∂SSE∂β=−2XT(y−Xβ)=0 \frac{\partial SSE}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) = \mathbf{0} βSSE=2XT(yXβ)=0
解得 正规方程(Normal Equation)
XTXβ=XTy \mathbf{X}^T\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^T\mathbf{y} XTXβ=XTy
XTX\mathbf{X}^T\mathbf{X}XTX 可逆时,参数估计为:
β^MLE=(XTX)−1XTy \hat{\boldsymbol{\beta}}_{\text{MLE}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} β^MLE=(XTX)1XTy
这与最小二乘法(OLS)的估计结果完全一致,说明在正态分布假设下,MLE与OLS等价。

2. 求解 σ2\sigma^2σ2(固定 β=β^\boldsymbol{\beta} = \hat{\boldsymbol{\beta}}β=β^

β^\hat{\boldsymbol{\beta}}β^ 代入对数似然函数,对 σ2\sigma^2σ2 求导并令导数为零:
∂ln⁡L∂σ2=−n2σ2+12(σ2)2(y−Xβ^)T(y−Xβ^)=0 \frac{\partial \ln L}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})^T(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) = 0 σ2lnL=2σ2n+2(σ2)21(yXβ^)T(yXβ^)=0
解得方差的MLE为:
σ^MLE2=1n(y−Xβ^)T(y−Xβ^)=SSEn \hat{\sigma}_{\text{MLE}}^2 = \frac{1}{n} (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})^T(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) = \frac{SSE}{n} σ^MLE2=n1(yXβ^)T(yXβ^)=nSSE
注意:这是有偏估计,无偏估计为 σ^OLS2=SSEn−p\hat{\sigma}_{\text{OLS}}^2 = \frac{SSE}{n-p}σ^OLS2=npSSE,两者区别在于分母自由度。

五、MLE的性质与意义

  1. 一致性:当样本量 n→∞n \to \inftyn 时,β^MLE\hat{\boldsymbol{\beta}}_{\text{MLE}}β^MLE 依概率收敛于真实参数 β\boldsymbol{\beta}β
  2. 渐近正态性:在正则条件下,MLE渐近服从正态分布:
    β^MLE∼N(β,σ2(XTX)−1) \hat{\boldsymbol{\beta}}_{\text{MLE}} \sim \mathcal{N}\left(\boldsymbol{\beta}, \sigma^2 (\mathbf{X}^T\mathbf{X})^{-1}\right) β^MLEN(β,σ2(XTX)1)
  3. 与OLS的等价性:仅当误差服从正态分布时,MLE与OLS结果一致;若误差非正态,OLS仍可使用,但MLE需基于真实分布假设。
  4. 概率解释:MLE通过最大化数据出现的概率来估计参数,相比OLS更具统计推断意义(如构造置信区间、假设检验)。

六、总结

线性回归中的最大似然估计通过假设误差服从正态分布,将参数估计转化为最大化数据的联合概率问题。其核心步骤包括:

  1. 设定线性模型与误差分布;
  2. 构建似然函数并转换为对数形式;
  3. 对参数求导并解正规方程;
  4. 得到参数估计(与OLS结果一致)。

MLE不仅提供了参数估计方法,还为线性回归的统计推断(如t检验、F检验)奠定了理论基础,是连接回归模型与概率统计的重要桥梁。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值