极大似然估计
一言以蔽之,极大似然估计就是你现在观测到的样本应该是以最大概率出现的。
基本思路
假设每一个样本都相互独立且服从同一分布,即 X∼P(x;θ)X \sim P(x;{\boldsymbol \theta})X∼P(x;θ) ,需要注意的是这个分布的形式 PPP 和参数 θ{\boldsymbol \theta}θ 是我们需要求的,一般情况下形式就是模型,均已提前假设,参数待求。现在我们观察到 NNN 个样本:X1=x1,X2=x2,⋯ ,XN=xNX_1=x_1,X_2=x_2,\cdots,X_N=x_NX1=x1,X2=x2,⋯,XN=xN ,它们每一个样本的出现概率分别为 P(X1=x1∣θ),P(X2=x2∣θ),⋯ ,P(XN=xN∣θ)P(X_1=x_1|{\boldsymbol \theta}),P(X_2=x_2|{\boldsymbol \theta}),\cdots,P(X_N=x_N|{\boldsymbol \theta})P(X1=x1∣θ),P(X2=x2∣θ),⋯,P(XN=xN∣θ) ,那么这些样本同时出现在我们观测视线的概率为一个似然函数 L=P(X1=x1,X2=x2,⋯ ,XN=xN∣θ)L =P(X_1=x_1,X_2=x_2,\cdots,X_N=x_N|{\boldsymbol \theta})L=P(X1=x1,X2=x2,⋯,XN=xN∣θ) ,由于我们的假设是各个样本之间相互独立,因此有
L=P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ)
\begin{aligned}
L & =P(X_1=x_1|{\boldsymbol \theta}) P(X_2=x_2|{\boldsymbol \theta}) \cdots P(X_N=x_N|{\boldsymbol \theta})
\end{aligned}
L=P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ)
依据极大似然估计的思想,上述概率应该是最大的,我们的求解目标就是
maxθL
\max_{\boldsymbol \theta} L
θmaxL
因此我们根据极值的必要条件需对 LLL 进行求导,但是由于连乘的求导比较麻烦,我们做了一个技巧性处理 L^=lnL\hat{L}=\ln LL^=lnL,取其对数作为新的函数,称之为对数似然函数,即
L^=ln[P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ)]=lnP(X1=x1∣θ)+lnP(X2=x2∣θ)+⋯+lnP(XN=xN∣θ)=∑i=1NlnP(Xi=xi∣θ)
\begin{aligned}
\hat{L} &= \ln [P(X_1=x_1|{\boldsymbol \theta}) P(X_2=x_2|{\boldsymbol \theta}) \cdots P(X_N=x_N|{\boldsymbol \theta})]\\
&=\ln P(X_1=x_1|{\boldsymbol \theta}) + \ln P(X_2=x_2|{\boldsymbol \theta}) + \cdots + \ln P(X_N=x_N|{\boldsymbol \theta})\\
&= \displaystyle \sum_{i=1}^N \ln P(X_i=x_i|{\boldsymbol \theta})
\end{aligned}
L^=ln[P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ)]=lnP(X1=x1∣θ)+lnP(X2=x2∣θ)+⋯+lnP(XN=xN∣θ)=i=1∑NlnP(Xi=xi∣θ)
此时,求解目标便转化为
maxθL^
\max_{\boldsymbol \theta} \hat{L}
θmaxL^
再对 L^\hat{L}L^ 似然函数进行求导
∂L^∂θ=0
\begin{aligned}
\frac{\partial \hat{L}}{\partial {\boldsymbol \theta}} = 0
\end{aligned}
∂θ∂L^=0
即可求解出参数 θ{\boldsymbol \theta}θ 。
实例
假设样本服从一维的高斯分布 P(x)=12πσe−(x−μ)22σ2P(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}P(x)=2πσ1e−2σ2(x−μ)2 ,现在我们有 NNN 个观察数据 X1=x1,X2=x2,⋯ ,XN=xNX_1=x_1,X_2=x_2,\cdots,X_N=x_NX1=x1,X2=x2,⋯,XN=xN 我们定义其对数似然函数
L^=ln[P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ)]=ln[12πσe−(x1−μ)22σ212πσe−(x2−μ)22σ2⋯12πσe−(xN−μ)22σ2]=ln[(12πσ)Ne−(x1−μ)22σ2−(x2−μ)22σ2−⋯−(xN−μ)22σ2]=−Nln2π−Nlnσ−[(x1−μ)22σ2+(x2−μ)22σ2+⋯+(xN−μ)22σ2]
\begin{aligned}
\hat{L} &= \ln [P(X_1=x_1|{\boldsymbol \theta}) P(X_2=x_2|{\boldsymbol \theta}) \cdots P(X_N=x_N|{\boldsymbol \theta})]\\
&= \ln [\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_2-\mu)^2}{2\sigma^2}}\cdots \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_N-\mu)^2}{2\sigma^2}}] \\
&= \ln [(\frac{1}{\sqrt{2\pi}\sigma})^N e^{-\frac{(x_1-\mu)^2}{2\sigma^2}-\frac{(x_2-\mu)^2}{2\sigma^2}-\cdots-\frac{(x_N-\mu)^2}{2\sigma^2}}] \\
&=- N\ln {\sqrt{2\pi}} -N \ln \sigma- [\frac{(x_1-\mu)^2}{2\sigma^2} + \frac{(x_2-\mu)^2}{2\sigma^2} + \cdots +\frac{(x_N-\mu)^2}{2\sigma^2}]
\end{aligned}
L^=ln[P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ)]=ln[2πσ1e−2σ2(x1−μ)22πσ1e−2σ2(x2−μ)2⋯2πσ1e−2σ2(xN−μ)2]=ln[(2πσ1)Ne−2σ2(x1−μ)2−2σ2(x2−μ)2−⋯−2σ2(xN−μ)2]=−Nln2π−Nlnσ−[2σ2(x1−μ)2+2σ2(x2−μ)2+⋯+2σ2(xN−μ)2]
为求上式的最大值,我们需要对 L^\hat{L}L^ 进行求导
∂L^∂μ=−12σ2[−2(x1−μ)−2(x2−μ)−⋯−2(xN−μ)]=1σ2[(x1−μ)+(x1−μ)+⋯+(xN−μ)]
\begin{aligned}
\frac{\partial \hat{L}}{\partial \mu} &= -\frac{1}{2\sigma^2}[-2(x_1-\mu)-2(x_2-\mu)- \cdots -2(x_N-\mu)] \\
&= \frac{1}{\sigma^2}[(x_1-\mu)+(x_1-\mu)+\cdots+(x_N-\mu)]
\end{aligned}
∂μ∂L^=−2σ21[−2(x1−μ)−2(x2−μ)−⋯−2(xN−μ)]=σ21[(x1−μ)+(x1−μ)+⋯+(xN−μ)]
∂L^∂σ=−Nσ+[(x1−μ)2+(x2−μ)2+⋯+(xN−μ)2])(1σ3) \begin{aligned} \frac{\partial \hat{L}}{\partial \sigma} &= -\frac{N}{\sigma} + [(x_1-\mu)^2+(x_2-\mu)^2+\cdots+(x_N-\mu)^2])(\frac{1}{\sigma^3}) \end{aligned} ∂σ∂L^=−σN+[(x1−μ)2+(x2−μ)2+⋯+(xN−μ)2])(σ31)
分别令上面两式为零,得有偏估计
μ=x1+x2+⋯+xNNσ2=∑i=1N(xi−μ)2N
\begin{aligned}
\mu &= \frac{x_1+x_2+\cdots+x_N}{N}\\
\sigma^2 &= \frac{\displaystyle \sum_{i=1}^N(x_i-\mu)^2}{N}
\end{aligned}
μσ2=Nx1+x2+⋯+xN=Ni=1∑N(xi−μ)2
误差的高斯分布与最小二乘估计的等价性
我们已知 NNN 个样本点 (x1,y1),(x2,y2),⋯ ,(xN,yN),xi∈Rn,yi∈R1({\boldsymbol x_1},y_1),({\boldsymbol x_2},y_2),\cdots,({\boldsymbol x_N},y_N),{\boldsymbol x_i}\in\R^n,y_i\in \R^1(x1,y1),(x2,y2),⋯,(xN,yN),xi∈Rn,yi∈R1。在线性回归模型中,假设 yi^=wTxi,w∈Rn\hat{y_i} = {\boldsymbol w^T}{\boldsymbol x_i},{\boldsymbol w\in\R^n}yi^=wTxi,w∈Rn 。若拟合的误差 ei=yi−yi^e_i = y_i - \hat{y_i}ei=yi−yi^ 服从标准高斯分布,即
ei∼12πe−ei22
e_i \sim \frac{1}{\sqrt{2\pi}}e^{-\frac{e_i^2}{2}}
ei∼2π1e−2ei2
由于各个误差之间相互独立,这个时候对误差 eie_iei 应用极大似然估计,有
L^=−Nln2π−12[e12+e22+⋯+eN2]
\hat{L} = - N\ln {\sqrt{2\pi}} - \frac{1}{2}[e_1^2+e_2^2+\cdots+e_N^2]
L^=−Nln2π−21[e12+e22+⋯+eN2]
我们的目标就是
maxL^⇒min[e1+e2+⋯+eN]⇒min[(y1−wTx1)2+(y2−wTx2)2+⋯+(yN−wTxN)2]
\begin{aligned}
\max \hat{L} & \Rightarrow \min[e_1+e_2+\cdots+e_N]\\
& \Rightarrow \min [(y_1 - {\boldsymbol w^T}{\boldsymbol x_1})^2 + (y_2 - {\boldsymbol w^T}{\boldsymbol x_2})^2+ \cdots + (y_N - {\boldsymbol w^T}{\boldsymbol x_N})^2]
\end{aligned}
maxL^⇒min[e1+e2+⋯+eN]⇒min[(y1−wTx1)2+(y2−wTx2)2+⋯+(yN−wTxN)2]
令 J=(y1−wTx1)2+(y2−wTx2)2+⋯+(yN−wTxN)2J = (y_1 - {\boldsymbol w^T}{\boldsymbol x_1})^2 + (y_2 - {\boldsymbol w^T}{\boldsymbol x_2})^2+ \cdots + (y_N - {\boldsymbol w^T}{\boldsymbol x_N})^2J=(y1−wTx1)2+(y2−wTx2)2+⋯+(yN−wTxN)2 ,欲取其最小值需满足 ∂J∂w=0\frac{\partial J}{\partial {\boldsymbol w}} = 0∂w∂J=0 ,即
−2(y1−wTx1)x1+−2(y2−wTx2)x2+⋯+−2(yN−wTxN)xN=0∑i=1Nyixi=∑i=1N(wTxi)xi
\begin{aligned}
-2(y_1 - {\boldsymbol w^T}{\boldsymbol x_1}){\boldsymbol x_1} + -2(y_2 - {\boldsymbol w^T}{\boldsymbol x_2}){\boldsymbol x_2} + \cdots + -2(y_N - {\boldsymbol w^T}{\boldsymbol x_N}){\boldsymbol x_N} &= 0\\
\displaystyle \sum_{i=1}^N y_i {\boldsymbol x_i} &= \displaystyle \sum_{i=1}^N ({\boldsymbol w^T} {\boldsymbol x_i}) {\boldsymbol x_i}
\end{aligned}
−2(y1−wTx1)x1+−2(y2−wTx2)x2+⋯+−2(yN−wTxN)xNi=1∑Nyixi=0=i=1∑N(wTxi)xi
对于上式需要做一下特殊的处理
(wTxi)xi=xi(wTxi)=xi(xiTw)=(xixiT)w
({\boldsymbol w^T} {\boldsymbol x_i}) {\boldsymbol x_i} = {\boldsymbol x_i}({\boldsymbol w^T} {\boldsymbol x_i}) = {\boldsymbol x_i} ({\boldsymbol x_i}^T {\boldsymbol w}) = ({\boldsymbol x_i} {\boldsymbol x_i}^T) {\boldsymbol w}
(wTxi)xi=xi(wTxi)=xi(xiTw)=(xixiT)w
得出
∑i=1N(xixiT)w=∑i=1Nxiyi
\displaystyle \sum_{i=1}^N ({\boldsymbol x_i} {\boldsymbol x_i}^T) {\boldsymbol w} = \displaystyle \sum_{i=1}^N {\boldsymbol x_i} y_i
i=1∑N(xixiT)w=i=1∑Nxiyi
若 ∑i=1N(xixiT)\displaystyle \sum_{i=1}^N ({\boldsymbol x_i} {\boldsymbol x_i}^T)i=1∑N(xixiT) 可逆,则有
w=[∑i=1N(xixiT)]−1∑i=1Nxiyi
{\boldsymbol w} = [\displaystyle \sum_{i=1}^N ({\boldsymbol x_i} {\boldsymbol x_i}^T)]^{-1} \displaystyle \sum_{i=1}^N {\boldsymbol x_i} y_i
w=[i=1∑N(xixiT)]−1i=1∑Nxiyi
令 X=[x1,x2,⋯ ,xN]∈Rn×N,xi∈Rn,Y=[y1,y2,⋯ ,yN]∈RN×1X = [ {\boldsymbol x_1}, {\boldsymbol x_2},\cdots, {\boldsymbol x_N}] \in \R^{n\times N},{\boldsymbol x_i} \in \R^n,Y = [y_1,y_2,\cdots,y_N] \in \R^{N\times1}X=[x1,x2,⋯,xN]∈Rn×N,xi∈Rn,Y=[y1,y2,⋯,yN]∈RN×1 ,有
w=(XXT)−1XYT
{\boldsymbol w} = (XX^T)^{-1}XY^T
w=(XXT)−1XYT
可以发现公式 (8)(8)(8) 就是我们在线性回归中最小二乘法得到的结论。

本文深入探讨了极大似然估计的基本原理及应用,通过实例解析了一维高斯分布下的参数估计过程,并揭示了误差的高斯分布与最小二乘估计之间的等价性。
968

被折叠的 条评论
为什么被折叠?



