[深度学习]数学基础之概率论

本文深入探讨了极大似然估计的基本原理及应用,通过实例解析了一维高斯分布下的参数估计过程,并揭示了误差的高斯分布与最小二乘估计之间的等价性。

极大似然估计

一言以蔽之,极大似然估计就是你现在观测到的样本应该是以最大概率出现的。

基本思路

假设每一个样本都相互独立且服从同一分布,即 X∼P(x;θ)X \sim P(x;{\boldsymbol \theta})XP(x;θ) ,需要注意的是这个分布的形式 PPP 和参数 θ{\boldsymbol \theta}θ 是我们需要求的,一般情况下形式就是模型,均已提前假设,参数待求。现在我们观察到 NNN 个样本:X1=x1,X2=x2,⋯ ,XN=xNX_1=x_1,X_2=x_2,\cdots,X_N=x_NX1=x1,X2=x2,,XN=xN ,它们每一个样本的出现概率分别为 P(X1=x1∣θ),P(X2=x2∣θ),⋯ ,P(XN=xN∣θ)P(X_1=x_1|{\boldsymbol \theta}),P(X_2=x_2|{\boldsymbol \theta}),\cdots,P(X_N=x_N|{\boldsymbol \theta})P(X1=x1θ),P(X2=x2θ),,P(XN=xNθ) ,那么这些样本同时出现在我们观测视线的概率为一个似然函数 L=P(X1=x1,X2=x2,⋯ ,XN=xN∣θ)L =P(X_1=x_1,X_2=x_2,\cdots,X_N=x_N|{\boldsymbol \theta})L=P(X1=x1,X2=x2,,XN=xNθ) ,由于我们的假设是各个样本之间相互独立,因此有
L=P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ) \begin{aligned} L & =P(X_1=x_1|{\boldsymbol \theta}) P(X_2=x_2|{\boldsymbol \theta}) \cdots P(X_N=x_N|{\boldsymbol \theta}) \end{aligned} L=P(X1=x1θ)P(X2=x2θ)P(XN=xNθ)
依据极大似然估计的思想,上述概率应该是最大的,我们的求解目标就是
max⁡θL \max_{\boldsymbol \theta} L θmaxL
因此我们根据极值的必要条件需对 LLL 进行求导,但是由于连乘的求导比较麻烦,我们做了一个技巧性处理 L^=ln⁡L\hat{L}=\ln LL^=lnL,取其对数作为新的函数,称之为对数似然函数,即
L^=ln⁡[P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ)]=ln⁡P(X1=x1∣θ)+ln⁡P(X2=x2∣θ)+⋯+ln⁡P(XN=xN∣θ)=∑i=1Nln⁡P(Xi=xi∣θ) \begin{aligned} \hat{L} &= \ln [P(X_1=x_1|{\boldsymbol \theta}) P(X_2=x_2|{\boldsymbol \theta}) \cdots P(X_N=x_N|{\boldsymbol \theta})]\\ &=\ln P(X_1=x_1|{\boldsymbol \theta}) + \ln P(X_2=x_2|{\boldsymbol \theta}) + \cdots + \ln P(X_N=x_N|{\boldsymbol \theta})\\ &= \displaystyle \sum_{i=1}^N \ln P(X_i=x_i|{\boldsymbol \theta}) \end{aligned} L^=ln[P(X1=x1θ)P(X2=x2θ)P(XN=xNθ)]=lnP(X1=x1θ)+lnP(X2=x2θ)++lnP(XN=xNθ)=i=1NlnP(Xi=xiθ)
此时,求解目标便转化为
max⁡θL^ \max_{\boldsymbol \theta} \hat{L} θmaxL^
再对 L^\hat{L}L^ 似然函数进行求导
∂L^∂θ=0 \begin{aligned} \frac{\partial \hat{L}}{\partial {\boldsymbol \theta}} = 0 \end{aligned} θL^=0
即可求解出参数 θ{\boldsymbol \theta}θ

实例

假设样本服从一维的高斯分布 P(x)=12πσe−(x−μ)22σ2P(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}P(x)=2πσ1e2σ2(xμ)2 ,现在我们有 NNN 个观察数据 X1=x1,X2=x2,⋯ ,XN=xNX_1=x_1,X_2=x_2,\cdots,X_N=x_NX1=x1,X2=x2,,XN=xN 我们定义其对数似然函数
L^=ln⁡[P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ)]=ln⁡[12πσe−(x1−μ)22σ212πσe−(x2−μ)22σ2⋯12πσe−(xN−μ)22σ2]=ln⁡[(12πσ)Ne−(x1−μ)22σ2−(x2−μ)22σ2−⋯−(xN−μ)22σ2]=−Nln⁡2π−Nln⁡σ−[(x1−μ)22σ2+(x2−μ)22σ2+⋯+(xN−μ)22σ2] \begin{aligned} \hat{L} &= \ln [P(X_1=x_1|{\boldsymbol \theta}) P(X_2=x_2|{\boldsymbol \theta}) \cdots P(X_N=x_N|{\boldsymbol \theta})]\\ &= \ln [\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_2-\mu)^2}{2\sigma^2}}\cdots \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_N-\mu)^2}{2\sigma^2}}] \\ &= \ln [(\frac{1}{\sqrt{2\pi}\sigma})^N e^{-\frac{(x_1-\mu)^2}{2\sigma^2}-\frac{(x_2-\mu)^2}{2\sigma^2}-\cdots-\frac{(x_N-\mu)^2}{2\sigma^2}}] \\ &=- N\ln {\sqrt{2\pi}} -N \ln \sigma- [\frac{(x_1-\mu)^2}{2\sigma^2} + \frac{(x_2-\mu)^2}{2\sigma^2} + \cdots +\frac{(x_N-\mu)^2}{2\sigma^2}] \end{aligned} L^=ln[P(X1=x1θ)P(X2=x2θ)P(XN=xNθ)]=ln[2πσ1e2σ2(x1μ)22πσ1e2σ2(x2μ)22πσ1e2σ2(xNμ)2]=ln[(2πσ1)Ne2σ2(x1μ)22σ2(x2μ)22σ2(xNμ)2]=Nln2πNlnσ[2σ2(x1μ)2+2σ2(x2μ)2++2σ2(xNμ)2]
为求上式的最大值,我们需要对 L^\hat{L}L^ 进行求导
∂L^∂μ=−12σ2[−2(x1−μ)−2(x2−μ)−⋯−2(xN−μ)]=1σ2[(x1−μ)+(x1−μ)+⋯+(xN−μ)] \begin{aligned} \frac{\partial \hat{L}}{\partial \mu} &= -\frac{1}{2\sigma^2}[-2(x_1-\mu)-2(x_2-\mu)- \cdots -2(x_N-\mu)] \\ &= \frac{1}{\sigma^2}[(x_1-\mu)+(x_1-\mu)+\cdots+(x_N-\mu)] \end{aligned} μL^=2σ21[2(x1μ)2(x2μ)2(xNμ)]=σ21[(x1μ)+(x1μ)++(xNμ)]

∂L^∂σ=−Nσ+[(x1−μ)2+(x2−μ)2+⋯+(xN−μ)2])(1σ3) \begin{aligned} \frac{\partial \hat{L}}{\partial \sigma} &= -\frac{N}{\sigma} + [(x_1-\mu)^2+(x_2-\mu)^2+\cdots+(x_N-\mu)^2])(\frac{1}{\sigma^3}) \end{aligned} σL^=σN+[(x1μ)2+(x2μ)2++(xNμ)2])(σ31)

分别令上面两式为零,得有偏估计
μ=x1+x2+⋯+xNNσ2=∑i=1N(xi−μ)2N \begin{aligned} \mu &= \frac{x_1+x_2+\cdots+x_N}{N}\\ \sigma^2 &= \frac{\displaystyle \sum_{i=1}^N(x_i-\mu)^2}{N} \end{aligned} μσ2=Nx1+x2++xN=Ni=1N(xiμ)2

误差的高斯分布与最小二乘估计的等价性

我们已知 NNN 个样本点 (x1,y1),(x2,y2),⋯ ,(xN,yN),xi∈Rn,yi∈R1({\boldsymbol x_1},y_1),({\boldsymbol x_2},y_2),\cdots,({\boldsymbol x_N},y_N),{\boldsymbol x_i}\in\R^n,y_i\in \R^1(x1,y1),(x2,y2),,(xN,yN),xiRn,yiR1。在线性回归模型中,假设 yi^=wTxi,w∈Rn\hat{y_i} = {\boldsymbol w^T}{\boldsymbol x_i},{\boldsymbol w\in\R^n}yi^=wTxi,wRn 。若拟合的误差 ei=yi−yi^e_i = y_i - \hat{y_i}ei=yiyi^ 服从标准高斯分布,即
ei∼12πe−ei22 e_i \sim \frac{1}{\sqrt{2\pi}}e^{-\frac{e_i^2}{2}} ei2π1e2ei2
由于各个误差之间相互独立,这个时候对误差 eie_iei 应用极大似然估计,有
L^=−Nln⁡2π−12[e12+e22+⋯+eN2] \hat{L} = - N\ln {\sqrt{2\pi}} - \frac{1}{2}[e_1^2+e_2^2+\cdots+e_N^2] L^=Nln2π21[e12+e22++eN2]
我们的目标就是
max⁡L^⇒min⁡[e1+e2+⋯+eN]⇒min⁡[(y1−wTx1)2+(y2−wTx2)2+⋯+(yN−wTxN)2] \begin{aligned} \max \hat{L} & \Rightarrow \min[e_1+e_2+\cdots+e_N]\\ & \Rightarrow \min [(y_1 - {\boldsymbol w^T}{\boldsymbol x_1})^2 + (y_2 - {\boldsymbol w^T}{\boldsymbol x_2})^2+ \cdots + (y_N - {\boldsymbol w^T}{\boldsymbol x_N})^2] \end{aligned} maxL^min[e1+e2++eN]min[(y1wTx1)2+(y2wTx2)2++(yNwTxN)2]
J=(y1−wTx1)2+(y2−wTx2)2+⋯+(yN−wTxN)2J = (y_1 - {\boldsymbol w^T}{\boldsymbol x_1})^2 + (y_2 - {\boldsymbol w^T}{\boldsymbol x_2})^2+ \cdots + (y_N - {\boldsymbol w^T}{\boldsymbol x_N})^2J=(y1wTx1)2+(y2wTx2)2++(yNwTxN)2 ,欲取其最小值需满足 ∂J∂w=0\frac{\partial J}{\partial {\boldsymbol w}} = 0wJ=0 ,即
−2(y1−wTx1)x1+−2(y2−wTx2)x2+⋯+−2(yN−wTxN)xN=0∑i=1Nyixi=∑i=1N(wTxi)xi \begin{aligned} -2(y_1 - {\boldsymbol w^T}{\boldsymbol x_1}){\boldsymbol x_1} + -2(y_2 - {\boldsymbol w^T}{\boldsymbol x_2}){\boldsymbol x_2} + \cdots + -2(y_N - {\boldsymbol w^T}{\boldsymbol x_N}){\boldsymbol x_N} &= 0\\ \displaystyle \sum_{i=1}^N y_i {\boldsymbol x_i} &= \displaystyle \sum_{i=1}^N ({\boldsymbol w^T} {\boldsymbol x_i}) {\boldsymbol x_i} \end{aligned} 2(y1wTx1)x1+2(y2wTx2)x2++2(yNwTxN)xNi=1Nyixi=0=i=1N(wTxi)xi
对于上式需要做一下特殊的处理
(wTxi)xi=xi(wTxi)=xi(xiTw)=(xixiT)w ({\boldsymbol w^T} {\boldsymbol x_i}) {\boldsymbol x_i} = {\boldsymbol x_i}({\boldsymbol w^T} {\boldsymbol x_i}) = {\boldsymbol x_i} ({\boldsymbol x_i}^T {\boldsymbol w}) = ({\boldsymbol x_i} {\boldsymbol x_i}^T) {\boldsymbol w} (wTxi)xi=xi(wTxi)=xi(xiTw)=(xixiT)w
得出
∑i=1N(xixiT)w=∑i=1Nxiyi \displaystyle \sum_{i=1}^N ({\boldsymbol x_i} {\boldsymbol x_i}^T) {\boldsymbol w} = \displaystyle \sum_{i=1}^N {\boldsymbol x_i} y_i i=1N(xixiT)w=i=1Nxiyi
∑i=1N(xixiT)\displaystyle \sum_{i=1}^N ({\boldsymbol x_i} {\boldsymbol x_i}^T)i=1N(xixiT) 可逆,则有
w=[∑i=1N(xixiT)]−1∑i=1Nxiyi {\boldsymbol w} = [\displaystyle \sum_{i=1}^N ({\boldsymbol x_i} {\boldsymbol x_i}^T)]^{-1} \displaystyle \sum_{i=1}^N {\boldsymbol x_i} y_i w=[i=1N(xixiT)]1i=1Nxiyi
X=[x1,x2,⋯ ,xN]∈Rn×N,xi∈Rn,Y=[y1,y2,⋯ ,yN]∈RN×1X = [ {\boldsymbol x_1}, {\boldsymbol x_2},\cdots, {\boldsymbol x_N}] \in \R^{n\times N},{\boldsymbol x_i} \in \R^n,Y = [y_1,y_2,\cdots,y_N] \in \R^{N\times1}X=[x1,x2,,xN]Rn×N,xiRn,Y=[y1,y2,,yN]RN×1 ,有
w=(XXT)−1XYT {\boldsymbol w} = (XX^T)^{-1}XY^T w=(XXT)1XYT
可以发现公式 (8)(8)(8) 就是我们在线性回归中最小二乘法得到的结论。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值