[深度学习]数学基础之概率论

最新推荐文章于 2025-08-06 01:32:56 发布

原创最新推荐文章于 2025-08-06 01:32:56 发布 · 584 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #概率论

极大似然估计同时被 3 个专栏收录

1 篇文章

订阅专栏

误差的高斯分布

1 篇文章

订阅专栏

最小二乘估计的等价性

1 篇文章

订阅专栏

本文深入探讨了极大似然估计的基本原理及应用，通过实例解析了一维高斯分布下的参数估计过程，并揭示了误差的高斯分布与最小二乘估计之间的等价性。

极大似然估计

一言以蔽之，极大似然估计就是你现在观测到的样本应该是以最大概率出现的。

基本思路

假设每一个样本都相互独立且服从同一分布，即 $\sim P(x;{\boldsymbol \theta})$ ，需要注意的是这个分布的形式 $P$ 和参数 $θ{\boldsymbol \theta}$ 是我们需要求的，一般情况下形式就是模型，均已提前假设，参数待求。现在我们观察到 $N$ 个样本： $,XN=xNX_1=x_1,X_2=x_2,\cdots,X_N=x_N$ ，它们每一个样本的出现概率分别为 $,P(XN=xN∣θ)P(X_1=x_1|{\boldsymbol \theta}),P(X_2=x_2|{\boldsymbol \theta}),\cdots,P(X_N=x_N|{\boldsymbol \theta})$ ，那么这些样本同时出现在我们观测视线的概率为一个似然函数 $=P(X_1=x_1,X_2=x_2,\cdots,X_N=x_N|{\boldsymbol \theta})$ ，由于我们的假设是各个样本之间相互独立，因此有
$\begin{aligned} L & =P(X_1=x_1|{\boldsymbol \theta}) P(X_2=x_2|{\boldsymbol \theta}) \cdots P(X_N=x_N|{\boldsymbol \theta}) \end{aligned}$
依据极大似然估计的思想，上述概率应该是最大的，我们的求解目标就是
$\max_{\boldsymbol \theta} L$
因此我们根据极值的必要条件需对 $L$ 进行求导，但是由于连乘的求导比较麻烦，我们做了一个技巧性处理 $L^=ln⁡L\hat{L}=\ln L$ ，取其对数作为新的函数，称之为对数似然函数，即
$L^=ln⁡[P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ)]=ln⁡P(X1=x1∣θ)+ln⁡P(X2=x2∣θ)+⋯+ln⁡P(XN=xN∣θ)=∑i=1Nln⁡P(Xi=xi∣θ) \begin{aligned} \hat{L} &= \ln [P(X_1=x_1|{\boldsymbol \theta}) P(X_2=x_2|{\boldsymbol \theta}) \cdots P(X_N=x_N|{\boldsymbol \theta})]\\ &=\ln P(X_1=x_1|{\boldsymbol \theta}) + \ln P(X_2=x_2|{\boldsymbol \theta}) + \cdots + \ln P(X_N=x_N|{\boldsymbol \theta})\\ &= \displaystyle \sum_{i=1}^N \ln P(X_i=x_i|{\boldsymbol \theta}) \end{aligned}$
此时，求解目标便转化为
$max⁡θL^ \max_{\boldsymbol \theta} \hat{L}$
再对 $L^\hat{L}$ 似然函数进行求导
$∂L^∂θ=0 \begin{aligned} \frac{\partial \hat{L}}{\partial {\boldsymbol \theta}} = 0 \end{aligned}$
即可求解出参数 $θ{\boldsymbol \theta}$ 。

实例

假设样本服从一维的高斯分布 $P(x)=12πσe−(x−μ)22σ2P(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ ，现在我们有 $N$ 个观察数据 $,XN=xNX_1=x_1,X_2=x_2,\cdots,X_N=x_N$ 我们定义其对数似然函数
$L^=ln⁡[P(X1=x1∣θ)P(X2=x2∣θ)⋯P(XN=xN∣θ)]=ln⁡[12πσe−(x1−μ)22σ212πσe−(x2−μ)22σ2⋯12πσe−(xN−μ)22σ2]=ln⁡[(12πσ)Ne−(x1−μ)22σ2−(x2−μ)22σ2−⋯−(xN−μ)22σ2]=−Nln⁡2π−Nln⁡σ−[(x1−μ)22σ2+(x2−μ)22σ2+⋯+(xN−μ)22σ2] \begin{aligned} \hat{L} &= \ln [P(X_1=x_1|{\boldsymbol \theta}) P(X_2=x_2|{\boldsymbol \theta}) \cdots P(X_N=x_N|{\boldsymbol \theta})]\\ &= \ln [\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_2-\mu)^2}{2\sigma^2}}\cdots \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_N-\mu)^2}{2\sigma^2}}] \\ &= \ln [(\frac{1}{\sqrt{2\pi}\sigma})^N e^{-\frac{(x_1-\mu)^2}{2\sigma^2}-\frac{(x_2-\mu)^2}{2\sigma^2}-\cdots-\frac{(x_N-\mu)^2}{2\sigma^2}}] \\ &=- N\ln {\sqrt{2\pi}} -N \ln \sigma- [\frac{(x_1-\mu)^2}{2\sigma^2} + \frac{(x_2-\mu)^2}{2\sigma^2} + \cdots +\frac{(x_N-\mu)^2}{2\sigma^2}] \end{aligned}$
为求上式的最大值，我们需要对 $L^\hat{L}$ 进行求导
$∂L^∂μ=−12σ2[−2(x1−μ)−2(x2−μ)−⋯−2(xN−μ)]=1σ2[(x1−μ)+(x1−μ)+⋯+(xN−μ)] \begin{aligned} \frac{\partial \hat{L}}{\partial \mu} &= -\frac{1}{2\sigma^2}[-2(x_1-\mu)-2(x_2-\mu)- \cdots -2(x_N-\mu)] \\ &= \frac{1}{\sigma^2}[(x_1-\mu)+(x_1-\mu)+\cdots+(x_N-\mu)] \end{aligned}$

$∂L^∂σ=−Nσ+[(x1−μ)2+(x2−μ)2+⋯+(xN−μ)2])(1σ3) \begin{aligned} \frac{\partial \hat{L}}{\partial \sigma} &= -\frac{N}{\sigma} + [(x_1-\mu)^2+(x_2-\mu)^2+\cdots+(x_N-\mu)^2])(\frac{1}{\sigma^3}) \end{aligned}$

分别令上面两式为零，得有偏估计
$\begin{aligned} \mu &= \frac{x_1+x_2+\cdots+x_N}{N}\\ \sigma^2 &= \frac{\displaystyle \sum_{i=1}^N(x_i-\mu)^2}{N} \end{aligned}$

误差的高斯分布与最小二乘估计的等价性

我们已知 $N$ 个样本点 $,(xN,yN),xi∈Rn,yi∈R1({\boldsymbol x_1},y_1),({\boldsymbol x_2},y_2),\cdots,({\boldsymbol x_N},y_N),{\boldsymbol x_i}\in\R^n,y_i\in \R^1$ 。在线性回归模型中，假设 $yi^=wTxi,w∈Rn\hat{y_i} = {\boldsymbol w^T}{\boldsymbol x_i},{\boldsymbol w\in\R^n}$ 。若拟合的误差 $ei=yi−yi^e_i = y_i - \hat{y_i}$ 服从标准高斯分布，即
$e_i \sim \frac{1}{\sqrt{2\pi}}e^{-\frac{e_i^2}{2}}$
由于各个误差之间相互独立，这个时候对误差 $e_i$ 应用极大似然估计，有
$L^=−Nln⁡2π−12[e12+e22+⋯+eN2] \hat{L} = - N\ln {\sqrt{2\pi}} - \frac{1}{2}[e_1^2+e_2^2+\cdots+e_N^2]$
我们的目标就是
$max⁡L^⇒min⁡[e1+e2+⋯+eN]⇒min⁡[(y1−wTx1)2+(y2−wTx2)2+⋯+(yN−wTxN)2] \begin{aligned} \max \hat{L} & \Rightarrow \min[e_1+e_2+\cdots+e_N]\\ & \Rightarrow \min [(y_1 - {\boldsymbol w^T}{\boldsymbol x_1})^2 + (y_2 - {\boldsymbol w^T}{\boldsymbol x_2})^2+ \cdots + (y_N - {\boldsymbol w^T}{\boldsymbol x_N})^2] \end{aligned}$
令 $(y_1 - {\boldsymbol w^T}{\boldsymbol x_1})^2 + (y_2 - {\boldsymbol w^T}{\boldsymbol x_2})^2+ \cdots + (y_N - {\boldsymbol w^T}{\boldsymbol x_N})^2$ ，欲取其最小值需满足 $∂J∂w=0\frac{\partial J}{\partial {\boldsymbol w}} = 0$ ，即
$\begin{aligned} -2(y_1 - {\boldsymbol w^T}{\boldsymbol x_1}){\boldsymbol x_1} + -2(y_2 - {\boldsymbol w^T}{\boldsymbol x_2}){\boldsymbol x_2} + \cdots + -2(y_N - {\boldsymbol w^T}{\boldsymbol x_N}){\boldsymbol x_N} &= 0\\ \displaystyle \sum_{i=1}^N y_i {\boldsymbol x_i} &= \displaystyle \sum_{i=1}^N ({\boldsymbol w^T} {\boldsymbol x_i}) {\boldsymbol x_i} \end{aligned}$
对于上式需要做一下特殊的处理
$({\boldsymbol w^T} {\boldsymbol x_i}) {\boldsymbol x_i} = {\boldsymbol x_i}({\boldsymbol w^T} {\boldsymbol x_i}) = {\boldsymbol x_i} ({\boldsymbol x_i}^T {\boldsymbol w}) = ({\boldsymbol x_i} {\boldsymbol x_i}^T) {\boldsymbol w}$
得出
$\displaystyle \sum_{i=1}^N ({\boldsymbol x_i} {\boldsymbol x_i}^T) {\boldsymbol w} = \displaystyle \sum_{i=1}^N {\boldsymbol x_i} y_i$
若 $∑i=1N(xixiT)\displaystyle \sum_{i=1}^N ({\boldsymbol x_i} {\boldsymbol x_i}^T)$ 可逆，则有
${\boldsymbol w} = [\displaystyle \sum_{i=1}^N ({\boldsymbol x_i} {\boldsymbol x_i}^T)]^{-1} \displaystyle \sum_{i=1}^N {\boldsymbol x_i} y_i$
令 ${\boldsymbol x_1}, {\boldsymbol x_2},\cdots, {\boldsymbol x_N}] \in \R^{n\times N},{\boldsymbol x_i} \in \R^n,Y = [y_1,y_2,\cdots,y_N] \in \R^{N\times1}$ ，有
${\boldsymbol w} = (XX^T)^{-1}XY^T$
可以发现公式 $(8)$ 就是我们在线性回归中最小二乘法得到的结论。