菜鸟学概率统计——最大似然估计（MLE)

最新推荐文章于 2025-06-05 13:45:31 发布

范超奇

最新推荐文章于 2025-06-05 13:45:31 发布

阅读量3k

点赞数 1

分类专栏：杂谈

杂谈专栏收录该内容

10 篇文章

订阅专栏

本文深入浅出地解释了最大似然估计的基本概念及其求解过程，并对比了它与最小二乘法的区别，帮助读者更好地理解这两种参数估计方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：https://www.zhihu.com/question/20447622/answer/23902715

说的通俗一点啊，最大似然估计，就是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值(模型已知，参数未知）。

基本思想

当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大，而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。

似然函数

对数似然函数

当样本为独立同分布时，似然函数可简写为L(α)=Πp(xi;α)，牵涉到乘法不好往下处理，于是对其取对数研究，得到对数似然函数l(α)=ln L(α)=Σln p(xi;α)

求解极大似然

同样使用多元函数求极值的方法。

例如：一个麻袋里有白球与黑球，但是我不知道它们之间的比例，那我就有放回的抽取10次，结果我发现我抽到了8次黑球2次白球，我要求最有可能的黑白球之间的比例时，就采取最大似然估计法：我假设我抽到黑球的概率为p,那得出8次黑球2次白球这个结果的概率为：

P(黑=8)=p^8*（1-p）^2,

现在我想要得出p是多少啊，很简单，使得P(黑=8)最大的p就是我要求的结果，接下来求导的的过程就是求极值的过程啦。

可能你会有疑问，为什么要ln一下呢，这是因为ln把乘法变成加法了，且不会改变极值的位置（单调性保持一致嘛）这样求导会方便很多~

同样，这样一道题：设总体X 的概率密度为
已知： X1,X2..Xn是样本观测值，

求：θ的极大似然估计
这也一样啊，要得到 X1,X2..Xn这样一组样本观测值的概率是

P{x1=X1,x2=X2,...xn=Xn}=f(X1,θ)f(X2,θ)…f(Xn,θ)

然后我们就求使得P最大的θ就好啦，一样是求极值的过程，不再赘述。

关于与最小二乘法的关系：

（1）对于最小二乘法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小。最小二乘法从Cost/Loss function角度去想，一般建立模型就是让loss function最小，而最小二乘法可以认为是 loss function = （y_hat -y )^2的一个特例，类似的想各位说的还可以用各种距离度量来作为loss function而不仅仅是欧氏距离。所以loss function可以说是一种更一般化的说法。

（2）对于最大似然法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。最大似然估计是从概率角度来想这个问题，直观理解，似然函数在给定参数的条件下就是观测到一组数据realization的概率（或者概率密度）。最大似然函数的思想就是什么样的参数才能使我们观测到目前这组数据的概率是最大的。类似的从概率角度想的估计量还有矩估计（moment estimation）。就是通过一阶矩二阶矩等列方程，来反解出参数。

显然，这是从不同原理出发的两种参数估计方法。

（3）最大似然估计和最小二乘法还有一大区别就是，最大似然估计是需要有分布假设的，属于参数统计，如果连分布函数都不知道，又怎么能列出似然函数呢？而最小二乘法则没有这个假设。二者的相同之处是都把估计问题变成了最优化问题。但是最小二乘法是一个凸优化问题，最大似然估计不一定是。在最大似然法中，通过选择参数，使已知数据在某种意义下最有可能出现，而某种意义通常指似然函数最大，而似然函数又往往指数据的概率分布函数。与最小二乘法不同的是，最大似然法需要已知这个概率分布函数，这在时间中是很困难的。一般假设其满足正态分布函数的特性，在这种情况下，最大似然估计和最小二乘估计相同。