菜鸟学概率统计——最大似然估计(MLE)

本文深入浅出地解释了最大似然估计的基本概念及其求解过程,并对比了它与最小二乘法的区别,帮助读者更好地理解这两种参数估计方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说的通俗一点啊,最大似然估计,就是利用已知的样本结果反推最有可能(最大概率)导致这样结果的参数值(模型已知,参数未知)


基本思想

当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。

似然函数



对数似然函数

 当样本为独立同分布时,似然函数可简写为L(α)=Πp(xi;α),牵涉到乘法不好往下处理,于是对其取对数研究,得到对数似然函数l(α)=ln L(α)=Σln p(xi;α) 


求解极大似然

同样使用多元函数求极值的方法。

例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有放回的抽取10次,结果我发现我抽到了8次黑球2次白球,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法: 我假设我抽到黑球的概率为p,那得出8次黑球2次白球这个结果的概率为:
P(黑=8)=p^8*(1-p)^2,
现在我想要得出p是多少啊,很简单,使得P(黑=8)最大的p就是我要求的结果,接下来求导的的过程就是求极值的过程啦。
可能你会有疑问,为什么要ln一下呢,这是因为ln把乘法变成加法了,且不会改变极值的位置(单调性保持一致嘛)这样求导会方便很多~
同样,这样一道题:设总体X 的概率密度为
已知: X1,X2..Xn是样本观测值,
求:θ的极大似然估计
这也一样啊,要得到 X1,X2..Xn这样一组样本观测值的概率是
P{x1=X1,x2=X2,...xn=Xn}=f(X1,θ)f(X2,θ)…f(Xn,θ) 
然后我们就求使得P最大的θ就好啦,一样是求极值的过程,不再赘述。
关于与最小二乘法的关系:
(1)对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小最小二乘法从Cost/Loss function角度去想,一般建立模型就是让loss function最小,而最小二乘法可以认为是 loss function = (y_hat -y )^2的一个特例,类似的想各位说的还可以用各种距离度量来作为loss function而不仅仅是欧氏距离。所以loss function可以说是一种更一般化的说法。
(2)对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大最大似然估计是从概率角度来想这个问题,直观理解,似然函数在给定参数的条件下就是观测到一组数据realization的概率(或者概率密度)。最大似然函数的思想就是什么样的参数才能使我们观测到目前这组数据的概率是最大的。类似的从概率角度想的估计量还有矩估计(moment estimation)。就是通过一阶矩 二阶矩等列方程,来反解出参数。
显然,这是从不同原理出发的两种参数估计方法。
(3)最大似然估计和最小二乘法还有一大区别就是,最大似然估计是需要有分布假设的,属于参数统计,如果连分布函数都不知道,又怎么能列出似然函数呢? 而最小二乘法则没有这个假设。 二者的相同之处是都把估计问题变成了最优化问题。但是最小二乘法是一个凸优化问题,最大似然估计不一定是。在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数。与最小二乘法不同的是,最大似然法需要已知这个概率分布函数,这在时间中是很困难的。一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同
菜鸟学概率统计——最小二乘法、最大似然估计 - IMAX - IMAX 的博客
 
菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客 菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客
 
  总而言之,最小二乘法以估计值与观测值的差的平方和作为损失函数, 极大似然法则是以最大化目标值的似然概率函数为目标函数,从概率统计的角度处理线性回归并在似然概率函数为高斯函数的假设下同最小二乘建立了的联系。
菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客
菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客 菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客
### 最大似然估计的概念 最大似然估计(Maximum Likelihood Estimation, MLE)是一种用于参数估计的重要方法,在统计和机器习领域广泛用。该方法的核心在于寻找能够使观测数据出现概率大的模型参数集[^1]。 ### 数原理 从数角度讲,给定一独立同分布的样本 \(X_1,X_2,\ldots,X_n\) 和未知参数 \(\theta\) 下的概率密度函数 \(f(X_i|\theta)\),则联合概率可表示为: \[L(\theta|X)=\prod_{i=1}^{n}{f(X_i|\theta)}\] 为了简化计算通常取对数形式得到对数似然函数: \[l(\theta|X)=\sum_{i=1}^{n}\log{f(X_i|\theta)}\] 终目标是求解使得上述表达式达到极值点对的参数向 \(\hat{\theta}_{ML}\)。 ```python import numpy as np from scipy.optimize import minimize def log_likelihood(params, data): mu, sigma = params n = len(data) ll = -n/2 * np.log(2*np.pi*sigma**2) - (np.sum((data-mu)**2))/(2*sigma**2) return -ll # 负号是因为minimize找小值而我们要大化likelihood initial_guess = [0, 1] result = minimize(log_likelihood, initial_guess, args=(data,)) mle_estimate = result.x ``` 这段Python代码展示了如何使用SciPy库来实现一维高斯分布下的最大似然估计过程。 ### 实际用场景 在实际用中,MLE广泛用于各种场景之中,比如但不限于以下方面: - **回归分析**:在线性回归或者逻辑回归等问题里用来确定权重系数; - **分类问题**:构建朴素贝叶斯分类器时评估类别条件概率; - **时间序列预测**:ARIMA等模型训练过程中调整自回归项和平滑移动平均项之间的平衡; 值得注意的是,虽然MLE提供了一种有效的参数估计手段,但在某些情况下可能会遇到过拟合的风险。此时可以通过引入正则化项或将MLE扩展至MAP等方式加以改进[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值