菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客

本文介绍了最大似然估计(MLE)的基本概念与应用方法,解释了如何通过已知样本结果反推最有可能的参数值,并对比了MLE与最小二乘法的不同之处。

菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客

说的通俗一点啊,最大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值(模型已知,参数未知)。

>

基本思想
当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。
似然函数

>

对数似然函数
当样本为独立同分布时,似然函数可简写为L(α)=Πp(xi;α),牵涉到乘法不好往下处理,于是对其取对数研究,得到对数似然函数l(α)=ln L(α)=Σln p(xi;α)

>

求解极大似然
同样使用多元函数求极值的方法。

例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有放回的抽取10次,结果我发现我抽到了8次黑球2次白球,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法: 我假设我抽到黑球的概率为p,那得出8次黑球2次白球这个结果的概率为:
P(黑=8)=p^8*(1-p)^2,
现在我想要得出p是多少啊,很简单,使得P(黑=8)最大的p就是我要求的结果,接下来求导的的过程就是求极值的过程啦。
可能你会有疑问,为什么要ln一下呢,这是因为ln把乘法变成加法了,且不会改变极值的位置(单调性保持一致嘛)这样求导会方便很多~
同样,这样一道题:设总体X 的概率密度为
已知: X1,X2..Xn是样本观测值,
求:θ的极大似然估计
这也一样啊,要得到 X1,X2..Xn这样一组样本观测值的概率是
P{x1=X1,x2=X2,…xn=Xn}= f(X1,θ)f(X2,θ)…f(Xn,θ)
然后我们就求使得P最大的θ就好啦,一样是求极值的过程,不再赘述。

关于与最小二乘法的关系:

     (1)对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。最小二乘法从Cost/Loss function角度去想,一般建立模型就是让loss function最小,而最小二乘法可以认为是 loss function = (y_hat -y )^2的一个特例,类似的想各位说的还可以用各种距离度量来作为loss function而不仅仅是欧氏距离。所以loss function可以说是一种更一般化的说法。
     (2)对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。最大似然估计是从概率角度来想这个问题,直观理解,似然函数在给定参数的条件下就是观测到一组数据realization的概率(或者概率密度)。最大似然函数的思想就是什么样的参数才能使我们观测到目前这组数据的概率是最大的。类似的从概率角度想的估计量还有矩估计(moment estimation)。就是通过一阶矩 二阶矩等列方程,来反解出参数。

显然,这是从不同原理出发的两种参数估计方法。

     (3)最大似然估计和最小二乘法还有一大区别就是,最大似然估计是需要有分布假设的,属于参数统计,如果连分布函数都不知道,又怎么能列出似然函数呢? 而最小二乘法则没有这个假设。 二者的相同之处是都把估计问题变成了最优化问题。但是最小二乘法是一个凸优化问题,最大似然估计不一定是。在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数。与最小二乘法不同的是,最大似然法需要已知这个概率分布函数,这在时间中是很困难的。一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。

菜鸟学概率统计——最小二乘法、最大似然估计 - IMAX - IMAX 的博客

菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客

总而言之,最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数,从概率统计的角度处理线性回归并在似然概率函数为高斯函数的假设下同最小二乘建立了的联系。
菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客
菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客

最大似然估计(Maximum Likelihood Estimation, MLE)是统计中一种常用的参数估计方法,其核心思想是:在给定观测数据的前提下,选择使数据出现概率最大的参数值作为估计值。该方法广泛应用于回归分析、分类模型、概率密度估计等领域。 --- MLE的基本原理是构建似然函数 $ L(\theta \mid x) $,表示在参数 $ \theta $ 下观测到数据 $ x $ 的概率。通过最大化该函数或其对数形式(对数似然函数),可以求得最优参数估计值: $$ \hat{\theta} = \arg\max_{\theta} L(\theta \mid x) $$ 对于独立同分布(i.i.d.)样本 $ x_1, x_2, \dots, x_n $,似然函数可表示为: $$ L(\theta \mid x_1, \dots, x_n) = \prod_{i=1}^n f(x_i \mid \theta) $$ 为了简化计算,通常使用对数似然函数: $$ \ell(\theta \mid x_1, \dots, x_n) = \sum_{i=1}^n \log f(x_i \mid \theta) $$ --- MLE的求解过程通常包括以下步骤: - **定义概率模型**:假设数据服从某种分布(如正态分布、泊松分布等),写出其概率密度函数或概率质量函数。 - **构造似然函数或对数似然函数**:基于观测数据,写出关于参数的似然函数。 - **最大化似然函数**:通过求导并令导数为零,求解最优参数估计值;若无法解析求解,可使用数值优化方法(如牛顿法、梯度上升法)。 - **评估估计结果**:计算估计值的方差、置信区间,或进行假设检验。 --- MLE的应用场景包括: - **参数估计**:如估计正态分布的均值和方差。 - **回归分析**:在线性回归和逻辑回归中,MLE用于估计模型参数。 - **分类模型**:如逻辑回归、朴素贝叶斯分类器。 - **生存分析**:在医统计中估计生存函数参数。 - **信号处理**:在通信系统中进行参数估计和信道建模。 --- 一个典型示例是使用MLE估计正态分布的均值和方差。假设样本 $ x_1, x_2, \dots, x_n $ 来自正态分布 $ N(\mu, \sigma^2) $,则对数似然函数为: $$ \ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 $$ 通过求导可得最大似然估计: $$ \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i $$ $$ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \hat{\mu})^2 $$ 在实际应用中,可以使用Python的`scipy.optimize`模块进行MLE估计: ```python import numpy as np from scipy.optimize import minimize_scalar from scipy.stats import norm # 生成服从正态分布的样本 data = np.random.normal(loc=5, scale=2, size=100) # 定义负对数似然函数(最小化负对数似然等价于最大化对数似然) def neg_log_likelihood(mu, data, sigma=2): return -np.sum(norm.logpdf(data, loc=mu, scale=sigma)) # 估计均值 result = minimize_scalar(lambda mu: neg_log_likelihood(mu, data), bounds=(0, 10), method='bounded') estimated_mu = result.x ``` ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值