最大似然估计(MLE)--从数学知识看待机器学习

1.高斯分布推导得最小二乘法、

高斯分布:由u和sigma决定,u决定其横坐标的位置,sigma决定其峰值的高低,sigma越大表示标准差越大,说明分布越散,峰值也就越低,同理标准差越小分布越集中,峰值越高。

因为概率密度函数给出了相应值的概率,我们就可以按照分布对数据进行采样,每个数据点的采样互不影响,且都是从同一个分布中采样而来的。这样的采样结果我们称为独立同分布的数据,(独立同分布很重要,是大部分算法模型的重要假设)。

那么将问题反过来:有一组采样数据来自于同一个高斯分布,如何确定这些数据是具体来自于下面的哪一个高斯分布呢?

其实任何参数的高斯分布都能取到上述数据,区别只是概率大小。那么,我们想知道的是哪一个高斯分布使得上述的数据出现的概率最大,每一个数据被采样的概率都可以写成一个条件概率的形式,其中u和sigma都是一样的,同时他们相互独立。所以同时出现的概率也就是联合概率,概率的连乘。

### 最大似然估计的概念 最大似然估计(Maximum Likelihood Estimation, MLE)是一种用于参数估计的重要方法,在统计学机器学习领域广泛应用。该方法的核心在于寻找能够使观测数据出现概率最大的模型参数集[^1]。 ### 数学原理 从数学角度讲,给定一组独立同分布的样本 \(X_1,X_2,\ldots,X_n\) 未知参数 \(\theta\) 下的概率密度函数 \(f(X_i|\theta)\),则联合概率可表示为: \[L(\theta|X)=\prod_{i=1}^{n}{f(X_i|\theta)}\] 为了简化计算通常取对数形式得到对数似然函数: \[l(\theta|X)=\sum_{i=1}^{n}\log{f(X_i|\theta)}\] 最终目标是求解使得上述表达式达到极值点对应的参数向量 \(\hat{\theta}_{ML}\)。 ```python import numpy as np from scipy.optimize import minimize def log_likelihood(params, data): mu, sigma = params n = len(data) ll = -n/2 * np.log(2*np.pi*sigma**2) - (np.sum((data-mu)**2))/(2*sigma**2) return -ll # 负号是因为minimize找最小值而我们要最大化likelihood initial_guess = [0, 1] result = minimize(log_likelihood, initial_guess, args=(data,)) mle_estimate = result.x ``` 这段Python代码展示了如何使用SciPy库来实现一维高斯分布下的最大似然估计过程。 ### 实际应用场景 在实际应用中,MLE广泛应用于各种场景之中,比如但不限于以下方面: - **回归分析**:在线性回归或者逻辑回归等问题里用来确定权重系数; - **分类问题**:构建朴素贝叶斯分类器时评估类别条件概率; - **时间序列预测**:ARIMA等模型训练过程中调整自回归项平滑移动平均项之间的平衡; 值得注意的是,虽然MLE提供了一种有效的参数估计手段,但在某些情况下可能会遇到过拟合的风险。此时可以通过引入正则化项或将MLE扩展至MAP等方式加以改进[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值