在线性回归中极大似然和最小二乘法的关系

本文对比了最小二乘法与极大似然估计在回归算法中的应用,详细解析了两者在损失函数推导过程中的相似性,以及它们在参数估计上的联系与区别。在特定条件下,如数据服从正态分布时,两种方法得出相同的参数估计。

我在Logistic Regression回归中对损失函数用极大似然估计推导,在线性回归中对损失函数用最小二乘法推导,发现在推导梯度的过程中,结果是一样的,所以我对两种方法进行了分析对比。

一、最小二乘法

1.定义
当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。
2.在线性回归中的损失函数
在这里插入图片描述
θ表示要求的参数,h(x)为观测值,y为理论值。

3.对其求偏导后的函数为
采用多元函数求极值的方法,对θ求偏导,让偏导等于0,求出θ值。当θ为向量时,需要对各个θi求偏导计算。

参数更新的公式为:
在这里插入图片描述

二、极大似然估计

1.定义
对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。
2.在Logistic Regression回归中的损失函数
在这里插入图片描述
3.似然估计的思想
测量值 X 是服从概率分布的,求概率模型中的参数,使得在假设的分布下获得该组测量出现概率最大。

4.对似然估计求解得出偏导得出
多元函数求极值的方法,对θ求偏导,让偏导等于0,求出θ值。当θ为向量时,需要对各个θi求偏导计算。

参数更新的公式为:
在这里插入图片描述

三、极大似然估计与最小二乘法的联系与区别

由以上两点,我们可以看出用最小二乘法在线性回归和极大似然估计在Logistic Regression回归中根据损失函数求出的偏导是一样的。

在后面我会具体写出极大似然估计是怎么推导出和最小二乘法一样的具体步骤。

在回归算法中,用最小二乘法和最大似然估计求解损失函数时,最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数。与最小二乘法不同的是,最大似然法需要已知这个概率分布函数,这在实践中是很困难的。一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。

最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数,从概率统计的角度处理线性回归并在似然概率函数为高斯函数的假设下同最小二乘建立了的联系。

### 区别分析 极大似然估计(Maximum Likelihood Estimation, MLE)最小二乘法(Least Squares Method, LSM)是统计学机器学习中常用的两种参数估计方法,它们在思想、假设条件优化目标上存在显著差异。 #### 1. 思想差异 最小二乘法的核心思想是通过最小化预测值与观测值之间的距离(通常是平方误差)来确定模型参数。该方法关注的是模型输出与真实观测值之间的偏差,并试图找到使这种偏差最小的参数组合。这种方法不需要对数据的分布形式做出明确假设,因此属于非参数方法[^2]。 而极大似然估计则基于概率模型,其目标是最大化观测数据出现的概率。具体来说,MLE假设数据服从某种已知的概率分布(如正态分布),并通过调整模型参数使得观测数据的似然函数达到最大值。这种方法本质上依赖于对数据分布的假设,因此属于参数统计方法[^4]。 #### 2. 假设条件 最小二乘法对数据分布没有明确要求,即使数据不满足某种特定分布,该方法仍然可以应用。这种灵活使得LSM在许多实际场景中得到了广泛应用,尤其是在线回归问题中[^2]。 相比之下,极大似然估计必须基于对数据分布的先验假设。例如,在线回归中,若假设误差项服从正态分布,则MLE与LSM在形式上是等价的。但如果数据的真实分布与假设不符,MLE的结果可能会出现偏差[^4]。 #### 3. 优化最小二乘法通常是一个凸优化问题,这意味着其目标函数具有唯一的全局最优解,可以通过解析方法(如正规方程)或迭代算法(如梯度下降)高效求解。 而极大似然估计的目标函数不一定是凸的,尤其在复杂模型中可能存在多个局部最优解。这使得MLE的求解过程更加复杂,往往需要依赖数值优化方法,并且对初始值敏感[^4]。 #### 4. 应用场景 最小二乘法广泛应用于线回归、信号处理等领域,特别是在数据分布未知或不重要时。 极大似然估计则在需要明确概率模型的场景中更为常见,如分类问题中的逻辑回归、生成模型(如高斯混合模型)等。MLE能够提供更丰富的统计推断信息,例如参数的标准误置信区间[^4]。 #### 5. 二者联系 尽管MLE与LSM在思想假设上有所不同,但在某些特定条件下它们可以相互转化。例如,当误差项服从独立同分布的正态分布时,极大似然估计的目标函数可以转化为最小化平方误差的形式,此时MLE与LSM是等价的[^5]。 ### 示例代码:线回归中的最小二乘法极大似然估计 ```python import numpy as np from sklearn.linear_model import LinearRegression # 生成模拟数据 np.random.seed(0) X = np.random.rand(100, 1) * 10 y = 2.5 * X + 1.2 + np.random.randn(100, 1) # 最小二乘法 model = LinearRegression() model.fit(X, y) print("最小二乘法估计参数:", model.coef_, model.intercept_) # 极大似然估计(假设误差服从正态分布) def mle(X, y): n = len(y) X = np.hstack((np.ones((n, 1)), X)) # 添加截距项 theta = np.linalg.inv(X.T @ X) @ X.T @ y return theta print("极大似然估计参数:", mle(X, y)) ``` ### 总结 最小二乘法极大似然估计各有优劣,选择哪种方法取决于具体的应用场景数据特。LSM适用于分布未知、优化目标明确的问题,而MLE适用于需要概率解释、对数据分布有明确假设的场合。在特定条件下,两者可以相互转化,尤其是在误差服从正态分布的情况下。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值