05.线性回归评估指标

原创于 2025-10-13 16:38:00 发布 · 797 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#线性回归 #机器学习 #算法

机器学习专栏收录该内容

9 篇文章

订阅专栏

一、为什么要进行线性回归模型评估？

线性回归模型建立后，我们需要量化预测值与真实值之间的差异，以评估模型的预测精度和可靠性。选择合适的评估指标可以帮助我们：

比较不同模型的性能
诊断模型存在的问题（如过拟合、欠拟合）
指导模型优化方向
为实际应用提供可靠性参考

二、三种评估指标详解

1. 平均绝对误差（MAE - Mean Absolute Error）

数学表达式：

$MAE=1n∑i=1n∣yi−yi^∣ MAE = \frac{1}{n} \sum_{i=1}^{n}\left |{y_i}-\widehat{y_i}\right |$

特点：

直接反映预测值与真实值的平均绝对差异
对异常值不敏感，具有较好的鲁棒性
量纲与原始数据相同，易于解释
提供的是误差的"平均水平"

优点：

计算简单，直观易懂
对异常值不敏感，稳定性好

缺点：

无法反映误差的方向（正负误差同等对待）
在某些场景下可能不够敏感

2. 均方误差（MSE - Mean Squared Error）

数学表达式：

$MSE=1n∑i=1n(yi−yi^)2 MSE = \frac{1}{n} \sum_{i=1}^{n}\left ({y_i}-\widehat{y_i}\right )^2$

特点：

通过平方放大较大误差的影响
对异常值敏感
量纲为原始数据的平方
是许多模型训练的优化目标

优点：

强调较大误差，对严重错误更敏感
数学性质良好，便于求导优化
是许多统计方法的基础

缺点：

对异常值过于敏感
量纲不易解释（平方单位）

3. 均方根误差（RMSE - Root Mean Squared Error）

数学表达式：

$RMSE=1n∑i=1n(yi−yi^)2 RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n}\left ({y_i}-\widehat{y_i}\right )^2}$

特点：

实际上是MSE的平方根
量纲与原始数据相同，易于解释
对较大误差比MAE更敏感
保留了MSE的数学特性

优点：

结合了MSE和MAE的优点
量纲一致，解释性强
对严重错误有足够的惩罚

缺点：

仍对异常值较为敏感

三、三种指标的区别对比

指标	敏感度	量纲	数学特性	异常值影响
MAE	低	原始量纲	不可导	不敏感
MSE	高	平方量纲	可导	非常敏感
RMSE	中高	原始量纲	可导	敏感

四、适用场景建议

优先选择MAE的场景：

异常值较多且需要稳健评估的数据
需要强解释性的业务场景（如医疗费用预测）
误差分布相对均匀，不需要特别关注极端错误

优先选择RMSE的场景：

需要避免严重错误的领域（如工程安全监测、金融风控）
希望平衡普通误差和严重误差的关注度
作为模型训练的辅助评估指标

优先选择MSE的场景：

作为模型训练的损失函数（因其良好的数学性质）
需要进一步计算其他指标（如R²）的基础
理论研究和模型推导

五、Python中的实现方法

1. 使用scikit-learn库

from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# 示例数据
y_true = [3, -0.5, 2, 7]  # 真实值
y_pred = [2.5, 0.0, 2, 8]  # 预测值

# 计算MAE
mae = mean_absolute_error(y_true, y_pred)
print(f"MAE: {mae}")

# 计算MSE
mse = mean_squared_error(y_true, y_pred)
print(f"MSE: {mse}")

# 计算RMSE
rmse = np.sqrt(mse)  # 方法1：对MSE开方
rmse = mean_squared_error(y_true, y_pred, squared=False)  # 方法2：直接计算
print(f"RMSE: {rmse}")

2. 手动实现（理解原理）

import numpy as np

def calculate_mae(y_true, y_pred):
    return np.mean(np.abs(np.array(y_true) - np.array(y_pred)))

def calculate_mse(y_true, y_pred):
    return np.mean((np.array(y_true) - np.array(y_pred)) ** 2)

def calculate_rmse(y_true, y_pred):
    return np.sqrt(calculate_mse(y_true, y_pred))

# 使用示例
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]

print(f"手动计算 MAE: {calculate_mae(y_true, y_pred)}")
print(f"手动计算 MSE: {calculate_mse(y_true, y_pred)}")
print(f"手动计算 RMSE: {calculate_rmse(y_true, y_pred)}")

3. 综合评估示例

from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# 生成示例数据
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

# 划分训练测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 全面评估
print("模型评估结果:")
print(f"MAE: {mean_absolute_error(y_test, y_pred):.4f}")
print(f"MSE: {mean_squared_error(y_test, y_pred):.4f}")
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred)):.4f}")
print(f"R² Score: {model.score(X_test, y_test):.4f}")