【机器学习】均方误差根（RMSE：Root Mean Squared Error）

原创已于 2024-11-12 13:15:43 修改 · 4.5k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #python

于 2024-11-08 11:26:03 首次发布

人工智能同时被 2 个专栏收录

121 篇文章

订阅专栏

机器学习

104 篇文章

订阅专栏

均方误差根（Root Mean Squared Error，RMSE）是机器学习和统计学中常用的误差度量指标，用于评估预测值与真实值之间的差异。它通常用于回归模型的评价，以衡量模型的预测精度。

RMSE的定义与公式

给定预测值 $\hat{y}_i$ 和实际值 $y_i$ ，均方误差根的公式如下：

$\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2}$

其中：

n 是数据点的数量。
$\hat{y}_i$ 是模型的预测值。
$y_i$ 是真实值。

RMSE的计算步骤

求误差：计算预测值 $\hat{y}_i$ 和真实值 $y_i$ 之间的差值。
平方误差：将每个误差进行平方，得到正值，以消除正负误差的抵消影响。
求均值：将所有平方误差求和后，除以样本总数 n，得到均方误差（MSE）。
开方：对均方误差开平方根，得到 RMSE。

RMSE的性质和意义

衡量误差大小：RMSE值越小，表明预测值与真实值越接近。
单位一致：由于开平方根，RMSE的单位与原始数据的单位相同，便于解释。
对大误差敏感：RMSE对大误差更敏感，因为平方放大了误差的影响，因此，RMSE在含有较多异常值的数据集中可能会偏高。

RMSE在机器学习中的应用

RMSE广泛用于评估回归模型，如线性回归、支持向量机回归、决策树回归等。它帮助分析模型的误差分布，找出需要改进的地方。

Python 实现均方误差根 (RMSE) 的计算

可以使用 Python 实现均方误差根 (RMSE) 的计算。以下是简单的代码示例：

import numpy as np

def rmse(y_true, y_pred):
    return np.sqrt(np.mean((y_pred - y_true) ** 2))

# 示例
y_true = np.array([3, -0.5, 2, 7])
y_pred = np.array([2.5, 0.0, 2, 8])

result = rmse(y_true, y_pred)
print("RMSE:", result)

说明

y_true 是真实值数组。
y_pred 是预测值数组。
np.mean((y_pred - y_true) ** 2) 计算均方误差 (MSE)。
np.sqrt(...) 取平方根得到 RMSE。

运行此代码将输出 RMSE 的结果。

图解 RMSE

均方误差根 (RMSE) 是回归分析中用来度量预测值和真实值之间偏差的指标。让我们从图解的角度直观理解 RMSE 的计算过程以及它在误差评估中的作用。

这张图展示了真实值与预测值的关系，以及每个点之间的误差（用灰色虚线表示）。图中蓝线代表真实值，而红色交叉点代表预测值。RMSE 被计算为这些误差的平方平均值的平方根，用来量化预测值与真实值的整体偏差程度。

在这个例子中，RMSE 值越小表示模型预测越准确。如果所有红色点都紧贴在蓝线上，RMSE 会接近 0，表示预测非常精确。

import numpy as np
import matplotlib.pyplot as plt

# Generate sample data for illustration
np.random.seed(0)
x = np.linspace(0, 10, 10)                   # Independent variable (e.g., input feature)
y_true = 2 * x + 1                           # True relationship (e.g., ground truth values)
y_pred = y_true + np.random.normal(0, 2, 10) # Predicted values with random noise

# Calculate RMSE
rmse_value = np.sqrt(np.mean((y_pred - y_true) ** 2))

# Plotting the true vs. predicted values with errors
plt.figure(figsize=(10, 6))
plt.plot(x, y_true, label="True Values", color="blue", marker='o')
plt.plot(x, y_pred, label="Predicted Values", color="red", marker='x')
plt.vlines(x, y_true, y_pred, colors='gray', linestyles='dotted', label='Errors')

# Adding text and labels
plt.xlabel("x")
plt.ylabel("y")
plt.title(f"Illustration of RMSE (Root Mean Squared Error)\nRMSE = {rmse_value:.2f}")
plt.legend()
plt.grid(True)
plt.show()

绘制实际值和预测值的散点图：
- 在图中，我们将真实值 $y$ 和预测值 $\hat{y}$ 分别表示为点。假设我们有几个数据点，每个点都有一个真实值和一个预测值。
误差的可视化：
- 对于每个数据点，计算预测值与真实值之间的差（误差），可以用垂直线段表示每对真实值和预测值之间的距离。
- 例如，对于数据点 $i$ ，误差为 $e_i = \hat{y}_i - y_i$ 。