回归评价指标MSE、RMSE、MAE、R-Squared

from: https://www.jianshu.com/u/c9bd3225567e

前言

分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared。下面一一介绍

均方误差(MSE)

MSE (Mean Squared Error)叫做均方误差。看公式


image.png

这里的y是测试集上的。

用 真实值-预测值 然后平方之后求和平均。

猛着看一下这个公式是不是觉得眼熟,这不就是线性回归的损失函数嘛!!! 对,在线性回归的时候我们的目的就是让这个损失函数最小。那么模型做出来了,我们把损失函数丢到测试集上去看看损失值不就好了嘛。简单直观暴力!

均方根误差(RMSE)

RMSE(Root Mean Squard Error)均方根误差。


image.png

这不就是MSE开个根号么。有意义么?其实实质是一样的。只不过用于数据更好的描述。
例如:要做房价预测,每平方是万元(真贵),我们预测结果也是万元。那么差值的平方单位应该是 千万级别的。那我们不太好描述自己做的模型效果。怎么说呢?我们的模型误差是 多少千万?。。。。。。于是干脆就开个根号就好了。我们误差的结果就跟我们数据是一个级别的可,在描述模型的时候就说,我们模型的误差是多少万元。

MAE

MAE(平均绝对误差)


image.png

不用解释了吧。

R Squared

上面的几种衡量标准针对不同的模型会有不同的值。比如说预测房价 那么误差单位就是万元。数子可能是3,4,5之类的。那么预测身高就可能是0.1,0.6之类的。没有什么可读性,到底多少才算好呢?不知道,那要根据模型的应用场景来。
看看分类算法的衡量标准就是正确率,而正确率又在0~1之间,最高百分之百。最低0。很直观,而且不同模型一样的。那么线性回归有没有这样的衡量标准呢?答案是有的。
那就是R Squared也就R方


image.png

光看这些东西很懵逼,其中分子是Residual Sum of Squares 分母是 Total Sum of Squares
那就看公式吧


image.png

懵逼(X2)

慢慢解释。其实这个很简单。
上面分子就是我们训练出的模型预测的所有误差。
下面分母就是不管什么我们猜的结果就是y的平均数。(瞎猜的误差)

那结果就来了。
如果结果是0,就说明我们的模型跟瞎猜差不多。
如果结果是1。就说明我们模型无错误。
如果结果是0-1之间的数,就是我们模型的好坏程度。
如果结果是负数。说明我们的模型还不如瞎猜。(其实导致这种情况说明我们的数据其实没有啥线性关系)

化简上面的公式
分子分母同时除以m


image.png

那么分子就变成了我们的均方误差MSE,下面分母就变成了方差。


image.png

代码部分

具体模型代码就不给了。只说这个几种衡量标准的原始代码。

MSE

y_preditc=reg.predict(x_test) #reg是训练好的模型
mse_test=np.sum((y_preditc-y_test)**2)/len(y_test) #跟数学公式一样的

RMSE

rmse_test=mse_test ** 0.5

MAE

mae_test=np.sum(np.absolute(y_preditc-y_test))/len(y_test)

R Squared

1- mean_squared_error(y_test,y_preditc)/ np.var(y_test)

scikit-learn中的各种衡量指标

from sklearn.metrics import mean_squared_error #均方误差
from sklearn.metrics import mean_absolute_error #平方绝对误差
from sklearn.metrics import r2_score#R square
#调用
mean_squared_error(y_test,y_predict)
mean_absolute_error(y_test,y_predict)
r2_score(y_test,y_predict)
      </div>
    </div>
</div>

<!-- 如果是付费文章,未购买,则显示购买按钮 -->

<!-- 连载目录项 -->

<!-- 如果是付费文章 -->
  <!-- 如果是付费连载,已购买,且作者允许赞赏,则显示付费信息和赞赏 -->
    <div id="free-reward-panel" class="support-author">
<think>好的,用户的问题是关于如何使用Boston房价数据集进行回归预测,并绘制包含MSERMSEMAE、R-Squared评估指标的图表,同时明确横轴和纵轴的意义。我需要分步骤来回答这个问题。 首先,我需要回忆Boston房价数据集的基本情况,这是一个经典的回归问题数据集,包含房屋特征和房价中位数。用户提到了使用sklearn库,所以应该涉及加载数据集、分割数据、训练模型等步骤。 接下来,用户需要知道如何计算MSERMSEMAE、R-Squared。根据引用[1]和[2],R-Squared的计算方法已经提到,残差平方和和总平方和的关系。而MSE是均方误差,即预测值与真实值差的平方的平均值,RMSEMSE的平方根,MAE是平均绝对误差。这些指标在sklearn的metrics模块中都有现成的函数,比如mean_squared_error、mean_absolute_error、r2_score。 然后是关于图表的绘制。用户提到横轴和纵轴的意义,通常残差图中横轴是预测值,纵轴是残差(真实值-预测值),如引用[2]所述。但用户的问题可能是指预测结果的可视化,比如将真实值和预测值进行对比,这时候横轴通常是真实值,纵轴是预测值,或者反过来。需要确认哪种更合适。通常真实值作为横轴,预测值作为纵轴,这样可以观察预测值是否围绕真实值分布,理想情况下应该是一条45度的直线。 在代码实现方面,用户可能希望看到具体的步骤,比如加载数据、分割数据集、训练线性回归模型、预测、计算指标、绘制图表。引用[3]中的步骤可以作为参考,包括使用train_test_split分割数据,使用LinearRegression进行训练和预测,然后使用metrics中的函数计算指标。同时,可能需要使用matplotlib来绘制图表。 用户还可能需要注意模型评估部分的解释,比如各个指标的意义。比如MSERMSE的单位与目标变量一致,RMSE更容易解释,MAE对异常值不敏感,R-Squared表示模型解释的方差比例等,这些都需要在回答中说明。 另外,用户提到的绘制图表需要包含四个评估指标,可能需要将这些指标的值显示在图表的标题或图例中。例如,在散点图中展示真实值与预测值的关系,并在图表标题或旁边标注各个指标的值。 最后,需要确保回答的结构清晰,逐步引导用户完成整个过程,并解释每个步骤的目的和结果。同时,根据用户提供的引用,正确引用相关部分,例如在解释R-Squared时引用[1],在残差图部分引用[2],在代码步骤引用[3]。</think>### 使用Boston房价数据集进行回归预测的步骤及评估指标说明 #### 一、实现步骤 1. **数据加载与分割** 使用`sklearn.datasets.load_boston()`加载数据集,将特征变量与目标变量(房价中位数)分离。按3:1比例分割为训练集和测试集: ```python from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42) ``` 2. **模型训练与预测** 定义线性回归模型并训练: ```python from sklearn.linear_model import LinearRegression model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test) ``` 3. **评估指标计算** - **MSE(均方误差)**:预测值与真实值差的平方的均值 $$MSE = \frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2$$ - **RMSE(均方根误差)**:MSE的平方根,与目标变量单位一致 $$RMSE = \sqrt{MSE}$$ - **MAE(平均绝对误差)**:预测值与真实值绝对差的均值 $$MAE = \frac{1}{n}\sum_{i=1}^n |y_i - \hat{y}_i|$$ - **R-Squared(决定系数)**:衡量模型对数据方差的解释能力,值越大性能越好 $$R^2 = 1 - \frac{SS_{res}}{SS_{tot}}$$ 其中$SS_{res}$为残差平方和,$SS_{tot}$为总平方和[^1]。 代码实现: ```python from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score mse = mean_squared_error(y_test, y_pred) rmse = np.sqrt(mse) mae = mean_absolute_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) ``` 4. **结果可视化** **图表横轴为真实值(`y_test`),纵轴为预测值(`y_pred`)**,理想情况下散点应分布在45°直线附近。添加评估指标到标题: ```python plt.scatter(y_test, y_pred) plt.xlabel("真实房价") plt.ylabel("预测房价") plt.title(f"MSE={mse:.2f}, RMSE={rmse:.2f}, MAE={mae:.2f}, R²={r2:.2f}") plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--') # 绘制参考线 plt.show() ``` --- #### 二、图表轴意义说明 - **横轴(真实值)**:实际房价中位数,反映数据真实分布。 - **纵轴(预测值)**:模型预测的房价中位数,用于对比预测与真实值的偏离程度。 若残差随机分布在参考线附近,说明模型预测性能较好[^2]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值