机器学习模型性能评估（一）：错误率与精度

最新推荐文章于 2025-08-26 12:32:45 发布

原创最新推荐文章于 2025-08-26 12:32:45 发布 · 5.9k 阅读

14 ·

CC 4.0 BY-SA版权

机器学习算法专栏收录该内容

21 篇文章

订阅专栏

本文深入探讨了机器学习模型性能评估的四大核心方法，包括错误率与精度、P-R曲线、ROC曲线及代价曲线，旨在帮助读者理解如何有效评估模型的泛化能力。

机器学习是对给定的原始数据集构建最优学习模型，上篇文章讲到《机器学习模型评估方法》，通过模型评估方法将原始数据集划分训练集和测试集，训练集又可细分为训练集和验证集。机器学习的整个流程包括训练集和验证集构建最优模型，最优模型评估测试集的测试误差，通过测试误差来评价学习方法的泛化能力，泛化能力是评价机器学习模型性能的金标准（如图），即泛化能力强，对应的学习模型好。

图1 机器学习流程

测试误差评价学习模型的泛化能力具有一定的局限性，抽样的测试数据集具有随机性，不同的测试集表现出不同测试误差，即评价模型的泛化能力也有所不同。

图2 测试数据集对泛化能力的影响

本文介绍了评价机器学习模型性能的四种方法：

（1）错误率与精度，错误率与精度是评价学习模型泛化能力的最常用的方法；

（2）从查准率和查全率的角度来评价学习模型泛化能力的优劣，并引用了P-R曲线和度量参数F1；

（3）ROC（Receiver Opreating Characteristic，受试者工作特征）曲线则评价“一般情况下”学习模型的泛化能力，并引用了度量参数AUC（Area Under Curve，曲线下的面积）；

（4）P-R曲线和ROC曲线认为学习器对不同类的分类错误产生的代价损失相同，则实际情况可能是不同类的分类错误产生的代价损失不相同，即非均衡代价，因此。从非均衡代价的角度去分析模型性能的优劣，并引用了代价曲线和期望总体代价。由于周老师编写的《机器学习》对代价曲线和期望总体代价描述的比较简练，因此，本文会详细去解释这两者的含义。

在介绍这四种方法前，需要理解期望和均值的概念，本文会首先引出期望和均值的概念，然后介绍评价机器学习模型性能的四种方法，最后对本文进行总结。

1、期望和均值

期望和均值这两个概念，相信在看我这篇文章的童鞋都不陌生，最近在自学贝叶斯概率的时候发现自己并没有充分理解期望和均值的概念，且这篇文章很多知识点要涉及到期望和均值的思想，因此，本节简单介绍了期望和均值的定义。

假设某一离散变量X的取值范围来自于集合A，A={X1,X2,X3,X4,...XN}，对集合A进行可放回抽样M次（参考上节），产生容量为M的抽样数据集S，数据集S的离散变量X的取值为：{X(1),X(2),X(3),...X(M)}，X(K)表示第K次可放回抽样的值。

变量X期望E(X)：