机器学习性能度量

最新推荐文章于 2024-08-26 06:45:00 发布

原创最新推荐文章于 2024-08-26 06:45:00 发布 · 582 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

3 篇文章

订阅专栏

本文介绍了机器学习中用于评估学习器泛化能力的各种性能度量方法，包括回归任务中的均方误差，分类任务中的错误率、精度、查准率、查全率、F1分数、ROC曲线与AUC等。

性能度量

即对学习器泛化能力的评估标准。根据不同的任务需求选择不同的性能度量方式

回归任务中性能度量

最常用的性能度量方式是：均方误差

更一般的，对于数据集D 和概率密度p ，均方误差可以描述为：

分类任务中性能度量

1. 错误率与精度

错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例，错误率+精度=1。

2. 查准率、查全率、F1

查准率:也称为准确率precision，即预测结果是正类的样本中分类正确的比例。

查全率：也称为召回率recall，即实际是正类样本被分类正确的比例。

混淆矩阵如下：

真实情况	预测结果
真实情况	正例	反例
正例	TP(真正例True Positive)	FN(假反例False Negative)
反例	FP(假正例False Positive)	TN(真反例True Negative)

F1：查全率和查准率其实是一对矛盾的度量，想要查全率高，可以把所有样本都选进来，那自然所有的实际正类样本都被挑出来了，查全率自然高，但查准率会低；想要查准率高，可以把最可能是正类的样本选进来，那查准率就高了，但肯定预测出来的正类不全。因此 F1就是基于P和R的调和平均。但是为什么不用算术平均而是用调和平均呢？
原因是调和平均会在P和R相差较大时偏向较小的值。Fβ中的β>0,度量了P和R的相对重要性。

3. ROC与AUC

很多学习器是为测试样本产生一个实值或概率预测，然后将之歌预测值与一个分类阈值进行比较，若大于阈值则分为正类，否则为反类。因此将学习器的预测结果对样本进行排序，按照顺序逐个将样本作为正例预测，每次算出TPR（真正例率）和FPR（假正例率），分别TPR和FPR作为纵坐标和横坐标，最后构成的曲线叫“ROC曲线”。ROC称为‘受试者工作特征’。