1.4评估(evaluation)

本文介绍了机器学习中评估模型的重要指标——曲线下面积(AUC),讲解了AUC与ROC曲线的关系,以及如何通过AUC来衡量分类器的性能。同时提到了Spark MLlib中的评估包,包括二分、多类、多标签、排名和回归指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.4 评估(evaluation)
1.4.1 曲线下面积(AUC(Area Under Curve))
AUC是指ROC曲线下的面积,而ROC计算需要了解混淆矩阵。
混淆矩阵:
如:预测肿瘤是否为良性。

 
TP表示预测为良性,而实际也是良性的样例数; 
FN表示预测为恶性,而实际是良性的样例数;
FP表示预测为良性,而实际是恶性的样例数; 
TN表示预测为恶性,而实际也是恶性的样例数;
这四个数就形成了一个矩阵,称为混淆矩阵。定义两个变量:FPR = FP / (FP + TN),FPR表示在所有的恶性肿瘤中,被预测成良性的比例,称为伪阳性率;TPR = TP / (TP + FN),TPR表示在所有的良性肿瘤中,被预测成良性的比例,称为真阳性率。我们希望FPR越小越好,TPR越大越好。以这两个变量分别问横纵轴,可建立坐标系。


点(0,1),即FPR=0,TPR=1。FPR=0说明FP=0,也就是说,没有假正例。TPR=1说明,FN=0,也就是说没有假反例。这不就是最完美的情况吗?所有的预测都正确了。良性的肿瘤都预测为良性,恶性肿瘤都预测为恶性,分类百分之百正确。这也体现了FPR 与TPR的意义。就像前面说的我们本来就希望FPR越小越好,TPR越大越好。
点(1,0),即FPR=1,TPR=0。这个点与上面那个点形成对比,刚好相反。所以这是最糟糕的情况。所有的预测都预测错了。
点(0,0),即FPR=0,TPR=0。也就是FP=0,TP=0。所以这个点的意义是所有的样本都预测为恶性肿

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值