分类算法的评估方法

本文介绍了分类算法的评估术语,如TP、FP、FN、TN,以及常见的评价指标,包括正确率、错误率、灵敏度、特效度、精度、召回率、F1值、PR曲线、ROC曲线和AUC值,还讨论了计算速度、鲁棒性和可扩展性等其他重要考量因素。

基本术语

常见的模型评价术语,假设分类目标只有两类,计为正例(positive)和负例(negtive)则:
1)True positives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数;
2)False positives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;
3)False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;
4)True negatives(TN):被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。

评价指标

1)正确率(accuracy)
正确率是我们最常见的评价指标,accuracy=(TP+TN)/(P+N),正确率是被分对的样本数在所有样本数中的占比,通常来说,正确率越高,分类器越好。

2)错误率(error rate)
错误率则与正确率相反,描述被分类器错分的比例,error rate=(FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy=1-error rate。

3)灵敏度(sensitive)
sensitive=TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。

4)特效度(specificity)
specificity=TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力。

5)精度(precision)
精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP)。

6)召回率(recall)
召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。

7)真正例率(ture positive rare),TPR=TP/(TP+FN)

8)假正例率(false positive

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值