西瓜书《机器学习》学习笔记 二 模型评估与选择(二) 性能度量 ROC AUC...

西瓜书《机器学习》学习笔记 二 模型评估与选择(一)

目录

3、性能度量(performance measure)

   错误率与精度

   查准率、查全率与F1

   ROC与AUC

   代价敏感错误率与代价曲线



3、性能度量(performance measure)

衡量模型泛化能力的评价标准,就是性能度量。

性能度量 <————> 任务需求

在对比不同模型的“好坏”时,使用不同的性能度量往往会导致不同的结果,这也意味着模型的好坏是相对的。模型的好坏不仅取决于算法数据,还取决于任务需求(性能度量)。

  • 回归任务中最常用的性能度量是:均方误差(mean squared error)

聚类的性能度量可以参考西瓜书第九章,下面介绍几种分类任务中常用的性能度量:

  •    错误率与精度

分类任务中最常用的两种性能度量,既适用与二分类也使用与多分类。相对比较简单明了,公式如下:

更一般的,对于数据分布D和概率密度函数p();

错误率可以表示为

精度可以表示为

  •    查准率、查全率与F1

查准率:找出的正确样本中有多少是真正正确的;

查全率:找出的正确样本占所有正确样本的比例是多少;

对于常见的二分类问题:

                                          

查准率和查全率往往是相互矛盾的;以查准率为纵轴,查全率为横轴作图,可以得到查准率-查全率曲线,简称“P-R曲线”;

平衡点(Break-Event Point,,简称BEP):查准率==查全率时的取值。一般情况下,通过比较两条P-R曲线的BEP来比较两个学习器的优劣,BEP越大,效果越好。

BEP相对简化了些,更常用的还有F1度量:基于查准率与查全率的调和平均;定义为:

1/F1 = 1/2 * (1/P + 1/R) \rightarrow F1 = 2*P*R /(P+R)

此外还有更一般的F_{\beta },能让我们表达出查准率/查全率的不同偏好。详细介绍可以查看西瓜书2.3节。

  •    ROC与AUC

很多学习器是为测试样本产生一个实值或概率预测,然后将这个预测值与一个分类阈值进行比较,若大则为正类,否则为反类。分类过程相当于选取一个分类阈值。ROC曲线就是以每个样本的预测值作为分类阈值,然后计算两个重要量(FPR,TPR)形成的曲线。

ROC和AUC一般用于二分类学习器的性能度量;

ROC曲线的横轴是“假正确率”(False Positive Rate, 简称FPR),纵轴是“真正确率”(True Positive Rate,简称TPR);

如图所示,曲线下面包含的区域面积就是AUC(Area Under ROC Curve),一般来说,我们可以使用AUC值的大小来判断两个学习器的好坏。AUC的计算可以参考ROC和AUC介绍以及如何计算AUC

  •    代价敏感错误率与代价曲线

以上介绍的性能度量,我们一般都假设所有错误是均等代价,错误率是直接计算错误次数;但现实情况下,不同的错误的代价是不同的,我们希望的不再是简单的最小化错误次数,而是希望最小化“总体代价”(total cost)。

若假设第0类判别为第1类所造成的损失更大,则cost01>cost10;损失程度相差越大,cost01与cost10值得差别越大。

在非均等代价下,ROC曲线不能直接反映出学习器的期望总体代价,需要用“代价曲线”(cost curve);代价曲线图的横轴是取值为[0,1]的正例概率代价,其中p为样本为正例的概率;纵轴是取值为[0,1]的归一化代价,其中FPR是上面介绍的假正例率,FNR = 1-TPR是假反例率。

代价曲线的画法:

 


未完待续。。。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值