roc曲线的意义_ROC曲线分析

ROC曲线是一种评估分类器性能的方法,靠近左上角的曲线代表更好的性能。它可以展示不同阈值下的灵敏度和特异度,帮助选择最佳诊断界限值。通过对ROC曲线的比较,可以判断不同诊断方法的优劣。ROC曲线不受类分布影响,适用于不平衡数据集的评估。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

7da630a89e3739788a8a48e97f5d5e38.gif

作者:柏安之  封面:自己想吧

29437e17d53321e22e8be21bdfbd90af.png

01

ROC曲线的主要作用

(1)ROC曲线可以很容易地查出一个分类器在某个阈值时对样本的识别能力。

(2)可以借助ROC曲线选择出某一诊断方法最佳的诊断界限值。ROC曲线越是靠近左上角,试验的FPR越高和FPR越低,即灵敏度越高,误判率越低,则诊断方法的性能越好。可知ROC曲线上最靠近左上角的ROC曲线上的点其灵敏度和特异度之和最大,这个点或是其邻近点常被称为诊断参考值,这些点被称为最佳临界点,点上的值被称为最佳临界值。

(3)ROC曲线可以用于比较两种或两种以上不同诊断方法对疾病的识别能力大小。在对同一疾病的两种或是两种诊断方法进行比较时,可将各个诊断方法的ROC曲线画到同一个ROC空间中(同一个坐标系中),这样就可以直观的鉴别各种诊断方法的优劣了。可以越是靠近左上角的ROC曲线所代表的诊断方法性能越好。

02

ROC曲线实例分析

如果我们拿到一组ROC曲线的话,该如何分析呢?下面就使用一个实例具体向大家介绍一下应该如何看一组ROC曲线。

若我们使用甲,乙,丙三种找诊断方法对同一疾病进行诊断并在同一个坐标系中画出其ROC曲线如下图4-1:(甲=红,乙=黄,丙=蓝)

37c4536bca880bfa29e0b0afc515a16a.png

4-1

(1)图中的横纵坐标

纵坐标代表的是灵敏度,该指标越高代表诊断的准确率越高;横坐标代表的是1-特异度,该指标越低就代表误判率越低。所以总的来看越是靠近ROC空间的左上角的点,其诊断效果越好。

(2) 图中四个特殊的点和一条特殊的线

第一个点是(0,1)即FPR=0,TPR=1的点,这一点意味着这个分类器很强大,他将所有的样本都正确分类了;

第二个点(1,0)即FPR=1,TPR=0,类似的可以发现这是一个很糟糕的分类器,它成功的避开了所有的正确答案。

第三个点(0,0)即FPR=TPR=0,可以发现该分类器将所有的样本都分为负样本。

第四个点(1,1)即FPR=TPR=1,同理该分类器将所有的样本都分成正样本。

(3)特殊的线

一条特殊的线是图中的虚线y=x。在这条对角线上的点其实表示的是一个采用随机猜测策略的分类器对样本进行分类的结果,例如(0.5,0.5)就表示分类器随机对一半的样本猜测为正样本,另一半的样本为负样本的分类结果。

(4)红,黄,蓝三条线比较

最后我们来看看甲,乙,丙三种方法对应的三条线,前面已经说到了越是靠近左上角的ROC曲线,其对应的分类器性能越好。

从图中可以直观地看出红线最靠近左上角的ROC曲线,即甲分类器的性能最好,其最佳临界点就是最靠近的左上角的A点。

相比于甲方法来说,乙方法就要差一点。我们可以在X轴上做一条垂线,经过红,黄两条线上的两个点,可以知道两个点的FPR值相同即两个方法此时的误判率相同;但是红线上点的TPR值大于黄线上的点,即甲方法的灵敏度大于乙方法,这就意味着在这一点甲方法的准确率高于乙方法。

再说丙方法,像蓝线这样的ROC曲线一般是不会出现的,因为ROC曲线基本都是在对角线之上的。硬要分析的话只能说丙方法实在是太糟糕了,以至于随机分类的正确率都要比该方法高。一般我们以对角线作为参照线,认为在对角线以上的ROC曲线有诊断意义,对角线以下的ROC曲线没有诊断意义。如果很不幸,你在实验中得到一个为于对角线下方的ROC曲线的话,一个最直观的补救方法就是将所有的预测结果反向,即若分类器输出的结果为正,则最终的分类结果就为负,反之就分为正。

还有一点要说的是ROC曲线之所以是从左下角到右上角,即ROC曲线单调递增是因为从保守分类到激进分类,其TPR与FPR都是上升的。这其实很好理解,你的标准越来越低,那么实际有病的人被诊断为有病的概率上升,但是原本将健康的人被判为有病的概率也升高。

03

ROC 曲线的优点

(1)简单、直观

通过图示可以观察诊断方法的临床准确性,并方便的用肉眼做出判断。ROC曲线将灵敏度和特异度以图示的方法结合在一起,可准确地反映某分析方法灵敏度和特异度的关系,是诊断方法准确性的综合法代表。

(2)ROC曲线对类分布的改变不敏感

类分布就是测试集中正例和负例的比例。在实际应用中,类分布的不平衡现象非常广泛,类分布不平衡程度达到1:10,1:100的非常常见,有的甚至达到1:10^6。这种严重的不平衡的类分布使得一些传统的评价标准不再适用,而ROC曲线由于不受类分布的影响,适合于评估、比较这种不平衡数据集。

(:任何既用到P中的实例又用到N中的实例的标准势必要受到类分布改变的影响。而在ROC图形中,FPR只用到了N中的实例,TRP只用到了P中的实例,因此,不依赖于类分布的改变。)

参考网址:

[1]关于ROC曲线不得不说的故事

http://www.labweb.cn/html/de_zlkz/201409/17985.html

[2]张建国. ROC曲线分析的基本原理以及在体质与健康促进研究中的应用[J]. 体育科学, 2008, 28(6):62-66.

[3]ROC以及AUC介绍以及如何计算AUC

http://alexkong.net/2013/06/introduction-to-auc-and-roc/

[4]AUC计算(Area Under roc Curve)计算及其与ROC曲线的关系http://blog.youkuaiyun.com/chjjunking/article/details/5933105

[5]百度文库《ROC曲线》

http://wenku.baidu.com/link?url=6eOs5_TmRu8ZJ9NxVXAsUoav1onoi5_qVK_UwkzrCiFMlOaKs6UhKTh9ATHBlUDsfyrHmDVCHJNoVpPh8pbsUxiwGOCMVAF9r40gA9fEx-O

[6]百度百科

http://baike.baidu.com/link?url=Nj8rLRsRZ3nrJycQ0IUQcVi6G1ENTDz4lvEPr9cyOjfEpo5VcELso6w1L9oKWoSoe8Z4YkikB1YAo8xBGzE_6a

[7]互动百科

http://www.baike.com/wiki/ROC%E6%9B%B2%E7%BA%BF

0a8a2c75605076d14260bd77800918da.png 作者简介

姓名:柏安之 

院校:哈尔滨工程大学 

专业:管理科学工程硕士 

擅长:数据挖掘、数据可视化

学堂君的历史合辑:

  菜鸟也爱数据分析之SPSS篇

  问卷设计与统计分析

  线性回归

  量表信效度分析

  聚类分析

  时间序列分析

  粉丝常见问题

欢迎添加:

【数据分析服务】微信号:LYJ_312

 【社群服务助手】微信号:spss_shequn

 【加入团队】:请点击招募,我们是认真的!

224f318f0dd2317feb06a631c76cd0c7.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值