我的人工智能之旅——偏斜类问题

探讨了在正样本比例极低的偏斜类问题中,传统的准确率指标不再适用。介绍了查准率和召回率的概念,以及如何通过F值来权衡这两个指标,以评估模型的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

偏斜类问题

正样本数占样本总数的比例极小时,容易出现偏斜类问题。

例如癌症测试。样本集合中仅有0.5%的癌症样本,99.5%的正常样本。通过某一假设函数后,得到1%为癌症患者,99%为正常样本。虽然总的正确率高达99%,但假设函数并不理想。因为,我们的目的是为了,检测出是否得癌。

这时候,如果将99%的准确率提升至99.2%,无疑是一个较大的提升,虽然,在数值上来看,只有0.2%。

因此,对于偏斜类问题,需要引入两个概念,查准率(precision)和召回率(recall).

查准率&召回率

还是癌症检测为例。

 

实际标签(1代表得癌)

10

预计标签(1代表得癌)

1AB
0CD

预计得癌人数中,真正得癌的人数,占预计得癌人数的比例,为查准率。即\frac{A}{A+B}

预计得癌人数中,真正得癌的人数,占实际得癌人数的比例,为召回率。即\frac{A}{A+C}

查准率和召回率通常是此长彼消的。

比如,我们使用逻辑回归,计算得癌风险,通过比对阀值p,预判是否得癌。高于p为癌症,低于p为正常。

当将p设置为0.9时,预测过于严谨,导致查出癌症的人数减少,准确率提高,即查准率提高。同时,由于过于严谨,导致部分得癌样本未被检出,因此召回率会比较低。

当将p设置为0.1时,结果又会反转。查准率低,召回率高。

如何权衡查准率和召回率呢?

权衡公式F

通常采用公式F。假设查准率为m,召回率为n,那么

F=\frac{2mn}{m+n}

F值高者,对应的模型更优秀。

例如查准率,召回率都趋近于1,则F趋近于1。

两者趋近于0,则F趋近于0.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值