【Machine Learning, Coursera】机器学习Week6 偏斜数据集的处理

本文探讨了在机器学习中处理偏斜数据集的问题,指出分类正确率在数据不平衡时不是有效的评估标准。文章介绍了查准率、召回率以及F1 Score作为衡量指标的重要性,并解释了如何根据业务需求调整阈值来平衡查准率和召回率。通过F1 Score,可以在查准率和召回率之间找到最佳平衡点,从而优化算法性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ML Week6: Handing Skewed Data


本节内容:

  1. 查准率(precision)和召回率(recall)
  2. F1F_1F1 Score

偏斜类(skewed class)问题:数据集中每一类的数据量严重不均衡

如果数据集为偏斜类,分类正确率不是一个好的指标。比如恶性肿瘤预测问题,假设数据集中有0.5%的患者罹患恶性肿瘤,那么一个错误率为1%的学习算法可能并不是一个好的算法。此外,永远预测肿瘤为良性的算法能达到99.5%的正确率,但这显然是没有意义的。

那么,有没有更好的衡量指标呢?

这种情况下,我们可以采用查准率(precision)和召回率(recall)。

查准率衡量的是在所有预测y=1的样本中,实际上y=1的比例:
precision=true positivesno. of predicted positives=true postrue pos+false posprecision=\frac{true\ positives}{no.\ of\ predicted\ positives}= \frac{true\ pos}{true\ pos+false\ pos}precision=no. of predicted positivest

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值