52、应对具有挑战性的数据：不平衡数据的处理策略

assembly8low

于 2025-09-21 09:32:54 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏： R语言机器学习实战文章标签：不平衡数据数据重平衡欠采样

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/152445997

R语言机器学习实战专栏收录该内容

64 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

应对具有挑战性的数据：不平衡数据的处理策略

1. 不平衡数据的挑战

在现实世界中，许多我们关心的预测结果具有重要意义，主要是因为它们既罕见又代价高昂。这些预测任务包括识别以下结果：
- 严重疾病
- 极端天气和自然灾害
- 欺诈活动
- 贷款违约
- 硬件或机械故障
- 高净值客户

不幸的是，目前没有一种单一的最佳方法来处理这类不平衡分类问题，即使是更先进的技术也存在缺点。重要的是要意识到数据不平衡的问题，并认识到所有解决方案都不完美。

2. 简单的数据重平衡策略

当数据集存在严重不平衡，某些类别示例过多或过少时，可以采用以下简单策略：
- 欠采样（Undersampling） ：从多数类中减去示例。最简单的情况是随机丢弃多数类的记录。但这种方法存在丢弃数据中重要小模式示例的风险，因此在数据集足够大时效果较好，以降低移除大量多数类数据导致关键训练示例被完全排除的风险。
- 过采样（Oversampling） ：添加少数类的示例。理想情况下是收集更多数据，但通常不可行，因此会随机复制少数类的示例，直到达到所需的类别平衡。不过，过采样可能会导致模型过度拟合少数类中的不重要模式或噪声。

以下是使用青少年社交媒体数据集进行数据准备的代码：

snsdata <- read_csv("snsdata.csv") |>
    mutate(
      gender = fct_recode(gender, Fe

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。