应对具有挑战性的数据:不平衡数据的处理策略
1. 不平衡数据的挑战
在现实世界中,许多我们关心的预测结果具有重要意义,主要是因为它们既罕见又代价高昂。这些预测任务包括识别以下结果:
- 严重疾病
- 极端天气和自然灾害
- 欺诈活动
- 贷款违约
- 硬件或机械故障
- 高净值客户
不幸的是,目前没有一种单一的最佳方法来处理这类不平衡分类问题,即使是更先进的技术也存在缺点。重要的是要意识到数据不平衡的问题,并认识到所有解决方案都不完美。
2. 简单的数据重平衡策略
当数据集存在严重不平衡,某些类别示例过多或过少时,可以采用以下简单策略:
- 欠采样(Undersampling) :从多数类中减去示例。最简单的情况是随机丢弃多数类的记录。但这种方法存在丢弃数据中重要小模式示例的风险,因此在数据集足够大时效果较好,以降低移除大量多数类数据导致关键训练示例被完全排除的风险。
- 过采样(Oversampling) :添加少数类的示例。理想情况下是收集更多数据,但通常不可行,因此会随机复制少数类的示例,直到达到所需的类别平衡。不过,过采样可能会导致模型过度拟合少数类中的不重要模式或噪声。
以下是使用青少年社交媒体数据集进行数据准备的代码:
snsdata <- read_csv("snsdata.csv") |>
mutate(
gender = fct_recode(gender, Fe
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



