欺诈数据集的实验结果分析
1. 引言
在数据挖掘领域,处理不平衡数据集是一个常见的挑战。尤其是在欺诈检测场景中,欺诈案例通常只占总样本的一小部分。本文将探讨一个高度不平衡的欺诈数据集,并通过一系列实验分析不同模型在这种情况下的表现。
2. 数据集描述
欺诈数据集的不平衡情况较为严重,在4000个样本的完整训练集中仅包含60个逾期案例。为了研究不同训练集大小对模型性能的影响,生成了多个不同规模的训练集,具体包括:
| 训练集大小 | 逾期率 |
|---|---|
| 4000 | 0.015 |
| 3000 | 0.02 |
| 2000 | 0.03 |
| 1000 | 0.06 |
| 600 | 0.1 |
| 300 | 0.2 |
| 120 | 0.5 |
这些数据集涵盖了不同的逾期率,有助于全面评估模型在不同条件下的表现。
超级会员免费看
订阅专栏 解锁全文
1830

被折叠的 条评论
为什么被折叠?



