欺诈数据集的实验结果分析
1. 引言
在数据挖掘领域,处理不平衡数据集是一个常见的挑战。尤其是在欺诈检测场景中,欺诈案例通常只占总样本的一小部分。本文将探讨一个高度不平衡的欺诈数据集,并通过一系列实验分析不同模型在这种情况下的表现。
2. 数据集描述
欺诈数据集的不平衡情况较为严重,在4000个样本的完整训练集中仅包含60个逾期案例。为了研究不同训练集大小对模型性能的影响,生成了多个不同规模的训练集,具体包括:
训练集大小 | 逾期率 |
---|---|
4000 | 0.015 |
3000 | 0.02 |
2000 | 0.03 |
1000 | 0.06 |
600 | 0.1 |
300 | 0.2 |
120 | 0.5 |
这些数据集涵盖了不同的逾期率,有助于全面评估模型在不同条件下的表现。