此次信用卡欺诈是采用科赛数据科学社区一个项目的数据集来分析的,具体的数据集可以在这里下载 传送门
数据集有100多M,使用excel打开会有有些卡顿,所以直接在python观察
数据集解读
数据集名称 | 数据类型 | 特征数 | 实例数 | 值缺失 | 相关任务 |
---|---|---|---|---|---|
信用卡欺诈检测数据集 | 数值数据 | 31 | 284807 | 无 | 不平衡样本处理,预测分类 |
- 在284807交易记录中,有492条欺诈记录,属于样本极不平衡
- 数据集仅包含数值数据是因为做了PCA变换,特征V1到V28是通过PCA变换得到的主成分
- 其中Time以及Amount数据是没有做PCA变换的
其中数据字段解读如下表所示:
字段 | 类型 | 含义 |
---|---|---|
Time | Float | 数据集第一条记录与本条记录的时间差,秒为单位 |
V1 | Float | 主成分1 |
V2 | float | 主成分2 |