信用卡欺诈分析:使用自编码器和异常检测
在金融领域,如银行、保险公司和信用社,检测和预防欺诈是业务增长的重要任务。传统的监督式机器学习模型在处理高度不平衡的数据时可能效果不佳,而自编码器和异常检测技术为解决这一问题提供了新的思路。
1. 异常值和异常检测
异常是观察世界中不寻常和意外的模式。分析、识别、理解和预测数据中的异常是数据挖掘的重要任务。异常检测在信用卡欺诈检测、网络安全入侵检测、安全关键系统故障检测等领域有广泛应用。
当探索高度不平衡的数据集时,需要通过数据探索回答以下问题:
- 所有可用字段中,数据完整(无空值或缺失值)的比例是多少?如何处理缺失值并保留数据语义?
- 各字段之间的相关性如何?每个字段与预测变量的相关性如何?它们的数据类型是什么(分类、数值、字母数字等)?
- 数据分布是否偏斜?可以通过观察异常值或长尾来识别偏斜情况。数据的峰度有三种可能:
- 当峰度测量值略小于但接近 3 时,为中峰态(Mesokurtic)。
- 当峰度测量值大于 3 时,为尖峰态(Leptokurtic)。
- 当峰度测量值小于 3 时,为低峰态(Platykurtic)。
例如,记录四周(不包括周末)的健身步行时间(完成 4 公里步行轨道的时间):15, 16, 18, 17.16, 16.5, 18.6, 19.0, 20.4, 20.6, 25.15, 27.27, 25.24, 21.05, 21.65, 20.92, 22.61, 23.71, 35, 39, 50。使用 R 计算和解释这些值的偏斜度和峰度,会得到一个密度图,显示数据右偏且为尖峰态。右侧的数据点可视为异常或可疑值,可尝试识别
超级会员免费看
订阅专栏 解锁全文
579

被折叠的 条评论
为什么被折叠?



