利用自编码器和异常检测进行欺诈分析
在金融领域,如银行、保险公司和信用社,检测和预防欺诈是业务发展的重要任务。本文将介绍如何使用自编码器和异常检测技术,对高度不平衡的信用卡交易数据集进行欺诈分析。
1. 异常值和异常检测
异常是观察世界中不寻常和意外的模式。分析、识别、理解和预测数据中的异常是数据挖掘中最重要的任务之一。异常检测在信用卡欺诈检测、网络安全入侵检测、安全关键系统故障检测等领域有广泛应用。
在探索高度不平衡的数据集时,需要通过数据探索回答以下问题:
- 所有可用字段中,数据完整(无空值或缺失值)的比例是多少?如何处理这些缺失值,同时不丢失数据语义?
- 各字段之间的相关性如何?每个字段与预测变量的相关性如何?它们取什么值(如分类、数值、字母数字等)?
- 数据分布是否偏斜?可以通过观察异常值或长尾来识别偏斜情况。数据的峰度有三种可能:
- 当峰度测量值略小于但接近3时,为常峰态(Mesokurtic)。
- 当峰度测量值大于3时,为尖峰态(Leptokurtic)。
- 当峰度测量值小于3时,为平峰态(Platykurtic)。
例如,记录四周内(不包括周末)完成4公里步行的时间:15, 16, 18, 17.16, 16.5, 18.6, 19.0, 20.4, 20.6, 25.15, 27.27, 25.24, 21.05, 21.65, 20.92, 22.61, 23.71, 35, 39, 50。使用R计算和解释这些值的偏度和峰度,得到的密度图显示数据右偏且为尖峰态,最右侧的数据点可能是异常值。
虽然去除长尾不能完全消除数据不平衡,但异常值检测和去除这些数据
超级会员免费看
订阅专栏 解锁全文
55

被折叠的 条评论
为什么被折叠?



