16、利用自编码器和异常检测进行欺诈分析

最新推荐文章于 2025-10-17 02:28:17 发布

异步汪仔

最新推荐文章于 2025-10-17 02:28:17 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏： Scala机器学习实战精讲文章标签：自编码器异常检测欺诈分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/d3e4f/article/details/152408356

Scala机器学习实战精讲专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用自编码器和异常检测进行欺诈分析

在金融领域，如银行、保险公司和信用社，检测和预防欺诈是业务发展的重要任务。本文将介绍如何使用自编码器和异常检测技术，对高度不平衡的信用卡交易数据集进行欺诈分析。

1. 异常值和异常检测

异常是观察世界中不寻常和意外的模式。分析、识别、理解和预测数据中的异常是数据挖掘中最重要的任务之一。异常检测在信用卡欺诈检测、网络安全入侵检测、安全关键系统故障检测等领域有广泛应用。

在探索高度不平衡的数据集时，需要通过数据探索回答以下问题：
- 所有可用字段中，数据完整（无空值或缺失值）的比例是多少？如何处理这些缺失值，同时不丢失数据语义？
- 各字段之间的相关性如何？每个字段与预测变量的相关性如何？它们取什么值（如分类、数值、字母数字等）？
- 数据分布是否偏斜？可以通过观察异常值或长尾来识别偏斜情况。数据的峰度有三种可能：
- 当峰度测量值略小于但接近3时，为常峰态（Mesokurtic）。
- 当峰度测量值大于3时，为尖峰态（Leptokurtic）。
- 当峰度测量值小于3时，为平峰态（Platykurtic）。

例如，记录四周内（不包括周末）完成4公里步行的时间：15, 16, 18, 17.16, 16.5, 18.6, 19.0, 20.4, 20.6, 25.15, 27.27, 25.24, 21.05, 21.65, 20.92, 22.61, 23.71, 35, 39, 50。使用R计算和解释这些值的偏度和峰度，得到的密度图显示数据右偏且为尖峰态，最右侧的数据点可能是异常值。

虽然去除长尾不能完全消除数据不平衡，但异常值检测和去除这些数据

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。