16、欺诈数据集的实验结果分析

脸先着地天使

于 2025-06-25 13:28:17 发布

阅读量64

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘与知识管理的融合探索文章标签：欺诈检测不平衡数据集决策树

本文链接：https://blog.youkuaiyun.com/jwt8token/article/details/149082799

数据挖掘与知识管理的融合探索专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

欺诈数据集的实验结果分析

1. 引言

在数据挖掘领域，处理不平衡数据集是一个常见的挑战。尤其是在欺诈检测场景中，欺诈案例通常只占总样本的一小部分。本文将探讨一个高度不平衡的欺诈数据集，并通过一系列实验分析不同模型在这种情况下的表现。

2. 数据集描述

欺诈数据集的不平衡情况较为严重，在4000个样本的完整训练集中仅包含60个逾期案例。为了研究不同训练集大小对模型性能的影响，生成了多个不同规模的训练集，具体包括：

训练集大小	逾期率
4000	0.015
3000	0.02
2000	0.03
1000	0.06
600	0.1
300	0.2
120	0.5

这些数据集涵盖了不同的逾期率，有助于全面评估模型在不同条件下的表现。

3. 模型评估

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

脸先着地天使

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

Credit Card Fraud Detection（信用卡欺诈检测数据集）

不务正业的猿

08-15

1830

遗憾的是，由于保密问题，我们无法提供原始特征和有关数据的更多背景信息。特征 V1、V2、…Bontempi，Gianluca。Scarff：使用 Spark 进行流式信用卡欺诈检测的可扩展框架，信息融合，41，182-194，2018，Elsevier。信用卡欺诈检测：一种现实的建模和一种新颖的学习策略，IEEE 神经网络和学习系统交易，29，8，3784-3797，2018，IEEE。从实践者的角度学习信用卡欺诈检测的经验教训，应用专家系统，41，10，4915-4928，2014，Pergamon。

数据分析案例-欺诈性电子商务交易数据集可视化分析

热门推荐

m0_64336780的博客

10-20

1万+

本实验数据集来源于Kaggle，原始数据集分为训练集和测试集，其中训练集共有1472952条数据，16个变量。各变量含义解释如下：Transaction ID:每个事务的唯一标识符。Customer ID:每个客户的唯一标识符。Transaction Amount:交易中交易的总金额。Transaction Date:交易发生的日期和时间。Payment Method:用于完成交易的方式(如信用卡、PayPal等)。Product Category:交易中涉及的产品类别。

参与评论您还未登录，请先登录后发表或查看评论

信用卡欺诈检测数据集

12-12

信用卡欺诈检测数据集

信用卡欺诈检测数据集.zip

04-07

开源的数据集-信用卡欺诈检测数据集 https://www.kaggle.com/mlg-ulb/creditcardfraud kaggle 免费下载的东西为什么要积分要c币？

银行欺诈检测实践：20K条交易数据集分析与模型构建

weixin_42356162的博客

11-29

3740

本文还有配套的精品资源，点击获取简介：本数据集旨在助力银行欺诈检测任务，包含20,000条二进制格式的银行交易记录。数据集详细记录了交易时间、金额、客户ID、交易类型、地理位置信息、商户信息及标签。利用这些数据，可训练和评估不同机器学习模型以识别欺诈行为。通过数据预处理、特征编码和模型训练，可以评估模型性能并进行特征重要性分析，为银行系统稳定性和客户财产安全提供保障。 ...

案例实战信用卡欺诈检测数据集

06-13

“人工智能学习笔记——案例实战信用卡欺诈检测”博客中的数据集

KEEL-dataset 数据集

02-21

这种不平衡性在现实世界的许多应用中都非常常见，比如欺诈检测、疾病诊断等，因此对于研究如何提高机器学习算法在不平衡数据集上的表现具有重要的意义。 KEEL数据集中的每个文件都包含了多个实例，每个实例由一组...

垃圾短信分类数据集（10K+ 记录）CSV

12-16

数据集总共包含了10929条短信记录，这些记录经过精心筛选，涵盖了不同类型的非垃圾短信和垃圾短信，从而为研究者提供了一个全面、丰富的实验环境。在这些记录中，有6990条是非垃圾短信，即正常用户之间交流的内容；...

creditcard：信用卡欺诈检测数据集-数据集

03-27

creditcard ：https://www.kaggle.com/mlg-ulb/creditcardfraud#creditcard.csv

用于欺诈检测的综合金融数据集

不务正业的猿

09-28

2949

原文： Synthetic Financial Datasets For Fraud Detection Synthetic datasets generated by the PaySim mobile money simulator Context There is a lack of public available datasets on financial services and specially in the emerging mobile money transactions do

Credit Card Fraud Detection信用卡欺诈数据集-数据集

03-30

Credit Card Fraud Detection信用卡欺诈数据集-数据集

信用卡欺诈数据数据集

07-07

欧洲的信用卡持卡人在2013年9月2天时间里的284807笔交易数据，其中有492笔交易是欺诈交易，占比0.172%。数据采用PCA变换映射为V1，V2，...，V28 数值型属性，只有交易时间和金额这两个变量没有经过PCA变换。输出变量为二值变量，1为正常，0为欺诈交易。

【机器学习】决策树原理、调参、可视化 + 银行信用卡欺诈检测案例（含数据集）

m0_51933492的博客

08-30

2752

ID3是决策树学习算法中最具有影响和最为典型的算法，它的基本思想是，利用信息熵的原理，选择信息增益最大的属性作为分类属性。信息熵下降最快。

Python信用卡欺诈检测 [TensorFlow]

weixin_39559994的博客

01-24

1608

Python信用卡欺诈检测 [TensorFlow]

欺诈性信用卡交易数据集的不平衡分类 Python

Optimization&Learning的博客

08-25

970

它还允许最终模型的操作员选择将概率映射到类别标签（欺诈或非欺诈交易）的阈值，以最好地平衡最终模型的精度和召回率。然后使用一系列不同阈值下的精度和召回率来评估预测概率，以将概率映射到类别标签，并将这些阈值曲线下的面积报告为模型的性能。然后对类别分布进行总结，确认了类别分布中的严重偏差，约 99.827% 的交易被标记为正常，约 0.173% 的交易被标记为欺诈。该框显示中间 50% 的数据，每个框中间的橙色线显示样本的中位数，每个框内的绿色三角形显示样本的平均值。然后将一些欺诈案例作为模型的输入并预测标签。

Kaggle项目：信用贷款欺诈检测

Leorio Paladinight的博客

06-09

3646

对信用贷款数据集进行清理和探索性数据分析（Exploratory Data Analysis），并尝试预测信用欺诈。

基于图神经网络算法实现反欺诈数据识别 数据集+代码

机器学习深度学习业余选手

02-26

1494

图神经网络算法实现反欺诈数据识别 数据集+代码

基于Qt框架的学生信息管理系统开发实践