数据挖掘之用户欺诈案例分析

最新推荐文章于 2024-01-07 02:04:42 发布

淮南草

最新推荐文章于 2024-01-07 02:04:42 发布

阅读量2.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘

本文链接：https://blog.youkuaiyun.com/zhuisaozhang1292/article/details/81501648

本文介绍了在数据挖掘中针对用户欺诈行为的案例分析。首先，分析了样本的数值特征量级差距和0-1分布，指出可能需要对样本进行降采样或使用SMOTE算法来平衡数据。接着，通过混淆矩阵确定目标需求，如准确率或召回率，并寻找最佳参数。然而，由于缺乏CSV文件和KFold交叉验证，例程目前无法运行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分析方法：

查看样本样式

样本数值特征之间的量级差距

查看样本0 1分布情况--》可能需要进行对多样本降采样；可能需要对少样本造样本（SMOT算法）

通过分析混淆矩阵根据目标需求（需要准确率高点还是回召率高点）找到最佳参数

本文的例程因为缺少csv文件和 KFold交叉验证没有解决所以无法运行

'''
Created on  

@author: hcl
'''
#分析用户欺诈案例
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
#from openpyxl.styles.alignment import horizontal_alignments

#*************没有这个csv文件  大概有30万条记录  29个特征 2种类别 所以一下程序没法运行
##############查看样本样式
data = pd.read_csv('creditcart.csv')
# data.head()

##############查看样本类别分布情况 会发现0样本接近30万个  1样本只有几百个
# count_classes = pd.value_counts(data['Class'],sort = True).sort_index()
# count_classes.plot(kind = 'bar')
# plt.title('Fraud class histogram')
# plt.xlabel('Class')
# plt.ylabel('Frequency')

###############数据种的‘Amount’特征 相对于其他特征高出几个量级 所以要对该特征纪念性标准归一化处理
# from sklearn.preprocessing import StandardScaler
# data['normAmount'] = StandardScaler().fit_transform(data['Amount'].reshape(-1,1)) #进行标准化操作 并添加到data种
# data = data.drop(['Time','Amount'],axis=1) #删除就旧特征
# print(data.head()) #查看样本头5行

##############解决样本不均衡方法1 抽取较多样本数量的样本  个数为 较少样本的个数 从而达到  1:1
# X = data.ix[:,data.columns != 'class'] #抽取不含class的样本 就相当于去除标签值以后的样本
# y = data.ix[:,data.columns == 'class'] #抽取标签值 就相当于 只含有样本标签
# number_records_fraud = len(data[data.Class == 1]) #获取样本标签为1 的样本数量
# fraud_indices = np.array(data[data.Class == 1].index) #获取样本标签为1 的样本标签的索引
# 
# normal_indices = data[data.Class == 0].index #获取样本标签为0 的样本标签的索引
# random_normal_indices = np.random.choice(normal_indices,number_records_fraud,replace = False) #在正常样本索引normal_indices中随机抽取样本数量为number_records_fraud的样本
# random_normal_indices = np.array(random_normal_indices)
# 
# under_sample_indices= data.