信用卡消费行为的风险分析1(统计缺失值,年龄情况,月收入情况)

文章介绍了如何使用Python的Pandas库来分析数据集中的缺失值。通过读取CSV文件,设置第一列为索引,然后转置数据以更好地观察。作者计算了空值的数量,并对统计结果进行了重命名和筛选,揭示月收入和家庭成员字段存在大量空值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

资源包放在我上一个链接了,是免费的,大家自行取用就好

分析缺失值,在excel中可以看到有很多的表格是空着的,或者是0,现在来统计一下这些缺失值主要存在于哪里

首先我们导入库

import pandas as pd

其次我们导入文件,使用第0列,也就是俗称的第一列作为索引

datafile='C:\\Users\\Administrator\\Desktop\\Test\\shujufenxi\\yuchuli\\cs-training.csv'
data=pd.read_csv(datafile,index_col=[0])

进行转置,为了更好地观察

制定空值怎么得到 

data_st=data.describe().T #读取数据,T表示转置,能更好地观察数据
data_st['null']=len(data)-data_st['count']  #空值的记录数=总记录数-非空值记录数

选取统计好的这几列内容并重新命名 

data_st=data_st[['count','null','max','min']]  #选取统计中的这几列内容
data_st.columns=['总样本数','空值','最大值','最小值']  #重命名列
print(data_st)

 最后导出发现空值集中于月收入和家庭成员中

后面我将继续介绍月收入和家属数量的统计分析~ 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值