预测贷款用户是否逾期:数据清洗与预处理

本文介绍了预测贷款用户是否逾期项目的初始阶段——数据清洗与预处理。通过查看数据、分析数据标签分布、特征理解、缺失值处理等步骤,作者发现并删除了大量一致的缺失记录,为后续的分析做好准备。使用Python的pandas库进行数据操作,重点关注数据的结构、缺失值和数值特征的统计信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

任务一

做一个项目的第一步是数据清洗与预处理,也是对数据进行探索和分析。这份数据集是金融数据,我们的目标是要预测贷款用户是否会逾期,其中status表示标签,1表示逾期,0表示未逾期。

1.查看数据

可以使用excel或者SPSS等分析软件打开文件进行查看,当然是数据量允许的情况下才能用excel打开,否则你的电脑会一直转圈圈。还有就是可以导入python查看,一般python导入数据使用的是pandas库,导入数据常常会遇到编码问题,可以尝试其他编码导入,或者查看文件编码再导入。具体代码如下:

#导入numpy和pandas库
import numpy as np
import pandas as pd

#data=pd.read_csv('E:/data/data.csv') 显示编码不对
#data=pd.read_csv('E:/data/data.csv',encoding='utf-8') 加入编码,发现还是错的
data=pd.read_csv('E:/data/data.csv',encoding='gbk')  #试了一下其他编码,这是正确的

查看数据的步骤:

(1)查看数据前几行或者后几行,了解数据的大体;

(2)查看数据大小,几行几列;

(3)数据标签的分布情况;

(4)数据的特征(列名);

(5)每

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值