数据挖掘项目(1)对数据进行探索和分析

本文详细介绍了一套完整的金融数据预处理流程,包括数据类型分析、无关特征剔除、缺失值处理、数据类型转换、特征选择及数据归一化等步骤,并应用随机森林算法进行分类预测。

1.数据类型的分析(假设数据为'data.csv')

首先读入数据,这个数据是csv格式,可以用pandas来读,如果读不进来的时候,可以用记事本打开'data.csv'然后另存为'data_2.csv'并且保存为'utf-8'的编码格式。然后读取数据。

import pandas as pd
'''read data'''
data = pd.read_csv('data_2.csv')
row, col = data.shape

在Variable explorer 里可以看到读入的data,在这里为了方便给出部分数据,从下图中可以看到数据中既有数字,也有汉字,字符,时间数据,此外还有缺失值nan,除此之外还有一些对数据分类没有用的特征,因此接下来我们需要对数据进行无关特征的剔除。

2.无关特征剔除

在此数据中,由于是金融数据并预测贷款用户是否会逾期,暂时将两个对分类结果无关的特征剔除

data.drop('bank_card_no',axis = 1, inplace = True)
data.drop('id_name',axis = 1, inplace = True)

3.缺失值处理一

对于缺失值,最简单的方法就是将所有缺失的数据删掉(data=data.dropna()),但是如果缺失数据较多时会造成可用数据量减少,此数据原始数据为:4754×90,如果将缺失全部删掉,数据为1534×90,因此需要对此数据进行填补,在对此数据进行填补前需要先考虑数据的缺失情况。为避

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值