数据挖掘项目（1）对数据进行探索和分析

原创

于 2019-03-01 22:37:16 发布 · 1.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据分类 #二分类

本文详细介绍了一套完整的金融数据预处理流程，包括数据类型分析、无关特征剔除、缺失值处理、数据类型转换、特征选择及数据归一化等步骤，并应用随机森林算法进行分类预测。

1.数据类型的分析（假设数据为'data.csv'）

首先读入数据，这个数据是csv格式，可以用pandas来读，如果读不进来的时候，可以用记事本打开'data.csv'然后另存为'data_2.csv'并且保存为'utf-8'的编码格式。然后读取数据。

import pandas as pd
'''read data'''
data = pd.read_csv('data_2.csv')
row, col = data.shape

在Variable explorer 里可以看到读入的data，在这里为了方便给出部分数据，从下图中可以看到数据中既有数字，也有汉字，字符，时间数据，此外还有缺失值nan，除此之外还有一些对数据分类没有用的特征，因此接下来我们需要对数据进行无关特征的剔除。

2.无关特征剔除

在此数据中，由于是金融数据并预测贷款用户是否会逾期，暂时将两个对分类结果无关的特征剔除

data.drop('bank_card_no',axis = 1, inplace = True)
data.drop('id_name',axis = 1, inplace = True)

3.缺失值处理一

对于缺失值，最简单的方法就是将所有缺失的数据删掉（data=data.dropna()），但是如果缺失数据较多时会造成可用数据量减少，此数据原始数据为：4754×90，如果将缺失全部删掉，数据为1534×90，因此需要对此数据进行填补，在对此数据进行填补前需要先考虑数据的缺失情况。为避

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。