2互联网金融项目
环境为Anaconda3,Python3.8,用JupyterNotebook写的
数据文件在百度网盘
链接:https://pan.baidu.com/s/1oirvShTzpKZddznODrnq1g
提取码:2222
import plotly as py
py.offline.init_notebook_mode()
pyplot = py.offline.iplot
import plotly.graph_objs as go
from plotly.graph_objs import Scatter
from scipy import stats
import pandas as pd
import numpy as np
import seaborn as sns
sns.set(style='darkgrid')
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
import os
os.chdir(r'E:\2020年Python数据分析师特训营全套84节视频完结版(就业向零基础友好)\2020年Python数据分析师特训营全套84节视频完结版')
data = pd.read_csv('LCIS.csv')
#修改列名
data.rename(columns = {
'ListingId':'列表序号','recorddate':'记录日期'},inplace = True)
#缺失率
miss_rate = pd.DataFrame(data.apply(lambda x: sum(x.isnull())/len(x)))
#将缺失率保存为一列
miss_rate.columns=['缺失率']
#缺失率以三位小数百分数形式表示
miss_rate[miss_rate['缺失率']>0]['缺失率'].apply(lambda x: format(x,'.3%'))
#计数‘下次计划还款利息’为缺失值(已还清)的用户的‘标当前状态’
data[data['下次计划还款利息'].isnull()]['标当前状态'].value_counts()
#显示'上次还款利息'为缺失值的用户信息的后九列
data[data['上次还款利息'].isnull()].iloc[:,-9:-1]
#查看历史成功借款金额缺失的用户情况
data[data['历史成功借款金额'].isnull()]
#查看记录日期缺失的用户情况
data[data['记录日期'].isnull()][['手机认证','户口认证']]
#删除记录日期缺失的用户数据
data.dropna(subset=['记录日期'],how='any',inplace=True)
#去重画图
data[data.duplicated()]
data['手机认证'].value_counts().plot(kind='bar')
#取出’手机认证’一列中的'成功认证'和'未成功认证',其他删除
data = data[(data['手机认证']=='成功认证')|(data['手机认证']=='未成功认证')]
d