文章目录
前言
客户流失预警
提示:以下是本篇文章正文内容,下面案例可供参考
一、 数据清洗与格式转换
import warnings
warnings.filterwarnings('ignore') #忽视
import pandas as pd
import numpy as np
# 加载数据集
churn_df = pd.read_csv('churn.csv')
col_names = churn_df.columns.tolist() #所有的列展示出来
print("Column names:")
print(col_names)
to_show = col_names[:6] + col_names[-6:] #前6列特征和后6列特征
print("\nSample data:")
churn_df[to_show].head(6)
churn_df.describe()
#describe() 可以返回具体的结果, 对于每一列。
#数量 平均值 标准差 25% 分位 50% 分位数 75% 分位数 最大值 很多时候你可以得到NA的数量和比例。
二、 探索性数据分析
#我们先来看一下流失比例, 以及关于打客户电话的个数分布
import matplotlib.pyplot as plt # 仿真
%matplotlib inline
fig = plt.figure()
fig.set(alpha=0.3) # 设定图表颜色alpha参数
#subplot2grid(shape , loc )
plt.subplot2grid((1,2),(0,0