第二十三天-数据分析入门实战

目录

1.常用的数据获取网站

2.分析电信用户流失率

字段说明

1.读取数据

2.数据分析describe

3.数据验证

4.分析目的

1.整体流失情况:人数、比例、流失率

2.性别:人数、比例、流失率

3.老人:人数、比例、流失率

4.是否有配偶:人数、比例、流失率

5.是否经济独立(Yes or No):人数、比例、流失率

6.数据洞察:现象、溯源、建议

 7.优化编写通用方法


1.常用的数据获取网站

2.和鲸:和鲸社区 - Heywhale.com

2.分析电信用户流失率

数据地址:https://www.heywhale.com/mw/project/646f0246bf6378dc90a5233f/dataset

字段说明

字段 解释
customerID 用户ID
gender 性别
SeniorCitizen 是否是老年人(1代表是)
Partner 是否有配偶(Yes or No)
Dependents 是否经济独立(Yes or No)
tenure 用户入网时间
PhoneService 是否开通电话业务(Yes or No)
MultipleLines 是否开通多条电话业务(Yes 、 No or No phoneservice)
InternetService 是否开通互联网服务(No、DSL数字网络或filber potic光线网络)
OnlineSecurity 是否开通网络安全服务(Yes、No or No internetservice)
OnlineBackup 是否开通在线备份服务(Yes、No or No internetservice)
DeviceProtection 是否开通设备保护服务(Yes、No or No internetservice)
TechSupport 是否开通技术支持业务(Yes、No or No internetservice)
StreamingTV 是否开通网络电视(Yes、No or No internetservice)
StreamingMovies 是否开通网络电影(Yes、No or No internetservice)
Contract 合同签订方式(按月、按年或者两年)
PaperlessBilling 是否开通电子账单(Yes or No)
PaymentMethod 付款方式(bank transfer、credit card、electronic check、mailed check)
MonthlyCharges 月度费用
TotalCharges 总费用
Churn 是否流失(Yes or No)

1.读取数据

#数据地址:https://www.heywhale.com/mw/project/646f0246bf6378dc90a5233f/dataset
file_name = "WA_Fn-UseC_-Telco-Customer-Churn.csv"
# 读取数据
df = pd.read_csv(file_name)
# 更改列名为中文
df=df.rename(columns={'customerID': '用户ID',"gender":"性别","SeniorCitizen":"是否是老年人(1代表是)","Partner":"是否有配偶(Yes or No)","Dependents":"是否经济独立(Yes or No)","tenure":"用户入网时间","PhoneService":"是否开通电话业务(Yes or No)","MultipleLines":"是否开通多条电话业务(Yes 、 No or No phoneservice)","InternetService":"是否开通互联网服务(No、DSL数字网络或filber potic光线网络)","OnlineSecurity":"是否开通网络安全服务(Yes、No or No internetservice)","OnlineBackup":"是否开通在线备份服务(Yes、No or No internetservice)","DeviceProtection":"是否开通设备保护服务(Yes、No or No internetservice)","TechSupport":"是否开通技术支持业务(Yes、No or No internetservice)","StreamingTV":"是否开通网络电视(Yes、No or No internetservice)","StreamingMovies":"是否开通网络电影(Yes、No or No internetservice)","Contract":"合同签订方式(按月、按年或者两年)","PaperlessBilling":"是否开通电子账单(Yes or No)","PaymentMethod":"付款方式(bank transfer、credit card、electronic check、mailed check)","MonthlyCharges":"月度费用","TotalCharges":"总费用","Churn":"是否流失(Yes or No)"})
print("df.head:", df.head())

out:

df.head:          用户ID      性别  是否是老年人(1代表是)  ...   月度费用      总费用  是否流失(Yes or No)
0  7590-VHVEG  Female             0  ...  29.85    29.85               No
1  5575-GNVDE    Male             0  ...  56.95   1889.5               No
2  3668-QPYBK    Male             0  ...  53.85   108.15              Yes
3  7795-CFOCW    Male             0  ...  42.30  1840.75               No
4  9237-HQITU  Female             0  ...  70.70   151.65              Yes

[5 rows x 21 columns]

2.数据分析describe

describe,默认只识别int,float数值类型的,只会打印出3列数据

print("列类型",df.dtypes)
print("df.describe:", df.describe())

out

列类型 用户ID                                                              object
性别                                                                object
是否是老年人(1代表是)                                                       int64
是否有配偶(Yes or No)                                                  object
是否经济独立(Yes or No)                                                 object
用户入网时间                                                             int64
是否开通电话业务(Yes or No)                                               object
是否开通多条电话业务(Yes 、 No or No phoneservice)                           object
是否开通互联网服务(No、DSL数字网络或filber potic光线网络)                            object
是否开通网络安全服务(Yes、No or No internetservice)                          object
是否开通在线备份服务(Yes、No or No internetservice)                          object
是否开通设备保护服务(Yes、No or No internetservice)                          object
是否开通技术支持业务(Yes、No or No internetservice)                          object
是否开通网络电视(Yes、No or No internetservice)                            object
是否开通网络电影(Yes、No or No internetservice)                            object
合同签订方式(按月、按年或者两年)                                                 object
是否开通电子账单(Yes or No)                                        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值