目录
1.常用的数据获取网站
2.和鲸:和鲸社区 - Heywhale.com
2.分析电信用户流失率
数据地址:https://www.heywhale.com/mw/project/646f0246bf6378dc90a5233f/dataset
字段说明
字段 | 解释 |
---|---|
customerID | 用户ID |
gender | 性别 |
SeniorCitizen | 是否是老年人(1代表是) |
Partner | 是否有配偶(Yes or No) |
Dependents | 是否经济独立(Yes or No) |
tenure | 用户入网时间 |
PhoneService | 是否开通电话业务(Yes or No) |
MultipleLines | 是否开通多条电话业务(Yes 、 No or No phoneservice) |
InternetService | 是否开通互联网服务(No、DSL数字网络或filber potic光线网络) |
OnlineSecurity | 是否开通网络安全服务(Yes、No or No internetservice) |
OnlineBackup | 是否开通在线备份服务(Yes、No or No internetservice) |
DeviceProtection | 是否开通设备保护服务(Yes、No or No internetservice) |
TechSupport | 是否开通技术支持业务(Yes、No or No internetservice) |
StreamingTV | 是否开通网络电视(Yes、No or No internetservice) |
StreamingMovies | 是否开通网络电影(Yes、No or No internetservice) |
Contract | 合同签订方式(按月、按年或者两年) |
PaperlessBilling | 是否开通电子账单(Yes or No) |
PaymentMethod | 付款方式(bank transfer、credit card、electronic check、mailed check) |
MonthlyCharges | 月度费用 |
TotalCharges | 总费用 |
Churn | 是否流失(Yes or No) |
1.读取数据
#数据地址:https://www.heywhale.com/mw/project/646f0246bf6378dc90a5233f/dataset file_name = "WA_Fn-UseC_-Telco-Customer-Churn.csv" # 读取数据 df = pd.read_csv(file_name) # 更改列名为中文 df=df.rename(columns={'customerID': '用户ID',"gender":"性别","SeniorCitizen":"是否是老年人(1代表是)","Partner":"是否有配偶(Yes or No)","Dependents":"是否经济独立(Yes or No)","tenure":"用户入网时间","PhoneService":"是否开通电话业务(Yes or No)","MultipleLines":"是否开通多条电话业务(Yes 、 No or No phoneservice)","InternetService":"是否开通互联网服务(No、DSL数字网络或filber potic光线网络)","OnlineSecurity":"是否开通网络安全服务(Yes、No or No internetservice)","OnlineBackup":"是否开通在线备份服务(Yes、No or No internetservice)","DeviceProtection":"是否开通设备保护服务(Yes、No or No internetservice)","TechSupport":"是否开通技术支持业务(Yes、No or No internetservice)","StreamingTV":"是否开通网络电视(Yes、No or No internetservice)","StreamingMovies":"是否开通网络电影(Yes、No or No internetservice)","Contract":"合同签订方式(按月、按年或者两年)","PaperlessBilling":"是否开通电子账单(Yes or No)","PaymentMethod":"付款方式(bank transfer、credit card、electronic check、mailed check)","MonthlyCharges":"月度费用","TotalCharges":"总费用","Churn":"是否流失(Yes or No)"}) print("df.head:", df.head())
out:
df.head: 用户ID 性别 是否是老年人(1代表是) ... 月度费用 总费用 是否流失(Yes or No)
0 7590-VHVEG Female 0 ... 29.85 29.85 No
1 5575-GNVDE Male 0 ... 56.95 1889.5 No
2 3668-QPYBK Male 0 ... 53.85 108.15 Yes
3 7795-CFOCW Male 0 ... 42.30 1840.75 No
4 9237-HQITU Female 0 ... 70.70 151.65 Yes
[5 rows x 21 columns]
2.数据分析describe
describe,默认只识别int,float数值类型的,只会打印出3列数据
print("列类型",df.dtypes) print("df.describe:", df.describe())
out
列类型 用户ID object
性别 object
是否是老年人(1代表是) int64
是否有配偶(Yes or No) object
是否经济独立(Yes or No) object
用户入网时间 int64
是否开通电话业务(Yes or No) object
是否开通多条电话业务(Yes 、 No or No phoneservice) object
是否开通互联网服务(No、DSL数字网络或filber potic光线网络) object
是否开通网络安全服务(Yes、No or No internetservice) object
是否开通在线备份服务(Yes、No or No internetservice) object
是否开通设备保护服务(Yes、No or No internetservice) object
是否开通技术支持业务(Yes、No or No internetservice) object
是否开通网络电视(Yes、No or No internetservice) object
是否开通网络电影(Yes、No or No internetservice) object
合同签订方式(按月、按年或者两年) object
是否开通电子账单(Yes or No)