-
任务描述:
- 随着电信行业的不断发展,运营商们越来越重视如何扩大其客户群体。据研究,获取新客户所需的成本远高于保留现有客户的成本,因此为了满足在激烈竞争中的优势,保留现有客户成为一大挑战。对电信行业而言,可以通过数据挖掘等方式来分析可能影响客户决策的各种因素,以预测他们是否会产生流失(停用服务、转投其他运营商等)。
-
数据集:
- 本案例所使用数据集可以从https://download.youkuaiyun.com/download/qq_38735017/87064691下载。数据集一共提供了7043条用户样本,每条样本包含21列属性,由多个维度的客户信息以及用户是否最终流失的标签组成,客户信息具体如下:
- 基本信息:包括性别、年龄、经济情况、入网时间等;
- 开通业务信息:包括是否开通电话业务、互联网业务、网络电视业务、技术支持业务等;
- 签署的合约信息:包括合同年限、付款方式、每月费用、总费用等。
运行环境:
在Python3.6环境下测试了本教程代码。需要的第三方模块包括:
- numpy = 1.12.1
- pandas = 0.20.1
- matplotlib = 2.0.2
- seaborn = 0.7.1
- scipy = 0.19.1
- sklearn = 0.18.1
目录
2.数据介绍
首先用Python语言进行数据读取和观察:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore') # 忽略弹出的warnings信息
data = pd.read_csv('./datasets/Telco-Customer-Churn.csv')
pd.set_option('display.max_columns', None) # 显示所有列
data.head(10)
21列原始属性中,除了最后一列Churn表示该数据集的目标变量(即标签列)外,其余20列按照原始数据集中的排列顺序刚好可以分为三类特征群:即客户的基本信息、开通业务信息、签署的合约信息。每一列具体信息如下:
| $变量名$ | $描述$ | $数据类型$ | $取值$ | $所属特征群或标签$ |
|---|---|---|---|---|
| customerID | 客户ID | 字符串 | 7043个不重复取值 | 基本信息 |
| gender | 性别 | 字符串 | Male, Female | 基本信息< |
本文通过随机森林算法预测电信用户流失,详细介绍了数据预处理、特征工程、模型预测和评估过程。数据集包括客户基本信息、业务信息和合约信息,通过分析发现老年用户、未婚无家属用户、新入网用户和特定消费模式的用户流失风险较高。模型预测结果显示,随机森林算法表现最优,可为运营商提供用户留存策略建议。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



