基于某电信运营数据的精准营销分析
前言
本文是我之前码的营销分析,以现在的角度看,还有很多稚嫩的地方,抽空再翻修一下吧
摘要
现如今社会早已经进入了网络时代,而网络产品对传统行业造成了重大打击,
如本文要研究的电信行业。因此,本文从精准营销的角度出发,针对是否飞信订购
用户建立了运用支持向量机原理,针对是否订购“飞信”这一服务的样本建立分类
模型,最终得到对1类样本(“飞信”服务订购用户)分类准确率将近81%,对0类
样本(未订购“飞信”服务的用户)分类准确率将近60%的综合分类准确率最佳的
分类模型。同时通过仿真实验,肯定了该分类模型的实用性与有效性。
然后为了挖掘潜在用户,本文针对未订购任何数据业务服务与产品的用户进行
两步聚类分析,最终将25488个样本聚类为2类。第一类为潜在中端用户,即有意愿
在电信通讯里消费但还未消费的用户;第二类则为低端用户,即仅拥有一般通讯需
求的用户。随后针对第一类潜在中端用户,提议运营商将重心放在个性化营销、开
发新服务和产品这两点上;针对第二类低端用户,提议运营商将重心放在巩固现有
用户,提高用户忠诚度以及普及智能手机这两点上。。
研究思路
本文研究的基本思路是:
第一,构建偏好“飞信”产品的用户分类模型。针对“飞
信”产品的订购用户,使用支持向量机建立用户分类模型,期间通过网格参数寻优和交
叉检验法调试出最佳模型,并通过对真实用户进行分类,以及与其他分类模型的效果
进行比较来评价该模型的准确性与实用性。
第二,挖掘潜在用户。针对未订购任何数据业务服务和产品的用户,则通过使用聚
类分析对其进行用户分类,并通过各类户的属性值,进行用户画像,寻找出最适合各类
用户的产品
数据的说明与处理
数据来源及属性说明
本论文所研究的数据来源于某电信运营商在2012年10月-12月这一时间段内的
共51500位用户。
本文选择“飞信订购标志”作为因变量,选择了15个与之相关的变量作为自变量,
所有变量描述如下表
用户下月是否使用掌厅 | 用 0,1 分别表示否或是 |
---|---|
短厅办理次数 | 该用户该时间段内在短信营业厅办理业务次数 |
网厅办理次数 | 该用户该时间段内在网页营业厅办理业务次数 |
掌厅办理次数 | 该用户该时间段内在掌上营业厅办理业务次数 |
短信量 | 该用户该时间段内所发短信量 |
GPRS流量 | 该用户该时间段内所使用的GPRS流量 |
品牌 | 用1、2、3分别表示品牌:动感地带、神州行、全球通 |
校园标识 | 用0,1分别表示该用户身份是否为学生 |
VIP标识 | 指年消费2000以上的用户,用0,1分别表示否或是 |
主叫次数 | 该用户该时间段内拨出次数 |
通话费 | 该用户该时间段内所用话费 |
本地时长 | 该用户该时间段内拨打本地电话的通话时长 |
被叫时长 | 该用户该时间段内接电话时长 |
漫游费 | 该用户该时间段内将手机带出手机的归属地使用的业务所产生的费用 |
WLAN时长 | 用0,1分别表示该用户是否有使用该电信商WLAN无线宽带上网 |
飞信订购标识 | 该用户该时间段内是否订购“飞信”服务,用0,1分别表示否或是 |
数据预处理
数据归一化
本文数据既包含最大值为31500的本地时长 x 12 x_{12} x12,又包含了仅使用0,1表示是否的分类变量 x 1 x_1 x1,因此在对数据进行研究之前,需要对其进行归一化处理。
数据归一化其实是指通过一定的算法处理数据,并将数值范围控制在你需要的范围内。归一化不仅方便了后期数据的处理,而且提高了程序计算的速度。常用的数据标准化方法是最小最大规范化和Z-score标准化。
在本文中,Z-score标准化方法是用来对原始数据的平均值(mean)和标准偏差(standard deviation)进行规范。归一化后,最终数据将按照标准正态分布,即均值为0,标准偏差为1,转换函数为 x ∗ − μ σ \frac{x^{*}-\mu}{\sigma} σx∗−μ
其中 μ \mu μ为所有样本数据的均值, σ \sigma σ为所有样本数据的标准差。
基于主成分分析的数据降维
主成分原理
(省略了吧 百度比我详细得多啦)
主成分降维
针对515000位用户选取的15个变量:用户下月是否使用掌厅 x 1 x_1 x1、短厅办理次数 x 2 x_2 x2、网厅办理次数 x 3 x_3 x3、掌厅办理次数 x 4 x_4 x4、短信量 x 5 x_5 x5、GPRS流量 x 6 x_6 x6、品牌 x 7 x_7 x7、校园标识 x 8 x_8 x8、VIP标识 x 9 x_9 x9、主叫次数 x 10 x_{10} x10、通话费 x 11 x_{11} x11、本地时长 x 12 x_{12} x12、被叫时长 x 13 x_{13} x13、漫游费 x 14 x_{14} x14、WLAN时长 x 15 x_{15} x