阿里云Clouder认证
三、机器学习PAI实现精细化营销
1. 课程目标
(1) 了解精细化营销的概念和适用场景
(2) 了解机器学习如何实现精细化营销
(3) 掌握利用PAI实现精细化营销
(4) 提升利用机器学习解决问题的能力
(5)目录
- 什么是精细化营销
- 精细化营销实现技术
- 机器学习平台PAI简介
- 实验任务:利用PAI实现精细化营销
复制代码
2. 什么是精细化营销
(1)精细化营销
- 精细化营销(Precision Marketing)就是在精准定位的基础上,依托现代信息技术手段建立个性化的顾客沟通服务体系,实现企业可度量的低成本扩张之路,是有态度的网络营销理念中的核心观点之一(百科)。在企业实际运营中即以客户细分为基础,细分客户和市场,进行精细化管理、精细化运营。
- 精细化营销的动因:
- 企业单位成本收益(或长远收益)最大化
- 通过营销管理的精细化,提升营销团队的凝聚力
- 提高各环节的效率实现节流的目的
- 提升企业市场竞争力
- 提升企业品牌影响力
- ......
- 营销层次:
(2)精细化营销的实现方法
- 准确的细分市场和差异化的营销策略是精细化营销的核心。市场细分是指营销者根据顾客之间的需求的差异性把整个市场划分为若干个消费者群的市场分类过程。而客户分群则是了解客户、进行市场细分和进行目标市场营销的前提。
- 客户分群常见方法:
- **聚类:**即将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。(无参考物)
- **分类:**即按照种类、等级或性质分别归类。(有参考物)
- 精细化营销的数据处理过程:
- 商业理解:(业务理解或需求理解)目标确认,所利用的计算方法、技术工具,所参考的计算模型,所采用的流程和方案。
- **数据理解:**拥有什么样的数据,数据是如何分布的,数据的来源,如何获取数据、通过什么方式来获取数据,数据质量如何,所涉及到的业务及能否覆盖,所涉及到的业务和流程能否解决体现现在的问题等等。
- **数据预处理:**包括归因、采样、拆分、过滤、映射等等。解决噪声数据(脏数据、错误数据)的问题,把数据规整化、标准化,提升数据的质量,使模型可靠。
- **构建模型:**常用模型有回归、分类、聚类。
- **模型评估:**目的是找到最能满足需求的一个方法。将上述过程的所得分析结果进行评估,考核是否满足要求,是否能够实现原来预估的目的,是否达到目标。
- 模型发布
3. 精细化营销案例
(1)案例一
- 某通信公司采用聚类分析方法针对集团客户的健康度进行分析,评估集团客户的健康度状况,分析不同健康级别客户的分布特征,为市场、集团客户服务部门制定分层分级的营销、服务策略提供依据;其中高危集团客户三个月减少100多家,集团新申办语言业务55万部......
(2)案例二
- 美国西南航空通过客户分群、价值评估对客户进行精细化营销管理,降低空座率;平均每个座位英里的运营成本比其他航空公司低15~30%......
(3)案例三
- 美国零售商塔基特百货通过精细化营销针对孕妇用品销售,销售额从2002年的440亿美元提升到2010年的670亿美元......
4. 精细化营销实现技术
- 精细化营销中客户细分主要是根据客户的属性、行为、需求、偏好以及价值等因素对客户进行分类,并且提供有针对性的产品、服务和销售模式。
(1)常见技术
- 数据存储、处理载体即数据处理平台,常见如数据库、数据仓库、海量数据处理平台(如MaxCompute)等;
- 数据加工处理技术:SQL、MR、脚本语言、机器学习、数据挖掘等;
- 常见的算法模型:
- 决策树、Logit回归(事前处理)
- 聚类分析、分类模型(事后处理)
- 实现过程:
(2)大数据处理服务MaxCompute
- 大数据计算服务(MaxCompute,原ODPS)由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。
- 适用场景:数据仓库/商业智能、分布式大数据应用、大数据统计分析、机器学习/人工智能。
(3)精细化营销的数据处理过程-数据挖掘
- 数据挖掘(Data mining,DM)=机器学习+数据仓库,是对存储于数据仓库/数据平台中的大量数据、通过查询和抽取方式获得以前未知的有用信息、模式、规则的过程。数据挖掘是一个过程,而这个过程通过机器学习来实现。精细化营销数据处理过程就是机器学习过程、就是数据挖掘过程。
- 这是一个以数据为中心的循序渐进的螺旋式的数据探索、处理过程;
- 这是各种分析办法、数据处理方法的集合;
- 这是一个海量数据的处理过程;
- 机器学习的目的最终目的是辅助获取知识。
(4)精细化营销的数据处理过程-机器学习
- 机器学习:是一门多领域交叉学科。从范围上讲机器学习和数据挖掘是类似的,可以等同于数据挖掘。从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
(5)精细化营销算法-客户细分聚类模型
- 聚类分析(clustering)分析是将一组对象划分成簇(cluster),使簇内对象相似性尽量大,而簇间对象相似性尽量小。常见的五大类算法:划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。
- **划分法(partitioning methods):**给定一个由n个元祖或记录组成的数据集,划分法将构造k个分组。每个分组代表一个聚类,k<=n。k个分组满足下列条件:
- <1>. 每个分组至少包含一个对象;
- <2>. 每个数据记录属于且仅属于一个分组。
- 算法:k-means、k-medois、CLARANS。
- **层次法(hierarchical methods):**对给定的数据集进行层次分解,直到满足某种条件位置。具体可分为“自底向上”的凝聚法和”自顶向下“的分裂法两种法案。代表算法:BIRCH、CURE、CHAMELEON。
- **密度法(density-based methods):**不是基于距离,而是基于密度。能克服基于距离的算只能发现“类圆形”聚类的缺点。代表算法:DBSCAN、OPTICS。
- **网格方法(grid-based methods):**首先将数据空间划分成有限个单元的网格结构,所有的处理都以单元为对象。优点处理速度很快。代表算法:STING、CLIQUE、Wave-Cluster。
- **模型方法(model-based methods):**给每个聚类假定一个模型,然后去寻找数据对给定模型进行最佳拟合。给定模型可能是数据点在空间中的密度分布的数或其他。
(6)精细化营销算法-k-Means
- **k-Means即K均值聚类:**属于划分聚类。其工作原理为根据初始化的聚类中心信息,计算每个样本到这些中心的距离,可以判断每个样本均归属于每个样本到新的聚类中心对应的类中,重复进行,直到满足条件。
- <1>. 确定聚类的个数k,并指定k个聚类的中心C1 , C2 ... Ck;
- <2>. 计算每个样本Si点到k个中心的距离,并将该点归入最近的Cj类中;
- <3>. 重新计算k个类簇的中心点,更新原有中心点的位置C1 , C2 ... Ck。
5. 机器学习平台PAI简介
- 阿里云机器学习平台PAI是构建在阿里云MaxConpute计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平台。
- 阿里云机器学习平台PAI:
- 工具、算法库:降低技术门槛
- 高性能云端计算:降低存储和计算成本
(1)机器学习PAI特点
- 基于MaxCompute、GPU集群、支持MR、MPI、SQL、BSP、SPARK等计算类型。
- 内置阿里、蚂蚁多年沉淀的分布式算法,支持百亿级数据量训练。
- WEB界面、通过拖、拉、拽等配置方式即可完成复杂数据流程。
(2)机器学习PAI的算法
- PAI提供最丰富的算法:包含特征工程、数据预处理、统计分析、机器学习、深度学习框架、预测与评估这一整套的机器学习算法组件,共100余种。
(3)机器学习PAI应用场景
- 营销类场景:商品推荐、用户群体画像、广告精准投放
- 金融类场景:贷款发放预测、金融风险控制、股票走势预测、黄金价格预测
- SNS关系挖掘:微博粉丝领袖分析、社交关系链分析
- 文本类场景:新闻分类、关键词提起、文章摘要、文本内容分析
- 非结构化数据处理场景:图片分类、图片文本内容提取OCR
- 其他各类预测场景:降雨预测、足球比赛结果预测
(4)机器学习PAI应用流程
- 在首先明确任务、目标、实际情况的前提下:
- <1>. 数据预处理
- <2>. 选择特征
- <3>. 选择模型进行数据训练
- <4>. 模型评估
- <5>. 模型发布(再学习训练)
- 一个完整的机器学习流程
- **<1>. 开通服务:**实名认证账号、登录控制台、进入机器学习
- **<2>. 导入输入:**新建/倒入数据源、上传本地数据、编辑数据集...
- **<3>. 数据预处理:**数据去噪、维度填充、类型转换...
- **<4>. 特征工程:**特征变换、特征评估、特征选择、特征生成...
- **<5>. 训练和预测:**选择模型、配置参数、数据处理、预测结果...
- **<6>. 评估:**选择模型、配置参数、查验结果...
6. 使用PAI实现精细化营销
(1)特征因子分析
- 数据中包含的数据变量(属性),如果过多参与建模,势必会削弱主要业务属性的影响,并给理解分群带来困难;襄汾如果太少则可能遗漏一些重要的属性关系,因此特征因子分析对建立模型至关重要。
- 品牌(brand)和区域分公司(district)的烯较小,说明分布倾斜,而年龄段分布较均匀。
- 年龄段、性别的信息增益最小,表明不确定性低,而品牌的增益比率最大属性特征明显。
(2)分群规划
- 实验案例有用户数据业务的消费信息以及客户基本属性,合理规划分群数目便于方便管理;品牌的熵最小,表明特征确定,这也符合通信行业的业务逻辑,模型设计时可以不作为变量。按业务量处理分群,实验数据为9个月业务量总量最大78.45,平均23.18,实验可以分为9个群;入网大部分用户在一年以内(离散),可以不做特征处理。
(3)模型处理
- 采用K均值聚类组件分类,首先将年龄、性别、地域数字化,然后组合业务信息进行分类,聚类数设置为9,其他参数设为默认数值,查看输出结果(包括模型、统计结果、聚类结果)。
(4)模型评估
- 采用聚类模型评估,评价聚类模型的优劣;系数CH(Calinski-Harabasz)是基于类内聚合度和类间分离度定义的聚类评价指标,数值越大表明划分越优。(注意:分类不同最优聚类数不同)
(5)结果分析示例
- 分组1(编号0):入网长、使用量少、消费低;属于低端一般客户
- 分组2(编号1):入网长、消费低、时间长、流量少;低端书检客户
- 分组3:入网1年以上、消费低、时间很长、流量较少;低端高耗客户
- 分组4:新入网、消费能力差、使用量和使用时长都少的客户;低端新客户
- 分组5:低端不足一年的一般客户
- 分组6:新入网高消费客户
- 分组7:消费能力一般新入网普通客户,但年龄偏大低端客户
- 分组8:使用量、使用时长稳定的入网半年以上高消费客户
- 分组9:使用量、使用时长稳定的新入网高消费客户
转载于:https://juejin.im/post/5c7272a5f265da2dbe02e999