接着以前的《SAS编程与数据挖掘商业案例》,之前全是sas的基础知识,现在开始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明。
一:数据挖掘综述
衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标,有很多种方法,只有高效解决商业目标的方法才是最牛的方法,即使是看似简单的方法,只要能高效解决商业目标,我们就认为是牛的方法;
面对海量的数据,即使是使用了最先进的工具,最复杂的算法,但是如果挖掘出来的知识是无用的,或者挖掘的结果是无法解释的,那这种挖掘也是失败的。很多人对数据挖掘都有一个误解,认为一定要使用复杂的工具和复杂的算法,其实是一种误导。
数据挖掘流程:商业理解、数据收集、数据清洗、数据特征化、数据建模、模型打分、模型验证、模型实施、模型优化
描述分析:对已经发生的现象进行分析,主要分析技术有描述性分析、数据特征化、聚类分析、孤立点分析
因果分析:寻找发生的原因,主要技术有联机分析、相关性分析、回归分析、关联分析、因子分析
分类和预测:
主要分类技术:决策树、判别分析、贝叶斯分类、logistic回归分析、神经网络、支持向量机等
预测技术有:多元线性回归分析、广义线性回归分析、非线性回归分析、神经网络分析
二:商业目标:
1、评价活动的效果:比较分析
通过开展工作组和控制组进行比对。
2.特征分析
比如要分析高价值客户的特征,通过特征化数据(均值、方差、极值)、相关性度量(相关系数、卡方值、基尼系数、熵)、聚类分析、因子分析等发现表面的和潜在的数据特征。
3.市场细分
市场细分由业务主导,而不是技术主导。细分结果一定要以易于开展营销活动为目的。
4.响应
提高某个营销活动的响应度
5.风险
风险控制指标通常包括:资产负债情况、信用记录、工作稳定性、收入、教育程度、家庭人口结构
风险模型的建立在技术上类似于响应模型,但对于业务上有很大的区别,比如定义目标变量上,风险模型可能有很多因素决定,一个比较常见的定义:拖欠额度超过某一数值,并逾期超过3个月的客户作为风险客户(目标变量值为1,其余情况为0)
6.流失
重点在于流失目标变量的定义;
7.提升销售和交叉销售
数据挖掘商业应用的最高原则是:“效率、效果”
3.需求文档