《SAS编程与数据挖掘商业案例》学习笔记之十八

本文是《SAS编程与数据挖掘商业案例》的学习笔记,重点关注数据挖掘流程和Logistic回归的应用。作者强调了数据挖掘的商业目标的重要性,介绍了数据挖掘的基本流程,包括商业理解、数据收集等步骤,并探讨了Logistic回归在分类和预测中的作用。文中还提到了Logistic回归与线性回归的区别,并讨论了模型评估指标,如拟合优度、卡方统计和预测准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

接着以前的《SAS编程与数据挖掘商业案例》,之前全是sas的基础知识,现在开始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明。

一:数据挖掘综述

衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标,有很多种方法,只有高效解决商业目标的方法才是最牛的方法,即使是看似简单的方法,只要能高效解决商业目标,我们就认为是牛的方法;

面对海量的数据,即使是使用了最先进的工具,最复杂的算法,但是如果挖掘出来的知识是无用的,或者挖掘的结果是无法解释的,那这种挖掘也是失败的。很多人对数据挖掘都有一个误解,认为一定要使用复杂的工具和复杂的算法,其实是一种误导。

数据挖掘流程:商业理解、数据收集、数据清洗、数据特征化、数据建模、模型打分、模型验证、模型实施、模型优化

描述分析:对已经发生的现象进行分析,主要分析技术有描述性分析、数据特征化、聚类分析、孤立点分析

因果分析:寻找发生的原因,主要技术有联机分析、相关性分析、回归分析、关联分析、因子分析

分类和预测:

主要分类技术:决策树、判别分析、贝叶斯分类、logistic回归分析、神经网络、支持向量机等

预测技术有:多元线性回归分析、广义线性回归分析、非线性回归分析、神经网络分析

二:商业目标:

1、评价活动的效果:比较分析

通过开展工作组和控制组进行比对。

2.特征分析

比如要分析高价值客户的特征,通过特征化数据(均值、方差、极值)、相关性度量(相关系数、卡方值、基尼系数、熵)、聚类分析、因子分析等发现表面的和潜在的数据特征。

3.市场细分

市场细分由业务主导,而不是技术主导。细分结果一定要以易于开展营销活动为目的。

4.响应

提高某个营销活动的响应度

5.风险

风险控制指标通常包括:资产负债情况、信用记录、工作稳定性、收入、教育程度、家庭人口结构

风险模型的建立在技术上类似于响应模型,但对于业务上有很大的区别,比如定义目标变量上,风险模型可能有很多因素决定,一个比较常见的定义:拖欠额度超过某一数值,并逾期超过3个月的客户作为风险客户(目标变量值为1,其余情况为0

6.流失

重点在于流失目标变量的定义;

7.提升销售和交叉销售

数据挖掘商业应用的最高原则是:“效率、效果”

3.需求文档

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值