数据挖掘案例分析:从出租车取消到企业破产预测
1. 出租车取消案例分析
1.1 业务背景
2013年末,印度班加罗尔的出租车公司Yourcabs.com面临司机爽约问题,部分司机取消已接受的订单,若未提前通知,会导致客户延误甚至被弃。当时,班加罗尔是印度的科技中心,科技正改变出租车行业,Yourcabs.com有在线预订系统,2014年年中Uber也开始在班加罗尔运营。该公司收集了2011 - 2013年的预订数据,并与印度商学院合作在Kaggle上发起竞赛,以研究出租车取消问题。
1.2 数据情况
数据是原始数据的随机子集,有10,000行,每行代表一次预订。包含17个输入变量,如用户ID、车型、预订方式、旅行类型、预订套餐类型、地理信息、预订行程的日期和时间等。目标变量是行程是否取消的二元指标,总体取消率在7% - 8%。
1.3 任务安排
- 预测模型的应用 :思考基于这些数据构建的预测模型对Yourcabs.com有何用途。
- 分析模型的应用 :分析识别取消/未取消行程预测因素的分析模型对Yourcabs.com的作用。
-
数据探索、准备和转换
:
- 探索性建模时,可先构建初始模型,不必解决所有数据准备问题,如GPS信息可稍后处理。
- 处理缺失数据,如NULL值情况。
- 挖掘日期和时间字段中的有用信息,数据文件中有相关提示。
- 考虑如何处理分类变量,是否全部转换为虚拟变量。
- 拟合预测模型 :选择几种预测模型进行拟合,分析预测变量与取消情况的关系。
- 模型性能评估 - 错误率 :用混淆矩阵报告模型的预测性能,评估模型是否适用于实际。
- 模型性能评估 - 提升度 :从排名(提升度)角度评估模型的预测性能,判断模型是否实用。
2. 沐浴皂消费者细分案例分析
2.1 业务背景
CRISA是亚洲的市场研究机构,专注于跟踪消费品(耐用和非耐用)的消费者购买行为。在一个大型研究项目中,它跟踪众多消费品类和品牌,通过分层抽样在印度100多个城镇建立家庭小组,分析其中600条记录。CRISA有交易数据和家庭数据,客户包括广告机构和消费品制造商。
2.2 关键问题
传统上,CRISA基于购买者人口统计信息进行市场细分,现在希望基于与购买过程和品牌忠诚度更直接相关的两组变量进行细分:
1. 购买行为(购买量、频率、对折扣的敏感度和品牌忠诚度)
2. 购买依据(价格、销售主张)
这样做可让CRISA了解不同人口属性与购买行为和品牌忠诚度的关联,更有效地分配促销预算,设计更具成本效益的促销活动和客户奖励系统,提高品牌忠诚度。
2.3 数据情况
数据以表格形式呈现,每行代表一个家庭,包含家庭的各种信息,如下表所示:
|变量类型|变量名称|描述|
| ---- | ---- | ---- |
|Member ID|Member id|每个家庭的唯一标识符|
|Demographics|SEC|社会经济阶层(1 = 高,5 = 低)|
|Demographics|FEH|饮食习惯(1 = 素食者,2 = 素食但吃鸡蛋,3 = 非素食者,0 = 未指定)|
|Demographics|MT|母语(见工作表中的表格)|
|Demographics|SEX|家庭主妇的性别(1 = 男性,2 = 女性)|
|Demographics|AGE|家庭主妇的年龄|
|Demographics|EDU|家庭主妇的教育程度(1 = 最低,9 = 最高)|
|Demographics|HS|家庭人数|
|Demographics|CHILD|家庭中儿童的情况(4类)|
|Demographics|CS|电视可用性(1 = 可用,2 = 不可用)|
|Affluence|Index|拥有耐用消费品的加权值|
|Purchase summary|No. of Brands|购买的品牌数量|
|Purchase summary|Brand Runs|连续购买品牌的次数|
|Purchase summary|Total Volume|购买总量|
|Purchase summary|No. of Trans|购买交易次数|
|Purchase summary|Value|购买总价值|
|Purchase summary|Trans/ Brand Runs|每个品牌连续购买的平均交易次数|
|Purchase summary|Vol/Trans|每次交易的平均购买量|
|Purchase summary|Avg. Price|平均购买价格|
|Purchase within promotion|Pur Vol|购买量百分比|
|Purchase within promotion|No Promo - %|无促销时的购买量百分比|
|Purchase within promotion|Pur Vol Promo 6%|促销代码6下的购买量百分比|
|Purchase within promotion|Pur Vol Other Promo %|其他促销下的购买量百分比|
|Brandwise purchase|Br. Cd. (57, 144), 55, 272, 286, 24, 481, 352, 5, and 999 (others)|各品牌的购买量百分比|
|Price categorywise purchase|Price Cat 1 to 4|各价格类别的购买量百分比|
|Selling propositionwise purchase|Proposition Cat 5 to 15|各产品主张类别的购买量百分比|
2.4 品牌忠诚度的衡量
品牌忠诚度可从以下几个方面衡量:
- 购买不同品牌的数量。
- 客户更换品牌的频率。
- 不同品牌的购买比例。
2.5 任务安排
-
K - 均值聚类
:
- 根据描述购买行为(包括品牌忠诚度)的变量进行聚类。
- 根据描述购买依据的变量进行聚类。
- 根据描述购买行为和购买依据的变量进行聚类。
- 选择合适的聚类数k,考虑营销活动可能支持2 - 5种不同的促销方式。
- 考虑如何处理各品牌购买百分比,可考虑使用单一派生变量。
- 最佳细分选择与分析 :选择最佳细分方案,分析这些聚类的特征(人口统计、品牌忠诚度和购买依据),用于指导广告和促销活动的开发。
- 分类模型开发 :开发将数据分类到这些细分市场的模型,选择一个市场细分作为分类模型中的成功类别,用于定向直邮促销。
3. 直邮筹款案例分析
3.1 背景
美国一个全国性退伍军人组织希望开发预测模型,提高直邮营销活动的成本效益。该组织有超过1300万捐赠者的内部数据库,是美国最大的直邮筹款机构之一。近期邮寄记录显示,总体响应率为5.1%,响应者的平均捐赠为13美元,每次邮寄成本为0.68美元。为了最大化预期净利润,采用加权抽样,使样本中捐赠者和非捐赠者数量相等。
3.2 数据情况
文件Fundraising.csv包含3120条记录,其中50%是捐赠者(TARGET_B = 1),50%是非捐赠者(TARGET_B = 0)。包含22个变量,各变量描述如下表:
|变量|描述|
| ---- | ---- |
|ZIP|邮政编码组(邮政编码分为五组;1表示潜在捐赠者属于该邮政编码组)|
|HOMEOWNER|1表示房主,0表示非房主|
|NUMCHLD|子女数量|
|INCOME|家庭收入|
|GENDER|0表示男性,1表示女性|
|WEALTH|财富评级,根据各地区的家庭收入中位数和人口统计数据对各州内的相对财富进行索引,分为0 - 9级,9表示最高财富组,0表示最低财富组|
|HV|潜在捐赠者所在社区的平均房屋价值(以百元为单位)|
|ICmed|潜在捐赠者所在社区的家庭收入中位数(以百元为单位)|
|ICavg|潜在捐赠者所在社区的家庭收入平均值(以百元为单位)|
|IC15|潜在捐赠者所在社区中收入低于15,000美元的百分比|
|NUMPROM|到目前为止收到的促销活动总数|
|RAMNTALL|到目前为止的终身捐赠总额|
|MAXRAMNT|到目前为止的最大捐赠额|
|LASTGIFT|最近一次的捐赠额|
|TOTALMONTHS|从上次捐赠到1998年7月(案例最后更新时间)的月数|
|TIMELAG|第一次和第二次捐赠之间的月数|
|AVGGIFT|到目前为止的平均捐赠额|
|TARGET - B|结果变量:响应的二元指标,1表示捐赠者,0表示非捐赠者|
|TARGET - D|结果变量:捐赠金额(美元),本案例不使用该变量|
3.3 任务安排
- 数据分区 :将数据集按60%训练集和40%验证集进行划分,设置随机种子为12345。
-
模型构建
:
- 选择分类工具和参数 :选择至少两种分类模型进行运行,不使用TARGET_D变量,详细描述所选模型的方法、参数和变量等,以便可复现。
- 非对称响应和成本下的分类 :解释使用加权抽样使训练集中捐赠者和非捐赠者数量相等的原因,以及不使用简单随机抽样的理由。
- 净利润计算 :根据实际响应率(5.1%),计算每种方法在训练集和验证集上的净利润提升度。计算时需消除加权抽样的影响,实际捐赠者的过采样权重为50%/5.1% = 9.8,实际非捐赠者的过采样权重为50%/94.9% = 0.53。
- 绘制提升曲线 :在同一图中绘制各模型在验证集上的净利润提升曲线(y轴为净利润,x轴为邮寄名单比例或邮寄数量),判断是否有主导模型。
- 选择最佳模型 :根据提升曲线选择最佳模型。
- 测试 :文件FutureFundraising.csv包含未来邮寄候选人的属性,使用最佳模型预测这些候选人是捐赠者还是非捐赠者,按成为捐赠者的概率降序排列,确定在邮寄活动中应覆盖的范围。
3.4 流程图
graph LR
A[数据分区] --> B[模型构建]
B --> B1[选择分类工具和参数]
B --> B2[非对称响应和成本下的分类]
B --> B3[净利润计算]
B --> B4[绘制提升曲线]
B --> B5[选择最佳模型]
B --> C[测试]
4. 目录交叉销售案例分析
4.1 背景
Exeter公司是一家目录销售公司,拥有数十种目录,分为九个基本类别:服装、家居用品、健康、汽车、个人电子设备、计算机、花园、新奇礼品、珠宝。印刷和分发目录成本高,最大的运营成本是向不购买产品的人推广产品。因此,Exeter希望通过交叉销售提高目录的使用效率,在客户购买产品后,选择更有可能促使其再次购买的目录进行交叉推广。
4.2 任务安排
使用数据集CatalogCrossSell.csv进行关联规则分析,解释输出统计量(提升比、置信度、支持度)的含义,并大致估计这对Exeter选择交叉推广目录的帮助程度。
5. 破产预测案例分析
5.1 背景
商业分析师通过分析公司财务报表来监测其财务健康状况,但财务变量的记录不如医疗指标精确,且财务报告信息存在实际现金收支披露不足、会计标准变化等问题,导致难以准确判断公司健康状况。为研究公司破产的可预测性,选取了66家破产公司和66家规模和行业相近的健康公司,计算了每家公司破产前两年的24个财务比率。
5.2 财务比率说明
| 缩写 | 财务变量 | 比率 | 定义 |
|---|---|---|---|
| ASSETS | 总资产 | R1 | CASH/CURDEBT |
| CASH | 现金 | R2 | CASH/SALES |
| CFFO | 经营活动现金流量 | R3 | CASH/ASSETS |
| COGS | 销售成本 | R4 | CASH/DEBTS |
| CURASS | 流动资产 | R5 | CFFO/SALES |
| CURDEBT | 流动负债 | R6 | CFFO/ASSETS |
| DEBTS | 总负债 | R7 | CFFO/DEBTS |
| INC | 收入 | R8 | COGS/INV |
| INCDEP | 收入加折旧 | R9 | CURASS/CURDEBT |
| INV | 存货 | R10 | CURASS/SALES |
| REC | 应收账款 | R11 | CURASS/ASSETS |
| SALES | 销售额 | R12 | CURDEBT/DEBTS |
| WCFO | 经营活动营运资金 | R13 | INC/SALES |
| R14 | INC/ASSETS | ||
| R15 | INC/DEBTS | ||
| R16 | INCDEP/SALES | ||
| R17 | INCDEP/ASSETS | ||
| R18 | INCDEP/DEBTS | ||
| R19 | SALES/REC | ||
| R20 | SALES/ASSETS | ||
| R21 | ASSETS/DEBTS | ||
| R22 | WCFO/SALES | ||
| R23 | WCFO/ASSETS | ||
| R24 | WCFO/DEBTS |
5.3 任务安排
- 数据挖掘技术应用 :选择合适的数据挖掘技术评估是否存在传达相同信息的变量组,以及这些信息的重要性,并进行分析。
- 目标与分类方法分析 :分析分析破产公司特征与简单预测公司是否破产这两个目标的区别,以及在不同情况下适用的分类方法。
- 数据探索 :探索数据,初步了解区分破产和非破产公司的重要变量,可使用并排箱线图,以破产/非破产变量为x轴。
- 模型构建 :使用R选择分类器构建多个预测公司是否破产的模型,并在验证分区上评估模型性能。
- 重要变量分析 :根据上述分析,确定分类中重要的变量,并讨论其影响。
6. 各案例总结与对比
6.1 案例类型与目标总结
| 案例名称 | 案例类型 | 主要目标 |
|---|---|---|
| 出租车取消案例 | 预测类 | 通过构建预测模型,降低出租车取消率,提高客户满意度 |
| 沐浴皂消费者细分案例 | 细分类 | 基于购买行为和购买依据对消费者进行细分,优化促销预算分配 |
| 直邮筹款案例 | 预测类 | 开发预测模型,提高直邮筹款活动的成本效益,最大化净利润 |
| 目录交叉销售案例 | 关联分析类 | 通过关联规则分析,选择更合适的目录进行交叉销售,提高销售效率 |
| 破产预测案例 | 预测类 | 评估公司破产的可能性,提前采取措施防范风险 |
6.2 数据特点对比
不同案例的数据特点存在差异,具体如下:
-
出租车取消案例
:包含用户、车辆、预订方式等多种类型的变量,数据量为10,000行,目标变量为二元指标(行程是否取消)。
-
沐浴皂消费者细分案例
:涵盖家庭的人口统计、富裕程度、购买行为等多方面信息,样本量为600条记录,用于衡量品牌忠诚度的变量较多。
-
直邮筹款案例
:有22个变量,样本量为3120条记录,采用加权抽样使捐赠者和非捐赠者数量相等,重点关注捐赠响应情况。
-
目录交叉销售案例
:数据主要围绕产品目录类别,用于关联规则分析,以提高交叉销售的精准度。
-
破产预测案例
:涉及24个财务比率,样本为66家破产公司和66家健康公司,用于预测公司破产的可能性。
6.3 任务方法对比
各案例的任务方法也有所不同:
-
出租车取消案例
:需要进行数据探索、准备和转换,拟合多种预测模型,并从错误率和提升度等方面评估模型性能。
-
沐浴皂消费者细分案例
:运用K - 均值聚类对消费者进行细分,选择最佳细分方案并分析其特征,开发分类模型。
-
直邮筹款案例
:包括数据分区、模型构建(选择分类工具和参数、考虑非对称响应和成本、计算净利润、绘制提升曲线、选择最佳模型)和测试等步骤。
-
目录交叉销售案例
:进行关联规则分析,解释相关统计量的含义,评估其对交叉销售决策的帮助。
-
破产预测案例
:选择合适的数据挖掘技术分析变量信息,探索重要变量,构建预测模型并评估性能,分析重要变量的影响。
7. 各案例的技术要点分析
7.1 出租车取消案例技术要点
- 数据处理 :在处理GPS信息等复杂数据时,可先构建初始模型,后续再深入处理。对于缺失数据,需要根据具体情况选择合适的处理方法,如删除、填充等。
- 变量选择与转换 :考虑将分类变量转换为虚拟变量,同时挖掘日期和时间字段中的有用信息,如将日期转换为星期几、月份等,以提高模型的预测能力。
- 模型评估 :使用混淆矩阵和提升度等指标评估模型性能,判断模型是否适用于实际业务场景。
7.2 沐浴皂消费者细分案例技术要点
- K - 均值聚类 :选择合适的聚类数k至关重要,可通过多次试验和业务需求来确定。同时,要合理处理各品牌购买百分比等变量,可使用单一派生变量简化分析。
- 细分特征分析 :对聚类结果进行深入分析,了解不同细分市场的人口统计、品牌忠诚度和购买依据等特征,为营销活动提供有针对性的建议。
- 分类模型开发 :开发分类模型时,选择合适的分类算法,并将一个市场细分作为成功类别,用于定向直邮促销。
7.3 直邮筹款案例技术要点
- 加权抽样 :采用加权抽样使样本中捐赠者和非捐赠者数量相等,目的是在建模过程中更均衡地考虑两类样本,提高模型对捐赠者的捕捉能力。在计算净利润时,需要消除加权抽样的影响。
- 模型选择与评估 :选择至少两种分类模型进行比较,通过绘制提升曲线评估模型性能,选择最佳模型用于预测未来邮寄候选人的捐赠情况。
7.4 目录交叉销售案例技术要点
- 关联规则分析 :运用关联规则分析找出不同目录类别之间的关联关系,解释提升比、置信度、支持度等统计量的含义,为交叉销售决策提供依据。
- 实际应用评估 :大致估计关联规则分析对选择交叉推广目录的帮助程度,判断其在实际业务中的可行性和有效性。
7.5 破产预测案例技术要点
- 数据挖掘技术选择 :选择合适的数据挖掘技术,如主成分分析、因子分析等,评估变量之间的信息重叠程度和重要性。
- 重要变量探索 :通过探索性分析,如并排箱线图等方法,初步确定区分破产和非破产公司的重要变量。
- 模型构建与评估 :使用R选择分类器构建预测模型,并在验证分区上评估模型性能,分析重要变量对模型预测结果的影响。
8. 案例应用与启示
8.1 业务应用
- 出租车行业 :通过预测模型,出租车公司可以提前采取措施,如调整司机分配、提供激励措施等,降低出租车取消率,提高服务质量和客户满意度。
- 消费品行业 :消费者细分案例的结果可帮助企业更精准地定位目标客户,制定个性化的营销策略,提高促销活动的效果,增强品牌忠诚度。
- 非营利组织 :直邮筹款案例的预测模型可有效筛选出潜在捐赠者,提高直邮活动的响应率,降低成本,增加筹款收入。
- 零售行业 :目录交叉销售案例的关联规则分析结果可指导企业选择更合适的目录进行交叉销售,提高销售效率,降低营销成本。
- 金融行业 :破产预测案例的模型可帮助金融机构评估企业的信用风险,提前采取措施防范风险,保障资金安全。
8.2 技术启示
- 数据处理与特征工程 :在处理不同类型的数据时,要灵活运用数据处理和特征工程技术,挖掘数据中的潜在信息,提高模型的性能。
- 模型选择与评估 :根据不同的业务目标和数据特点,选择合适的模型,并使用多种评估指标对模型进行全面评估,确保模型的可靠性和有效性。
- 业务与技术结合 :数据挖掘技术应紧密结合业务需求,将分析结果转化为实际的业务决策,为企业创造价值。
8.3 流程图总结
graph LR
A[出租车取消案例] --> B[数据处理与特征工程]
C[沐浴皂消费者细分案例] --> B
D[直邮筹款案例] --> B
E[目录交叉销售案例] --> B
F[破产预测案例] --> B
B --> G[模型选择与构建]
G --> H[模型评估]
H --> I[业务应用与决策]
综上所述,通过对这些案例的分析,我们可以看到数据挖掘技术在不同行业和业务场景中的广泛应用。在实际应用中,要根据具体情况选择合适的技术和方法,结合业务需求进行深入分析,以实现业务目标,提高企业的竞争力和效益。
超级会员免费看
41

被折叠的 条评论
为什么被折叠?



