数据挖掘案例分析:信用评估、营销预测与政治宣传
1. k-NN预测与逻辑回归
1.1 k-NN预测算法
k-NN预测算法会给出一个数值,该数值是k个最近邻的Florence变量值的加权平均值,权重与距离成反比。使用之前k-NN分类中计算出的最佳k值,运行k-NN预测模型,并为验证数据计算提升曲线。使用所有5个预测变量和归一化数据,确定预测值的范围,并将结果与k近邻分类的输出进行比较。
1.2 逻辑回归
逻辑回归模型是一种强大的响应建模方法,因为它能得出明确的购买概率。该模型在消费者选择场景中特别有吸引力,因为它可以从消费者行为的随机效用理论推导得出。
使用包含1800条记录的训练集数据,构建三个逻辑回归模型,以Florence为结果变量,分别使用以下三组预测变量:
- 数据集中的全部15个预测变量。
- 认为是最佳的预测变量子集。
- 仅使用R、F和M变量。
1.3 操作步骤
- 创建一个提升图,总结上述三个逻辑回归模型的结果,以及从验证数据集中随机选择相同数量客户的预期提升。
- 如果营销活动的截止标准是30%的购买可能性,找出验证数据中符合目标的客户,并统计该集合中的购买者数量。
2. 德国信用案例
2.1 背景
放贷自货币出现以来就存在,是世界上第二古老的职业。但系统的信用风险评估是相对较新的事物,过去放贷主要基于声誉和非常不完整的数据。直到20世纪初,零售信贷公司成立以共享信用信息,该公司现在是三大信用评分机构之一的Equifax(另外两个是Transunion和Experion)。如今,个人和本地的人为判断在信用报告过程中基本无关紧要,信用机构和其他大型金融机构会收集大量数据,基于众多客户和交易信息来预测违约或其他不良事件是否会发生。
2.2 数据
德国信用数据集包含30个变量和1000条记录,每条记录代表一位先前的信贷申请人。每位申请人被评为“良好信用”(700例)或“不良信用”(300例)。误分类的后果评估如下:误判申请人为良好信用风险(假阳性)的成本是正确判断申请人为良好信用风险(真阳性)收益的5倍。
| 变量 | 变量名 | 描述 | 变量类型 | 代码描述 |
|---|---|---|---|---|
| 1 | OBS# | 观察编号 | 分类变量 | 数据集中的序号 |
| 2 | CHK−ACCT | 支票账户状态 | 分类变量 | 0: <0 DM;1: 0−200 DM;2 : >200 DM;3: 无支票账户 |
| 3 | DURATION | 信贷期限(月) | 数值变量 | - |
| 4 | HISTORY | 信用历史 | 分类变量 | 0: 未申请过信贷;1: 该银行的所有信贷均按时偿还;2: 现有信贷至今按时偿还;3: 过去有还款延迟;4: 关键账户 |
| 5 | NEW−CAR | 信贷用途(新车) | 二元变量 | 0: 否,1: 是 |
| 6 | USED−CAR | 信贷用途(二手车) | 二元变量 | 0: 否,1: 是 |
| 7 | FURNITURE | 信贷用途(家具/设备) | 二元变量 | 0: 否,1: 是 |
| 8 | RADIO/TV | 信贷用途(收音机/电视) | 二元变量 | 0: 否,1: 是 |
| 9 | EDUCATION | 信贷用途(教育) | 二元变量 | 0: 否,1: 是 |
| 10 | RETRAINING | 信贷用途(再培训) | 二元变量 | 0: 否,1: 是 |
| 11 | AMOUNT | 信贷金额 | 数值变量 | - |
| 12 | SAV−ACCT | 储蓄账户平均余额 | 分类变量 | 0: <100 DM;1 : 101−500 DM;2 : 501−1000 DM;3 : >1000 DM;4 : 未知/无储蓄账户 |
| 13 | EMPLOYMENT | 当前就业状况 | 分类变量 | 0 : 失业;1: <1年;2: 1−3年;3: 4−6年;4: ≥7年 |
| 14 | INSTALL−RATE | 分期付款率(占可支配收入的百分比) | 数值变量 | - |
| 15 | MALE−DIV | 申请人为离异男性 | 二元变量 | 0: 否,1: 是 |
| 16 | MALE−SINGLE | 申请人为单身男性 | 二元变量 | 0: 否,1: 是 |
| 17 | MALE−MAR−WID | 申请人为已婚或丧偶男性 | 二元变量 | 0: 否,1: 是 |
| 18 | CO-APPLICANT | 申请有共同申请人 | 二元变量 | 0: 否,1: 是 |
| 19 | GUARANTOR | 申请人有担保人 | 二元变量 | 0: 否,1: 是 |
| 20 | PRESENT−RESIDENT | 当前居住时长(年) | 分类变量 | 0: ≤1年;1: 1−2年;2: 2−3年;3: ≥3年 |
| 21 | REAL−ESTATE | 申请人拥有房地产 | 二元变量 | 0: 否,1: 是 |
| 22 | PROP−UNKN−NONE | 申请人无财产(或未知) | 二元变量 | 0: 否,1: 是 |
| 23 | AGE | 年龄(岁) | 数值变量 | - |
| 24 | OTHER−INSTALL | 申请人有其他分期付款计划信贷 | 二元变量 | 0: 否,1: 是 |
| 25 | RENT | 申请人租房 | 二元变量 | 0: 否,1: 是 |
| 26 | OWN−RES | 申请人拥有住房 | 二元变量 | 0: 否,1: 是 |
| 27 | NUM−CREDITS | 在该银行的现有信贷数量 | 数值变量 | - |
| 28 | JOB | 工作性质 | 分类变量 | 0 : 失业/非居民非熟练工;1 : 居民非熟练工;2 : 熟练员工/官员;3 : 管理层/自雇人士/高素质员工/官员 |
| 29 | NUM−DEPENDENTS | 需抚养人数 | 数值变量 | - |
| 30 | TELEPHONE | 申请人名下有电话 | 二元变量 | 0: 否,1: 是 |
| 31 | FOREIGN | 外国工人 | 二元变量 | 0: 否,1: 是 |
| 32 | RESPONSE | 信用评级是否良好 | 二元变量 | 0: 否,1: 是 |
2.3 任务
- 回顾预测变量,推测它们在信用决策中的作用,检查数据中是否有意外情况。
- 将数据划分为训练集和验证集,使用R中的以下数据挖掘技术开发分类模型:逻辑回归、分类树和神经网络。
- 从每种技术中选择一个模型,报告验证数据的混淆矩阵和成本/收益矩阵,确定哪种技术的净利润最高。
-
尝试改进性能,不采用所有申请人信用状态的默认分类,而是使用逻辑回归的估计概率(倾向)作为基础,先选择最佳信用风险的申请人,再选择风险较差的申请人。创建一个包含验证集中每条记录净利润的向量,使用该向量为验证集创建包含净利润的十分位数提升图。
- 确定在验证数据中达到最大净利润的范围(通常指定为百分位数或四舍五入到十分位数)。
- 如果使用该逻辑回归模型对未来申请人进行评分,确定在发放信贷时应使用的“成功概率”截止值。
3. Tayko软件目录案例
3.1 背景
Tayko是一家软件目录公司,销售游戏和教育软件。它最初是一家软件制造商,后来增加了第三方产品。最近,它整理了一份新目录,准备进行邮寄营销。为了扩大客户群,它加入了一个专门从事计算机和软件产品的目录公司联盟。联盟成员可以从共享的客户列表中选择名称进行目录邮寄,并可以对列表中的记录进行预测建模,以更好地选择名称。
3.2 邮寄实验
Tayko向联盟提供了200,000个客户名称,现在有权从超过5,000,000个名称的池中抽取200,000个名称进行邮寄。它抽取了20,000个名称进行新目录的测试邮寄,结果有1065人购买,响应率为0.053。为了优化数据挖掘技术的性能,使用了包含相等数量购买者和非购买者的分层样本。数据集包含1000个购买者和1000个非购买者,表面响应率为0.5。因此,在使用数据集预测谁将成为购买者后,必须将每个案例的“购买概率”乘以0.053/0.5(即0.107)来调整购买率。
3.3 数据
本案例中有两个结果变量:Purchase表示潜在客户是否对测试邮寄做出响应并购买了产品;Spending表示购买者的花费金额。整体流程是开发两个模型,一个用于将客户分类为购买者或非购买者,另一个用于对分类为购买者的客户预测其花费金额。
| 变量 | 变量名 | 描述 | 变量类型 | 描述 |
|---|---|---|---|---|
| 1 | US | 是否为美国地址 | 二元变量 | 1: 是;0: 否 |
| 2 - 16 | Source−* | 记录的来源目录 | 二元变量 | 1: 是;0: 否(15种可能的来源) |
| 17 | Freq. | 过去一年在来源目录的交易次数 | 数值变量 | - |
| 18 | last−update−days−ago | 客户记录最后更新的天数 | 数值变量 | - |
| 19 | 1st−update−days−ago | 客户记录首次更新的天数 | 数值变量 | - |
| 20 | RFM% | 最近购买时间 - 购买频率 - 购买金额百分位数 | 数值变量 | 由来源目录报告 |
| 21 | Web−order | 客户是否至少通过网络下过一次订单 | 二元变量 | 1: 是;0: 否 |
| 22 | Gender=mal | 客户是否为男性 | 二元变量 | 1: 是;0: 否 |
| 23 | Address_is_res | 地址是否为住宅 | 二元变量 | 1: 是;0: 否 |
| 24 | Purchase | 测试邮寄中是否购买 | 二元变量 | 1: 是;0: 否 |
| 25 | Spending | 测试邮寄中客户的花费金额(美元) | 数值变量 | - |
3.4 任务
- 估计如果公司从池中随机选择剩余的180,000个名称进行邮寄,每个目录的邮寄成本约为2美元(包括印刷、邮资和邮寄费用),公司可能获得的毛利润。
-
开发一个将客户分类为购买者或非购买者的模型:
- 随机将数据划分为训练集(800条记录)、验证集(700条记录)和测试集(500条记录)。
- 使用反向消除法进行逐步逻辑回归,选择最佳变量子集,然后使用该模型将数据分类为购买者和非购买者。仅使用训练集运行模型(使用逻辑回归是因为它能得出估计的“购买概率”,这在后续分析中是必需的)。
-
开发一个预测购买者花费金额的模型:
- 创建一个仅包含购买者记录ID的向量(Purchase = 1)。
- 将该数据集划分为训练记录和验证记录(使用早期划分的相同训练/验证标签,一种方法是使用intersect()函数查找原始划分中购买者的ID)。
-
使用以下方法开发预测花费金额的模型:
- 多元线性回归(使用逐步回归)。
- 回归树。
- 根据模型在验证数据上的性能选择一个模型。
-
返回原始测试数据划分,创建一个名为Score Analysis的新数据框,包含该数据集的测试数据部分:
- 在数据框中添加一列逻辑回归的预测分数。
- 添加另一列所选预测模型的预测花费金额。
- 通过将“预测购买概率”乘以0.107添加一列“调整后的购买概率”,以调整购买者的过采样。
- 添加一列预期花费:调整后的购买概率×预测花费。
- 绘制预期花费的提升图。
- 使用该提升曲线,估计基于数据挖掘模型向180,000个名称邮寄目录可能产生的毛利润。
4. 政治宣传案例
4.1 背景
政治宣传通常被认为是政治竞选活动说服选民其候选人比其他候选人更好的努力,但实际上,竞选活动更多的是说服认同自己的人实际去投票。预测分析在这一努力中现在发挥着重要作用,但在2004年,它是政治工具包中的新成员。
4.2 预测分析在美国政治中的应用
2004年1月,美国总统竞选的候选人在爱荷华州党团会议上竞争,这是漫长的逐州初选的一部分,最终选出共和党和民主党总统候选人。在民主党人中,霍华德·迪恩在全国民意调查中领先。然而,爱荷华州党团会议是一个复杂而密集的过程,只吸引最坚定和感兴趣的选民,参与者并非全国选民的代表样本。对计划参加者的调查显示,迪恩和包括约翰·克里在内的其他三位候选人之间的竞争很激烈。克里最终以惊人的优势获胜,其表现优于预期得益于竞选团队创新且成功地使用预测分析来了解个别选民的可能行为,从而能够以优化党团会议表现的方式定位选民。
4.3 政治定位
选民定位在政治中并不新鲜,传统上有三种形式:
- 地理定位:根据先前的投票模式或调查揭示的地理区域的政治倾向,将资源导向地理单位(州、市、县等)。但这种方法有显著局限性,如果一个县只有52%的人支持你,虽然它可能最需要关注,但如果向全县所有人发送信息,几乎一半的信息会发送给错误的人。
- 人口统计定位:信息针对特定的人口统计群体,如老年选民、年轻女性选民、西班牙裔选民等。这种方法的局限性在于实施往往不容易,很难仅向单一人口统计群体传递信息。
- 传统个人定位:最有效的定位形式,基于调查询问选民的投票计划。但这种方法的主要局限是成本,通过电话或上门调查接触所有选民的费用可能过高。
使用预测分析增强了个人定位方法的能力并降低了成本。模型可以将预测应用于整个选民群体,而不仅仅是接受调查的人,并能利用大量信息。地理和人口统计数据仍然是其中的一部分,但在个人层面上使用。
4.4 提升建模
在经典的营销预测建模应用中,选择一个数据样本,发出报价(如在网上)或发送信息(如通过邮件),开发一个预测模型将个人分类为响应或不响应。然后将模型应用于新数据,计算响应倾向,按响应倾向对个人进行排名,营销人员可以选择最有可能响应邮件或报价的人。但这种经典方法缺少一些关键信息,例如个人在没有报价或邮件的情况下会如何响应,高倾向客户是否无论报价如何都有购买倾向,报价是否会降低个人的购买倾向。提升建模允许在个人层面上估计“有报价与无报价”或“有邮件与无邮件”的影响。
4.5 实验步骤
- 对选民进行预调查,确定他们投票给民主党的倾向。
- 随机将选民分为两个样本:对照组和处理组。
- 向处理组发送宣传民主党候选人的传单。
- 对选民进行另一次调查,确定他们投票给民主党的倾向。
4.6 数据
数据位于Voter-Persuasion.csv文件中。目标变量是MOVED_AD,其中1表示“意见转向支持民主党候选人”,0表示“意见未转向支持民主党候选人”。该变量包含了预调查和后调查的信息。重要的预测变量是Flyer,这是一个二元变量,表示选民是否收到了传单。此外,还有许多其他预测变量,来自以下来源:
- 政府选民档案。
- 政党数据。
- 商业消费者和人口统计数据。
- 人口普查邻里数据。
4.7 任务
- 总体而言,传单在使选民转向支持民主党方面效果如何?(比较收到传单的人和未收到传单的人在目标变量上的情况)
- 使用数据可视化探索预测变量与MOVED_AD之间的关系,确定哪些预测变量似乎具有良好的预测潜力,并展示支持性的图表和/或表格。
- 使用数据集中的划分变量对数据进行划分,决定预测变量的纳入情况,并相应地拟合三个预测模型。对于每个模型,详细说明使用的方法、参数和预测变量,以便结果可以被复制。
- 从三个模型中选择预测能力最强的最佳模型,说明选择的模型及其原因。
- 使用所选模型,报告验证集中前三条记录的倾向。
- 创建一个与Flyer相反的派生变量,称为Flyer-reversed。使用所选模型,将Flyer-reversed变量作为预测变量,而不是Flyer重新对验证数据进行评分,报告验证集中前三条记录的倾向。
- 对于每条记录,根据以下差异计算提升:P(成功 | Flyer = 1) - P(成功 | Flyer = 0),计算验证集中每个选民的提升,并报告前三条记录的提升。
- 如果竞选活动只有资源向10%的选民邮寄传单,应使用什么提升截止值?
5. 各案例的综合分析与总结
5.1 不同案例的共性与差异
| 案例 | 目标 | 数据特点 | 主要方法 |
|---|---|---|---|
| 德国信用案例 | 评估申请人信用风险,实现盈利最大化 | 包含30个变量,1000条记录,有分类标签 | 逻辑回归、分类树、神经网络 |
| Tayko软件目录案例 | 预测客户购买行为和花费金额,提高营销利润 | 有两个结果变量,含25个变量,2000条分层样本记录 | 逐步逻辑回归、多元线性回归、回归树 |
| 政治宣传案例 | 预测选民意见转向,优化宣传资源分配 | 含目标变量和多个预测变量,数据来自多源 | 预测建模、提升建模 |
从共性来看,三个案例都涉及到数据挖掘和预测建模,通过对数据的分析来解决实际问题。都需要对数据进行划分,构建模型并评估模型性能。差异方面,德国信用案例侧重于风险评估和成本控制;Tayko软件目录案例聚焦于营销效果和利润提升;政治宣传案例则关注选民意见的转变和资源的有效利用。
5.2 模型选择与性能评估
在德国信用案例中,需要从逻辑回归、分类树和神经网络三种技术中选择一个净利润最高的模型。这需要通过比较不同模型在验证数据上的混淆矩阵和成本/收益矩阵来确定。在Tayko软件目录案例中,对于分类模型和预测花费金额的模型,都需要根据模型在验证数据上的表现进行选择。政治宣传案例中,从三个预测模型中选择预测能力最强的模型,依据是模型的预测效果。
5.3 实际应用中的考虑因素
在实际应用这些模型时,需要考虑多种因素。例如,在德国信用案例中,误分类的成本差异很大,需要在模型选择和分类决策中充分考虑这一点。在Tayko软件目录案例中,邮寄成本是一个重要因素,需要结合预测结果和成本来评估营销方案的可行性。在政治宣传案例中,宣传资源有限,需要根据提升值来合理分配资源。
6. 数据挖掘流程总结
6.1 数据挖掘的通用流程
graph LR
A[数据收集] --> B[数据理解]
B --> C[数据准备]
C --> D[模型选择与构建]
D --> E[模型评估]
E --> F[模型应用]
- 数据收集 :从不同来源获取相关数据,如德国信用案例中的信用申请记录、Tayko软件目录案例中的客户购买数据、政治宣传案例中的选民信息等。
- 数据理解 :了解数据的结构、变量含义和数据特点,识别数据中的异常值和缺失值。例如,在德国信用案例中,需要理解每个变量在信用评估中的可能作用。
- 数据准备 :对数据进行清洗、转换和划分。清洗数据包括处理缺失值和异常值;转换数据可能涉及对分类变量进行编码、对数值变量进行归一化等;划分数据为训练集、验证集和测试集,用于模型的训练、评估和测试。
- 模型选择与构建 :根据问题的性质和数据特点选择合适的模型,如逻辑回归、分类树、神经网络、多元线性回归、回归树等。使用训练集数据对模型进行训练,确定模型的参数。
- 模型评估 :使用验证集或测试集数据评估模型的性能。评估指标可以包括准确率、召回率、F1值、净利润等。根据评估结果选择最佳模型。
- 模型应用 :将选择的模型应用于新的数据,进行预测和决策。例如,在德国信用案例中,对新的申请人进行信用评估;在Tayko软件目录案例中,预测客户的购买行为和花费金额;在政治宣传案例中,预测选民的意见转向。
6.2 各案例的具体流程差异
虽然通用流程适用于所有案例,但每个案例在具体步骤上可能存在差异。例如,德国信用案例中需要特别关注误分类成本,在模型评估和决策时要考虑成本/收益矩阵;Tayko软件目录案例中需要对购买概率进行调整,以反映实际的响应率;政治宣传案例中需要进行提升建模,计算提升值来优化资源分配。
7. 未来展望
7.1 技术发展趋势
随着数据量的不断增加和计算能力的提升,数据挖掘技术将不断发展。深度学习、强化学习等新兴技术可能会在这些领域得到更广泛的应用。例如,在政治宣传案例中,深度学习模型可能能够更好地处理复杂的选民数据和多源信息,提高预测的准确性。
7.2 业务应用拓展
这些案例所涉及的领域可能会进一步拓展数据挖掘的应用。在金融领域,除了信用评估,还可以应用于风险预测、投资决策等;在营销领域,可以用于客户细分、个性化推荐等;在政治领域,可以用于选举策略制定、政策宣传效果评估等。
7.3 挑战与应对
数据挖掘在实际应用中也面临一些挑战,如数据质量问题、模型可解释性问题、隐私保护问题等。为了应对这些挑战,需要加强数据质量管理,提高模型的可解释性,遵守相关的隐私法规。例如,在处理选民数据时,要确保数据的安全性和隐私性,避免数据泄露。
通过对这四个案例的分析,我们可以看到数据挖掘在不同领域的广泛应用和重要作用。在实际应用中,需要根据具体问题选择合适的方法和模型,充分考虑各种因素,以实现最佳的效果。同时,要关注技术的发展趋势,不断探索新的应用领域,应对可能出现的挑战。
超级会员免费看
3034

被折叠的 条评论
为什么被折叠?



