chapter 5.7 P168-169 Lift Charts

本文介绍提升图的概念及其在数据挖掘中的应用。通过实例说明如何利用提升图评估预测模型的效果,并对比不同模型之间的性能。

升图(Lift Chart)

(转载自http://technet.microsoft.com/zh-cn/library/ms175428.aspx,纯粹为学习而整理,转载请标明出处)

在数据挖掘设计器的“挖掘准确性图表”选项卡的“提升图”选项卡上,根据您选择的模型、该模型中的可预测属性以及其他设置,可以看到不同类型的图表。

如果模型预测离散值,则可以创建提升图或利润图。提升图比较每个模型的预测的准确性,可配置为显示通用预测的准确性或特定值预测的准确性。利润图是与提升图包含相同信息的相关图表类型,但利润图还显示与使用每个模型相关联的利润预计增长。使用“图表类型”列表选择所需的图表类型。

注意   在提升图或利润图中不能显示时序模型,但可以使用“挖掘模型预测”选项卡来查看基于该序列的包含历史序列和预测的图表。

“提升图”选项卡显示挖掘模型所引起的“提升”变化的图形表示形式。例如,Adventure Works Cycles 的市场部要开展一次目标邮递活动。从以往的活动中,他们推算应有 10% 的答复率。在数据库的一个表中,存储了一个包含 10,000 名潜在客户的列表。因此,按照正常答复率计算,预计将有 1,000 名潜在客户答复。

但是,该项目的财政预算不足以向数据库中所有 10,000 名客户发送邮件。根据预算,他们只能承担向 5,000 名客户发送邮件广告的费用。市场部有下列两种选择:

随机选择 5,000 名目标客户

使用挖掘模型确定最有可能答复的 5,000 名目标客户

如果该公司随机选择 5,000 名客户,按照正常答复率计算,估计只能收到 500 个答复。这正是提升图中的“随机”线所表示的情况。但如果市场部使用挖掘模型来确定发送邮件的目标,则预计可以获得更高的答复率,因为他们锁定了最有可能答复的客户。如果该模型精确无误,则意味着该模型形成完全准确的预测,该公司向该模型推荐的 1,000 名潜在客户发送邮件后,预计可以收到 1,000 个答复。这正是提升图中的“理想”线所表示的情况。事实是挖掘模型最可能处于这两种极限情况之间,即介于随机推测模型和精确无误的预测模型之间。与随机推测相比,任何提高均被视为提升。

  了解提升图

可以创建两种类型的提升图:在一种提升图中指定可预测列的目标值,在另一种中不指定该值。在“输入选择”选项卡和“提升图”选项卡之间切换时,该图表将进行更新以反映在列映射或其他设置中所做的任何更改。

带有目标值的提升图

下图显示了在数据挖掘基础教程中创建的目标邮递模型的提升图。在此图中,目标属性为 [Bike Buyer],并且目标值为 1,表示客户已购买或可能购买自行车。因此,此提升图显示了在标识可能购买自行车的客户时模型提供的提高。

除基本模型以外,此图表还包括一个根据特定目标客户筛选的相关模型。只要所有模型具有相同的可预测属性,则可以向一个提升图添加多个模型。此筛选器限制在定型和评估 30 岁以下的客户中使用的事例。因此,对于基本模型和筛选后的模型,评估模型所依据的事例数不相同。解释预测结果和其他统计信息时应牢记这一点,这非常重要。

该图表的 X 轴表示用于比较预测的测试数据集的百分比。该图表的 Y 轴表示预测值的百分比。

每个图表均显示了一条对角直线(在此图表中为蓝色)。该对角直线表示随机推测的结果,是评估提升所参照的基线。对于添加到提升图的每个模型,将另外显示两条线:一条显示在可以创建预测始终精确无误的模型时定型数据集的理想结果,另一条显示模型结果中的实际提升或提高。

在此示例中,筛选后的模型的理想线显示为深蓝色,实际提升的线则显示为黄色。从此图表中可以看出,理想线的峰值位于 40% 左右,表示在具有精确无误的模型的情况下,您只需向总体的 40% 发送邮件即可获得 100% 的目标客户答复。在确定 40% 的目标总体时,筛选后的模型的实际提升在 60% 和 70% 之间,表示向客户总体的 40% 发送邮件可获得 60-70% 的目标客户答复。

“挖掘图例”包含曲线上任意点的实际值。单击并移动垂直灰条可以更改度量的位置。在此图表中,灰线已移至 30%,这是因为筛选和未筛选的模型在此点处显示为最有效,在此点之后,提升幅度下降。

“挖掘图例”还包含有助于您解释此图表的分数和统计信息。这些结果表示模型在灰线位置的准确性,在此应用场景中,将灰线定位到包含 30% 的整体测试事例的位置。

向所有客户发送目标邮件

0.71

47.40%

61.38%

向 30 岁以下的客户发送目标邮件

0.85

51.81%

46.62%

随机推测模型

  

31.00%

  

向所有客户发送目标邮件的理想模型

  

62.48%

  

向 30 岁以下的客户发送目标邮件的理想模型

  

65.28%

  

从这些结果您可以看出,按照所有事例的 30% 来计算,常规模型(向所有客户发送目标邮件)可预测 47.40% 的目标总体的自行车购买行为。换句话说,如果仅向数据库中 30% 的目标客户发送邮件,则可以收到略少于一半的目标用户答复。如果使用筛选后的模型,则可以收到约 51% 的目标客户答复。

“预测概率”的值表示包含“可能购买”事例中的客户所需的阈值。对于每个事例,模型估计每个预测的准确性并存储该值,您可以使用该值筛选或锁定目标客户。例如,若要通过基本模型标识可能购买自行车的客户,应使用查询检索“预测概率”至少为 61% 的事例。若要获取筛选后的模型锁定的客户,则应创建用于检索符合下列所有条件的事例的查询:年龄和值至少为 46% 的 PredictProbability。

比较模型非常有趣。筛选后的模型似乎捕获了更多的潜在客户,但是当锁定预测概率分数为 46% 的客户时,您仍然有 53% 的可能性向不打算购买自行车的人员发送邮件。因此,在确定哪个模型更好时,最好根据选择的基本模型权衡筛选后的模型的较大精度和较小目标范围。

“分数”值可帮助您通过跨规范总体计算模型的有效性来比较模型。分数越高,模型则越好,因此在本示例中,您可以确定虽然锁定 30 岁以下的客户具有较低的预测概率,但是该策略最有效。

没有目标值的模型提升图

如果未指定可预测列的状态,则将创建下图所示的图表类型。该图表显示如何针对可预测属性的所有状态执行模型。例如,从此图表中,您可以看出模型对可能购买和不可能购买自行车的客户的预测性能。

x 轴与指定了可预测列的图表中的 x 轴相同,但 y 轴现在表示准确预测的百分比。因此,理想线是一条对角线,用于显示在 50% 的数据中,模型准确预测 50% 的事例(即预计的最大值)。

在图表内部单击可以移动垂直灰条,“挖掘图例”显示所有事例的百分比以及准确预测的事例的百分比。例如,如果将灰色滑动条移至 50% 标记处,“挖掘图例”显示下列准确性分数。这些数字基于在数据挖掘基础教程中创建的 TM_Decision Tree 模型。

TM_Decision Tree

0.77

40.50%

72.91%

理想模型

  

50.00%

  

此表还显示在 50% 的总体中,您创建的模型准确预测了 40% 的事例。您可能认为此模型相当准确。但是,请记住,此特定模型预测所有可预测属性的值。因此,此模型可以准确预测 90% 的客户将不会购买自行车。

http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html,这上面的讲解也不错。


more....................

http://www.360doc.com/content/10/0519/11/79028_28358810.shtml

下载前可以先看下教程 https://pan.quark.cn/s/a4b39357ea24 在网页构建过程中,单(Form)扮演着用户与网站之间沟通的关键角色,其主要功能在于汇集用户的各类输入信息。 JavaScript作为网页开发的核心技术,提供了多样化的API和函数来操作单组件,诸如input和select等元素。 本专题将详细研究如何借助原生JavaScript对form单进行视觉优化,并对input输入框与select下拉框进行功能增强。 一、单基础1. 单组件:在HTML语言中,<form>标签用于构建一个单,该标签内部可以容纳多种单组件,包括<input>(输入框)、<select>(下拉框)、<textarea>(多行文本输入区域)等。 2. 单参数:诸如action(单提交的地址)、method(单提交的协议,为GET或POST)等属性,它们决定了单的行为特性。 3. 单行为:诸如onsubmit(单提交时触发的动作)、onchange(单元素值变更时触发的动作)等事件,能够通过JavaScript进行响应式处理。 二、input元素视觉优化1. CSS定制:通过设定input元素的CSS属性,例如border(边框)、background-color(背景色)、padding(内边距)、font-size(字体大小)等,能够调整其视觉现。 2. placeholder特性:提供预填的提示文字,以帮助用户明确输入框的预期用途。 3. 标集成:借助:before和:after伪元素或者额外的HTML组件结合CSS定位技术,可以在输入框中嵌入标,从而增强视觉吸引力。 三、select下拉框视觉优化1. 复选功能:通过设置multiple属性...
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究(Python代码实现)内容概要:本文围绕“基于深度强化学习的微能源网能量管理与优化策略”展开研究,重点探讨了如何利用深度强化学习技术对微能源系统进行高效的能量管理与优化调度。文中结合Python代码实现,复现了EI级别研究成果,涵盖了微电网中分布式能源、储能系统及负荷的协调优化问题,通过构建合理的奖励函数与状态空间模型,实现对复杂能源系统的智能决策支持。研究体现了深度强化学习在应对不确定性可再生能源出力、负荷波动等挑战中的优势,提升了系统运行的经济性与稳定性。; 适合人群:具备一定Python编程基础和机器学习背景,从事能源系统优化、智能电网、强化学习应用等相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①应用于微能源网的能量调度与优化控制,提升系统能效与经济效益;②为深度强化学习在能源管理领域的落地提供可复现的技术路径与代码参考;③服务于学术研究与论文复现,特别是EI/SCI级别高水平论文的仿真实验部分。; 阅读建议:建议读者结合提供的Python代码进行实践操作,深入理解深度强化学习算法在能源系统建模中的具体应用,重点关注状态设计、动作空间定义与奖励函数构造等关键环节,并可进一步扩展至多智能体强化学习或与其他优化算法的融合研究。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值