JPMML打分流程

本文介绍了使用JPMML进行预测模型的打分流程,包括准备数据,数据预处理(遗漏值和异常值检测,遗漏值替换),打分阶段针对不同模型的处理方式,以及最终的输出结果展示。数据预处理环节强调了连续和分类变量的遗漏值处理,异常值的三种处理方式,并给出了实例说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

准备数据

输入数据即预测变量数据集,不包括目标标量。预测变量由挖掘模式 (Mining Schema) 定义,每一个预测变量的属性在数据字典中定义。

数据预处理

该过程的主要目的是检测输入数据的有效行。

  • 遗漏值 (missing value) 检测。如果输入值为空,则为 missing value。否则对于分类变量,如果数据字典中定义了有效分类值和遗漏值集合, 如果输入数据等于其中某一遗漏值,或者不等于任何遗漏值,但是也不属于某一种有效值,我们都认为该值是一个遗漏值。 对于连续变量来说,数据字典中可以定义一个或多个有效值区间 (Interval),如果输入值不在该区间,该值就是 missing value, 如果没有任何有效区间定义,任何有效的数值都是有效。如清单 1 所示,变量 Sex 的取值只有 {F, M},如果不是这两个取值, 就认为是遗漏值;变量 Age 有效区间为 [0, 120],如果输入值为 150 则被认为是 missing value。
  • 异常值 (outliers) 检测。该检测只适用于连续变量,如果输入数据不是 missing value,PMML 定义了以下三种不同的处理方式:
    • 不做任何处理 (asIs)。
    • 作为 missing value(asMissingValues)。
    • 被边界值代替 (asExtremeValues)。如果小于最小值,则被当前的最小值代替,否则如果大于最大值, 被最大值代替。如清单 2 所示,如果变量 Na 输入值为 0.01,会被最小值 0.02 代替,如果输入值是 0.09,则会被最大值 0.08 代替。
  • 遗漏值 (missing value) 替换。如果输入值被认为是 missing value,PMML 可以在挖掘模式中可以定义遗漏替换值, 如果该属性被定义,当前遗漏值会它所替换。如清单 2 所示,如果输入的变量 BP 被判定为遗漏值,将使用“HIGH”进行取代。

打分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值