26、机器学习数据处理与窗口推理模式解析

机器学习数据处理与窗口推理模式解析

1. 匹配新架构

在处理新架构时,我们往往面临一个问题:需要多少旧示例来进行桥接呢?实际上,这是一个需要调整的超参数。以小费问题为例,通过网格搜索(GitHub 上的笔记本中有详细信息),我们可以从图中看到评估指标在达到 20000 个示例之前急剧下降,之后趋于平稳。

为了获得最佳效果,我们应选择尽可能少的旧示例。随着新示例数量的增加,我们对桥接示例的依赖会越来越少,最终可以完全摆脱旧示例。需要注意的是,桥接在这个问题上是有益的,因为不使用桥接示例时,评估指标会更差。若情况并非如此,则需要重新审视插补方法。

1.1 插补方法及替代方案

  • 联合架构(UNION SCHEMA) :有人可能会想简单地创建旧架构和新架构的联合。例如,将支付类型的架构定义为有现金、卡、礼品卡、借记卡和信用卡五种可能的值。在数据仓库中,这是处理此类变化的常见方法,但在机器学习中却行不通。在预测时,由于输入提供方都已升级,我们永远不会得到支付类型为“卡”的值,这会导致这些训练实例变得毫无意义。为了可重复性,我们需要将旧架构桥接到新架构,而不能简单地将两者联合。
  • 级联方法(CASCADE METHOD) :统计学中的插补是一组用于用有效值替换缺失数据的技术。常见的插补技术是用训练数据中某列的均值替换 NULL 值。静态方法(分配先验频率)也是一种插补方法。我们还可以使用机器学习来估计未知值,例如训练一系列级联模型。第一个模型使用新示例来预测卡类型,其输出用于训练第二个模型。但在实践中,级联模式会增加过多复杂性,我们建议优先使用静态方法,仅在静
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值