机器学习数据处理与窗口推理模式解析
1. 匹配新架构
在处理新架构时,我们往往面临一个问题:需要多少旧示例来进行桥接呢?实际上,这是一个需要调整的超参数。以小费问题为例,通过网格搜索(GitHub 上的笔记本中有详细信息),我们可以从图中看到评估指标在达到 20000 个示例之前急剧下降,之后趋于平稳。
为了获得最佳效果,我们应选择尽可能少的旧示例。随着新示例数量的增加,我们对桥接示例的依赖会越来越少,最终可以完全摆脱旧示例。需要注意的是,桥接在这个问题上是有益的,因为不使用桥接示例时,评估指标会更差。若情况并非如此,则需要重新审视插补方法。
1.1 插补方法及替代方案
- 联合架构(UNION SCHEMA) :有人可能会想简单地创建旧架构和新架构的联合。例如,将支付类型的架构定义为有现金、卡、礼品卡、借记卡和信用卡五种可能的值。在数据仓库中,这是处理此类变化的常见方法,但在机器学习中却行不通。在预测时,由于输入提供方都已升级,我们永远不会得到支付类型为“卡”的值,这会导致这些训练实例变得毫无意义。为了可重复性,我们需要将旧架构桥接到新架构,而不能简单地将两者联合。
- 级联方法(CASCADE METHOD) :统计学中的插补是一组用于用有效值替换缺失数据的技术。常见的插补技术是用训练数据中某列的均值替换 NULL 值。静态方法(分配先验频率)也是一种插补方法。我们还可以使用机器学习来估计未知值,例如训练一系列级联模型。第一个模型使用新示例来预测卡类型,其输出用于训练第二个模型。但在实践中,级联模式会增加过多复杂性,我们建议优先使用静态方法,仅在静
超级会员免费看
订阅专栏 解锁全文
780

被折叠的 条评论
为什么被折叠?



