机器学习中的数据桥接与窗口推理模式
在机器学习领域,数据的一致性、准确性以及模型的有效推理是至关重要的。本文将深入探讨数据桥接模式和窗口推理模式,包括它们的应用场景、解决方案以及相关的权衡和替代方案。
数据桥接模式
在机器学习中,当新数据与旧数据的模式存在差异时,数据桥接模式就显得尤为重要。以下是关于数据桥接模式的详细介绍:
- 评估新模型 :将基于桥接示例训练的新模型与未更改的旧模型在评估数据集上进行性能比较是极其重要的。因为新信息可能尚未具备足够的价值,所以评估数据集不能在训练或超参数调整期间使用。应避免使用早期停止或检查点选择等技术,而是使用正则化来控制过拟合,并将训练损失作为超参数调整的指标。
- 联合模式的问题 :有人可能会尝试创建旧模式和新模式的联合模式。例如,将支付类型的模式定义为具有现金、卡、礼品卡、借记卡和信用卡五种可能的值。虽然这种方法在数据仓库中可以使历史数据和新数据都有效,但在机器学习中却行不通。因为在预测时,由于输入提供者已全部升级,支付类型不会出现“卡”这个值,导致这些训练实例变得毫无意义。为了实现可重复性,需要将旧模式桥接到新模式,而不是简单地联合两种模式。
- 级联方法 :统计学中的插补是一组用有效值替换缺失数据的技术。常见的插补技术是用训练数据中某列的均值替换 NULL 值。主解决方案中讨论的静态方法,即分配先验频率,也是一种插补方法。我们可以假设分类变量根据频率图分布,并将均值的独热编码值插补到“缺失”的分类变量中。此外,还可以训练一系列模型(级联模型)。第一个模型使用新示例训练机器学习模型来预测卡类型,其输出将用于训练第
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



