机器学习模型漂移应对与代码开发的平衡之道
1. 模型漂移的应对策略
在机器学习模型的运行过程中,模型漂移是一个常见且需要重视的问题。起初,模型所呈现的关系可能无法带来最优结果。但随着对特征空间的深入探索和模型的重新训练,模拟结果会更准确地反映预期结果。在模型运行的最初几个月里,利用模拟输出,模型的产出能够稳定在接近 100%。
通过控制所建模系统中的因果关系,我们在模型中有效地创建了一个反馈循环。可调整参数的方差会缩小,此时若基于这些数据构建有监督的机器学习模型进行验证,模型能学习到的内容会非常有限,因为几乎没有值得学习的信号了。
不过,这种影响并非在所有情况下都会出现,因果模型受其影响的程度比基于相关性的传统机器学习模型更大。在某些情况下,基于相关性的模型预测结果可能会污染新输入的特征,从而扭曲那些与实际观察结果相关联的特征的影响。例如,客户流失模型、欺诈模型和推荐引擎都极易受到此类影响,因为我们会根据预测结果直接干预客户行为,以促进积极结果并减少消极结果。
这种情况在许多有监督学习问题中都是一种风险,可以通过长期评估预测质量来检测。每次重新训练模型时,应记录与模型相关的指标(MLflow 是一个很好的工具),并定期测量,以查看在向模型添加新特征数据时是否出现性能下降。如果模型基于近期活动的验证数据无法恢复到可接受的损失指标水平,可能就进入了收益递减的阶段。
应对这种情况,有两种主要方法:一是重新进行特征工程工作,添加有助于模型学习新数据模式的数据;二是重新审视项目,有时甚至最好停止该项目。有些问题可以通过机器学习发现系统(或人)行为中的模式来逐步解决,并且可以通过改变业务运营方式来替代原有的解决方案。
超级会员免费看
订阅专栏 解锁全文
211

被折叠的 条评论
为什么被折叠?



