机器学习成功之道
1. 模型衰减问题
在机器学习中,模型性能可能会随着时间而下降,主要有以下两个原因:
- 语义漂移 :例如调查中用数值“3”表示“既不同意也不反对”,但后续翻译成另一种语言时变成了“没有意见”。这种语义随时间的变化可能导致模型性能下降,不过可以通过严格维护代码和定义来缓解,但这说起来容易做起来难。
- 模型漂移 :当目标与预测变量之间的关系随时间发生变化时,即使底层数据的含义保持不变,也会出现模型漂移。这通常反映了模型外部的变化,或者是难以预见的外部力量。比如经济的广泛变化、客户行为和偏好的改变、疾病表现的演变等,这些因素会从根本上破坏学习算法在训练期间发现的模式。幸运的是,可以通过更频繁的训练来解决模型漂移问题,让模型学习新的模式,但这会带来困惑和更多的复杂性,因为不清楚应该多频繁或多不频繁地重新训练模型。
频繁或接近实时的训练虽然看似总是最好的,但会显著增加部署的复杂性,并导致模型预测随时间的变异性增加,从而使人们对模型输出缺乏信任。或许最好的方法是进行实验,确定一个最适合特定用例的模型刷新计划,如每年、按季节或在怀疑数据漂移时进行刷新,然后密切监测结果并根据需要进行改进。
2. 建立对模型的信任
数据科学项目失败的一个重要原因是关键利益相关者对项目缺乏基本信任,这与模型实现的技术细节或模型本身的性能关系不大。据估计,机器学习项目的失败率很高,有些公司认为失败的机器学习项目超过60%,甚至高达85%。项目失败的原因众多,利益相关者往往对机器学习的好处有不切实际的期望,或者对完成项目所需的成本和资源估计不足。不过,机器学习从业者可以采取以下措施来主动建立
超级会员免费看
订阅专栏 解锁全文

1337

被折叠的 条评论
为什么被折叠?



