机器学习实战:概念、技术与应用全解析
1. 机器学习协作与MLOps资源
在大多数公司里,机器学习项目并非由一人包办,因此良好的沟通至关重要。对于MLOps相关主题,可参考以下资源:
- 《Introduction to MLOps》
- 《MLOps: Continuous Delivery and Automation Pipelines in Machine Learning》
- 《Designing Machine Learning Systems》(作者Chip Huyen,2022年出版)
2. 持续训练与评估
在之前的实践中,我们使用AutoML训练了一个模型,用于将交易分类为欺诈或合法。该模型在提供的数据集上表现良好,但投入生产几个月后,公司支持团队收到了更多客户事后报告的欺诈交易,而模型却未标记出其中许多欺诈交易。这是怎么回事呢?
随着时间推移,不同类型的漂移会影响模型性能。例如,可能出现了原始训练数据集中不存在的新型欺诈交易,模型可能无法识别,这就是数据漂移,即底层数据分布发生了变化。另一种漂移是概念漂移,指特征与标签之间的关系随时间改变。以零售需求预测为例,购物趋势随时间变化,同一产品在不同时间的销售情况会因当前趋势而异,产品本身未变,但产品与销售之间的关系改变了。
持续训练是根据某些标准自动重新训练模型的过程。这些标准通常取决于时间或模型性能。例如,你可能希望每周重新训练模型,或者当客户报告错过一定比例的欺诈交易时重新训练。对于大多数生产中的模型来说,这是一种常见且重要的做法。
持续评估是决定何时重新训练模型的重要组成部分,也是监控模型性能的关键。当模型对新数据
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



