ML系统故障处理实战:案例分析与经验总结
1. 案例背景
在YarnIt公司,业务主要分为两部分:一是自营的针织和钩编产品销售,二是为其他合作伙伴提供产品推荐的市场平台。通过这种方式,公司能为客户提供更丰富的产品选择,同时减少库存和营销方面的投入。然而,在运营过程中,公司遇到了一些与机器学习(ML)系统相关的故障,下面将详细介绍两个典型案例。
2. 案例二:突然失效的合作伙伴
2.1 业务模式与系统架构
YarnIt的市场平台需要将合作伙伴的产品推荐给用户。为了实现这一目标,公司需要将合作伙伴的产品数据纳入搜索结果和发现工具中。由于每个合作伙伴要求数据隔离,因此需要为每个合作伙伴训练单独的模型,并将其特定数据提取到独立的存储库中,同时共享数据可以使用公共特征存储。为了应对可能大量的合作伙伴(5000到500万之间),公司构建了一个系统,每天提取每个合作伙伴的历史数据,并在训练前将前一天的数据增量添加到存储库中。
2.2 故障发现与初步处理
生产工程师Sam在为合作伙伴CrochetStuff准备报告时,发现ML训练数据中该合作伙伴近期没有销售记录,但会计系统显示每天都有销售。Sam将报告转发给数据提取和合并团队寻求建议,但该团队并未将此问题列为高优先级,只是记录了一个bug并计划在未来一周左右处理。
2.3 故障升级与深入调查
在业务会议上,CrochetStuff指出其销售额同比下降了40%,且持续下滑,页面浏览量、推荐量和用户咨询量也都下降。Sam宣布这是一起故障,并开始调查。通过查看日志和模型指标,发现所有合作伙伴的产品预测值在过去两周内都显著下降。ML工程师
超级会员免费看
订阅专栏 解锁全文
1268

被折叠的 条评论
为什么被折叠?



