机器学习训练系统的可靠性挑战与应对策略
1. 训练系统的并行性与数据问题
在机器学习训练中,存在一些影响模型一致性和训练效率的因素。像NVIDIA的NVLink或Google Cloud TPUs之间的互连,比其他网络技术更快,不过这些互连虽能减少计算节点间状态传播的延迟,但无法完全消除。
数据并行也是常见的做法,学习任务和数据都会进行分布式处理。然而,大多数分布式数据系统在不施加重大性能约束的情况下,无法保证数据的强顺序性。所以,即便从有限数量的训练任务中读取训练数据,最终读取顺序也可能有所不同。
2. 模型可重复性问题及案例
在实际应用中,模型的可重复性是一个严峻的挑战。以YarnIt为例,该公司每晚都会重新训练搜索和推荐模型,通常会先获取前一天模型的快照,然后在该模型基础上训练自那时起的新事件。这种方式成本较低,但实际上每个模型都是在很久以前训练的模型基础上进行数十或数百次增量训练得到的。
随着时间推移,训练数据集会有小的变化,最常见的是欺诈性交易。检测到交易欺诈可能需要几天时间,此时可能已经将该交易作为授权购买纳入新模型进行训练。解决这个问题最彻底的方法是将原始交易重新归类为欺诈,然后从旧快照开始重新训练包含该交易的每个模型,但这样做成本极高。另一种方法是尝试从模型中反转欺诈影响,但在大多数机器学习模型中,没有万无一失或精确的方法来撤销交易,只能将检测到的欺诈视为新的负面事件进行近似处理,不过得到的模型与原模型并不完全相同。
此外,YarnIt的模型开发人员会不断开发新模型,他们会用新的模型结构在所有数据上从头开始训练新模型,然后与现有模型进行比较。但问题是,如果将当前生产模型在当前数据上从头开始重新训练,得
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



