机器学习模型生产与数据运营组织架构
1. 机器学习模型生产
在机器学习领域,模型的快速发布和重新训练至关重要。模型发布和重新训练的速度越快,组织就能越快收到反馈,从而更好地实现目标。然而,从模型开发到投入生产的快速流程存在一些重大障碍。
1.1 模型训练与生产的挑战
- 训练过程 :数据科学家通常在本地机器上使用R或Python等语言的库和包进行离线模型训练。他们会不断迭代模型训练流程,尝试新的数据源、数据预处理技术、特征和算法。当对训练好的模型的准确性满意后,模型就可以在生产环境中进行推理。
- 代码与版本控制 :模型训练流程的输出包括模型代码(基于机器学习算法训练数据将输入转换为输出的逻辑)以及预处理输入和特征工程所需的代码。由于模型训练流程具有探索性和迭代性,会产生许多训练数据集和模型,再加上数据科学家缺乏软件开发技能,使得向生产环境的过渡变得困难。此外,在生产环境中重现模型和相关代码依赖于配置项的版本控制,因为模型代码通常依赖于创建它的框架来运行。数据科学家可能会忽视版本控制和配置管理,或者使用不利于版本控制的开发工具。
- 部署与测试 :将模型部署到生产环境需要工程师重构临时的探索性代码,使其在生产环境中高效运行,有时甚至需要用更适合快速可靠生产操作的语言(如Java)重写模型代码。生产推理模型的输出必须与训练模型的输出进行对比测试,以确保使用相同的测试数据集时能按预期进行预测。如果没有数据集的版本控制,就无法确定测试数据集是否与模型训练时使用的版本相同。
超级会员免费看
订阅专栏 解锁全文
1968

被折叠的 条评论
为什么被折叠?



