机器学习模型开发与部署全流程指南
1. 机器学习生命周期概述
机器学习应用并非一蹴而就,无论是从技术层面还是组织层面来看,它们都没有明确的起点和终点。模型开发者往往期望只需收集一次数据并训练一个模型,但实际情况很少如此。
例如,当我们有一个机器学习模型时,需要判断它是否达到预期效果。若效果不佳,数据科学家、业务分析师和机器学习工程师需协作找出问题并改进,这可能涉及修改训练管道、调整特征、增减数据或重构模型。反之,若模型表现良好,组织会希望进一步优化,同样需要进行上述操作。所以,第一个模型只是后续工作的起点。
下面我们详细了解机器学习的生命周期(如下图所示):
graph LR
A[数据收集与分析] --> B[ML训练管道]
B --> C[构建/集成与验证应用]
C --> D[质量性能与评估]
D --> E[设定SLOs]
E --> F[发布]
F --> A
2. 数据收集与分析
团队首先要评估现有数据,确定是否拥有所需的全部数据,并为数据的业务用途进行优先级排序,然后收集和处理数据。
这一工作几乎涉及公司的各个层面,但不同公司的参与方式有所不同。例如,业务分析师可能来自财务、会计或产品团队,日常使用平台提供的数据;数据和平台工程师则负责构建数据处理工具,但可能不参与业务决策。
以在线购物网站yarnit.ai为例,业务和产品团队能确定业务优化的重点领域,如小幅提高每笔销售的利润或增加订单频率哪个更重要,
超级会员免费看
订阅专栏 解锁全文
1927

被折叠的 条评论
为什么被折叠?



