在我们过去的业务实践中,相当多和客户的沟通交流都是发生在帮助客户构建Pipeline(管道)之中的。星鲸团队非常欣赏的一句机器学习界的格言:Models are temporary,pipelines are forever. 我们训练的ai模型可能随着市场的变化,业务的变化乃至人员的变化而迭代改变,更新或弃用,但整个组织构建的强健业务流 pipeline 则会影响深远。
这也就对任何有志于AI落地应用的团队和组织提出了要求,即AI上马之处,就需要考虑到整个pipeline的架构实现。
以下是我们的一些思考。
首先,任何ML pipeline的实现都取决于真实的业务需求,设计之初就需要考虑的尽可能全面。
比如你可以先问自己的团队以下问题:
- 我们的 ML pipeline是在本地、云端还是混合环境中运行?
- 我的pipeline包含哪些角色,是否要涵盖客户的需求(这里的客户可能是内部客户例如业务人员,客服,销售等,也可以是外部的客户)。
- 我们的 ML pipeline 是基于批量数据、流数据还是事件驱动进行操作?
- 我们将如何监控ML pipeline的可靠性和可重复性?
- 数据是否包含个人敏感信息?
- 数据是否包含监管需要考虑的信息?
- 我将如何设计数据权限
- ......
尽可能全面的考虑之后,构建pipeline本身却应该尽可能简单,毕竟我们还需要不断迭代。我们需要让它先跑起来,模型,数据,和代码之间先产生有效的联结,再考虑以后慢慢的迭代。
其次,在思考业务整体架构之后,有一些构建ML pipeline的具体方法。
1、建立版本控制。
随着pipeline的增长,我们可能会有以下这些类型的代码:
- 清洗和处理原始数据
- 模型的部署和版本控制
- 模型的应用
- 收集、存储和监控、输出
- 通过单元测试、集成测试和回归测试来测试模型

文章强调了构建机器学习pipeline时应考虑全面的业务需求,并提出建立版本控制、实施CI/CD、日志记录、监控和持续迭代等重要方法。版本控制和CI/CD确保代码和模型的可靠部署,日志记录对于跟踪模型性能和数据漂移至关重要,而监控则保证pipeline的稳定运行。文章倡导在初期保持pipeline简单,随着业务发展不断迭代改进。
最低0.47元/天 解锁文章
203

被折叠的 条评论
为什么被折叠?



