机器学习软件开发生命周期(MLSDLC)中的角色与安全考量
在自动化端到端机器学习应用的过程中,MLSDLC(机器学习软件开发生命周期)是一个关键的流程。它受到人员、技术和流程这三个关键因素的影响,而跨职能团队在其中起着至关重要的作用。
1. ML团队与数据团队的贡献
ML团队完成必要的代码更新,验证其满足应用所有者规定的功能要求,并将这些代码提交到应用源代码仓库后,就可以为其对ACME网络应用的贡献签字确认。
如果应用仅基于SDLC(软件开发生命周期)流程,理论上我们拥有更新CDK(Cloud Development Kit)骨架管道并使用CI/CD(持续集成/持续部署)流程部署网络应用所需的所有工件。但由于我们创建的是基于ML的SDLC,还需要将一个最终组件纳入整体自动化流程,即持续训练(CT)。
持续训练的核心是在有新数据时重新启动CI/CD流程,以创建自动化的CI/CD/CT方法。数据工程团队在之前负责交付以数据为中心的工作流示例,现在可以进一步扩展其在MLSDLC示例中的角色,提供CT工件。
构建数据工作流工件
数据团队通过提供必要的MWAA(托管式Apache Airflow)基础设施组件,为ACME网络应用做出贡献,这些组件将作为CDK管道的一部分执行。以下是数据工程师构建这些工件的具体步骤:
1. 打开Cloud9 IDE工作区,在终端窗口中运行以下命令,从GitHub仓库复制预构建的堆栈构造:
$ cd ~/environment/acme-web-application/
$ cp ~/environment/
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



