基于亚马逊云科技的 MLOps 工程简介

本文介绍了在re:Invent2023上关于机器学习运维(MLOps)的演讲,讲述了如何在AI项目中实现MLOps,包括定义、角色、工作流程、阶段模型、实时部署的挑战,以及AmazonSageMaker在MLOps中的关键作用。演讲强调了团队协作、工具整合和MLOps成熟度的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关键字: [Amazon Web Services re:Invent 2023, SageMaker, Ml Workflow, Ml Operations, Ml Models, Data Preparation, Model Monitoring]

本文字数: 1200, 阅读完需: 6 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1Sa4y1R7Sc

导读

本论坛介绍机器学习运维(机器学习 Ops)。缺乏MLOps 技能是操作人工智能( AI )的最大挑战之一。MLOps 构建并扩展了软件开发中流行的 DevOps 实践,以构建、训练和部署机器学习模型。了解 DevOps 和 MLOps 实践之间的异同。

演讲精华

以下是小编为您整理的本次演讲的精华,共900字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

在re:Invent上,一位名为约翰的演讲者开始了他的演讲,约有500名观众参加。他在会议上介绍了自己,表示他居住在得克萨斯州休斯顿地区,与妻子、青少年期的儿子以及他的两只狗伙伴共同生活。

约翰定期在各种寻求实现机器学习操作化的组织中担任讲师,这是为期三天的培训课程的一部分。他在一小时的会议中向观众概述了与MLOps相关的关键主题,包括:

  • 对机器学习操作的定义提供背景需求,以及与传统软件应用程序的对比
  • 描述参与MLOps的各个角色,包括数据工程师、数据科学家、ML工程师、DevOps工程师和ML治理团队成员
  • 阐述典型的机器学习项目的端到端工作流程,从解决业务问题到部署模型
  • 介绍四个阶段的ML成熟度模型,从早期的实验到在整个组织内可扩展的自动化ML
  • 讨论在生产系统中实现机器学习操作时的治理和安全考虑

约翰强调了实时部署在生产中的不足,尽管当前有大量实验和模型开发正在进行中。他认为,为了成为成熟的ML组织,建立将实验代码转换为自动化CI/CD管道和生产级系统的健壮过程至关重要。向可扩展的ML运营过渡是MLOps的核心目标。

John详细介绍了典型的MLOps环境,该环境涉及两种核心操作:批量处理(例如在大规模数据集上进行模型训练)和实时推理(已训练模型被部署以对新的数据进行预测)。模型训练阶段依赖于聚合百亿级数据集以及大量前期准备工作和数据加工。推理阶段将经过训练的模型用于对新输入的数据点进行预测。一个实际应用案例是欺诈检测,其中模型能够根据新的信用卡交易实时识别潜在的欺诈行为。这两个过程形成一个闭环系统并相互依赖。

在工作中,John解释道,ML项目从将业务问题转化为ML问题并开始收集相关数据开始。需要从原始数据中构建特征以输入到模型训练和调整中。实际上,模型建设和调整仅占整个工作流程的一小部分,可能仅为5-10%。模型需要在保留的测试数据集上进行严格评估,最终部署表现最好的模型。在整个过程中,数据任务发生在数据准备、模型建设、模型评估和部署监控等阶段。编码任务则发生在数据准备、模型开发、模型部署和监控阶段。整个工作流程高度互连,一个组件的改变可能需要其他组件做出相应的改变。

尽管MLOps严重依赖于核心的DevOps原则(如版本控制、计算管理、CI/CD管道和监控),但John强调它也存在一些关键差异。其中一个主要区别是引入了新的角色,如数据工程师、数据科学家和ML工程师,他们的技能和语言与传统软件开发者有所不同。此外,MLOps需要更复杂的管道,以及对数据血统、模型来源、模型建设工作和部署工作的更多关注。

John重申,人是最关键的组成部分,正如口号所说“人优于过程优于工具”。有效的数据团队、ML团队、DevOps工程师和ML治理之间的合作变得至关重要,需要协调多达五个不同的角色。这就像打排球,所有球员必须和谐合作才能取得成功。

在技术领域,John建议采用现有的组织技巧,选择具备内置审计、可解释性、法规遵从性的灵活且可扩展的工具。他强调,亚马逊SageMaker提供了许多现成的MLOps功能,例如CI/CD管道、模型注册表、实验追踪、训练、部署、监控以及偏差/漂移检测。尽管新工具令人充满期待,但在刚刚开始进行MLOps时,与现有工具的整合是实际可行的。

在安全方面,John强调需要对ML流水线采取与其他生产系统相同的对待方式——保护基础设施、限制访问、加密数据并监控活动。亚马逊SageMaker提供的有用工具包括虚拟专用网络(VPC)、认证、加密、Clarify和Model Monitor。此外,还需要考虑治理方面的问题,如文档记录、基于角色的访问控制、模型监控、审计轨迹和法规遵从性。

总的来说,尽管MLOps带来了新的复杂性,但遵循核心DevOps原则并采取特定的ML实践可以成功实施。John回顾了机器学习成熟度的四个阶段,强调组织在开始运行之前需要进行规划。演讲者最后为那些在MLOps中寻求提高技能的人提供了进一步培训的建议,同时强调了优先考虑人员和工作流程而非工具的重要性。

下面是一些演讲现场的精彩瞬间:

演讲者约翰介绍了他自己,并在德克萨斯州休斯顿与他的家人共享了他们的生活。

他认为,团队合作和有效沟通是实现目标的关键所在。

在挑选机器学习工程工具的过程中,领导者们强调了对现有技能和流程的考虑,而不仅仅是为了追求最新或最时髦的选择。

在使用机器学习整合业务流程时,他们强调了运用灵活、可扩展、可审计和可解释性强的工具的重要性。

此外,他们还强调了Amazon SageMaker所具备的内置机器学习功能,例如数据准备、实验追踪、模型训练和优化等,这些都有助于实现持续集成和部署(CI/CD)的实践。

机器学习运营成熟度的四个阶段包括初始化、可重复性、可靠性和可扩展性。

约翰鼓励观众们通过参与亚马逊云科技提供的培训课程以及利用Amazon SageMaker工具来提升自己的机器学习技能。

总结

在跨职能协作方面,数据科学家、机器学习工程师和DevOps工程师需要通过共享术语和框架来进行有效沟通,从而构建出高效的管道。此外,尽管实验对于研究非常重要,但是企业也需要制定稳定的流程,将模型大规模应用于实际操作中。例如,亚马逊的SageMaker等专用工具具有内置集成功能,能够支持可重复且自动化的机器学习工作流程。最后,实施MLOps(机器学习运维)需要一个从手动临时性操作向可靠、可扩展系统转变的成熟过程。随着企业的成长,他们将进行交叉培训、自动化验证以及复杂的监控,以确保模型的高可靠性部署。

演讲原文

https://blog.youkuaiyun.com/just2gooo/article/details/134809536

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值