使用SageMaker Studio加速机器学习工作流程

使用SageMaker Studio加速机器学习工作流程

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, SageMaker Studio, Machine Learning Workflows, Data Preparation, Model Customization, Model Evaluation, Model Deployment, Model Monitoring]

导读

释放Amazon SageMaker Studio的强大功能,这是一个用于简化机器学习(ML)生命周期的综合集成开发环境。探索数据探索、转换、使用AutoML进行自动特征工程,以及利用集成的Jupyter Notebooks进行协作编码。了解SageMaker Studio的MLOps集成如何简化模型部署、监控和治理。通过现场演示和最佳实践,学习如何利用SageMaker Studio工具进行高效的特征工程、模型开发、协作和数据安全。

演讲精华

以下是小编为您整理的本次演讲的精华。

感谢您的到来。我是Summit Thakal,是Amazon SageMaker产品管理的高级经理。今天我身边有Buchkal,他是Amazon SageMaker的高级产品经理,以及Ankus Prasad,他是GoDaddy的首席AI架构师。我们将一起讨论SageMaker Studio如何帮助您加速AI/ML工作流程。

生成式AI正在重塑客户体验,提高生产力,并提高许多行业的运营效率。因此,许多组织正在加速投资创建新的基于AI的解决方案,这些解决方案通常建立在多个模型的基础之上。组织正在评估多个模型提供商,并且通常会选择最适合手头任务的模型。在定制这些模型时,组织选择了成本效益更高的技术,如prompt tuning和fine-tuning,而不是从头预训练这些模型。这意味着,如果我们要帮助客户加速AI/ML工作流程的开发,我们需要为他们提供广泛的最先进基础模型和工具的选择,以帮助他们选择、定制、评估、部署和监控这些模型,这就是我们构建SageMaker Studio的原因。

SageMaker Studio是一个统一的界面,供数据科学家和开发人员构建端到端的AI工作流程,从准备数据到评估模型、调优,最后部署和监控生产环境中的模型。今天,我将向您介绍Studio为AI工作流程的每个步骤提供的各种专门构建的工具。

从发现和准备数据开始,Studio与Amazon Data Zone Business Data Catalogue完全集成。通过Business Data Catalogue,组织中的数据发布者可以发布和共享高质量数据集。您的数据管理员可以设置治理防护措施,数据消费者(如业务分析师和机器学习开发人员)可以发现、订阅和使用这些数据集来创建见解。Oftentimes,数据工作者会使用Jupyter笔记本等工具来创建这些见解。

在Studio中,我们使用多语言功能增强了Jupyter笔记本,这意味着您可以在同一个笔记本中编写SQL代码和Python代码。准备好数据处理工作流程后,您可以通过将Studio笔记本连接到EMR Serverless端点并提交分布式Spark处理作业来快速扩展,而无需管理任何底层基础设施。

它是这样工作的。这就是您在屏幕上看到的SageMaker Studio的界面。在左侧面板,您可以找到SageMaker Studio中的所有工具。您首先进入Asset Data Catalog,在那里可以找到所有数据和ML资产。您可以根据发布者、创建日期和所需的数据属性开始搜索数据资产。找到所选数据集后,您可以直接从Studio在多语言Studio笔记本中打开该数据集。

我们为笔记本开发了一个Data Browser扩展,顺便说一下,我们也已将其贡献回Jupyter开源项目。使用这个Data Browser扩展,您可以浏览数据集的模式,包括表、列、数据类型和描述,并开始在主笔记本单元格中编写SQL查询。我们在多语言笔记本中为SQL提供了一流的支持,这意味着您可以获得代码自动完成、语法高亮等功能,就像对待任何一流的编程语言一样。您还可以通过简单点击顶部,选择将SQL查询结果转储到Pandas DataFrame中,以便在笔记本单元格中分析结果。

准备好数据处理脚本后,回到Studio。您可以选择一个EMR Serverless端点,然后附加您的笔记本并使用Apache Livy远程提交Spark作业,它将您的笔记本连接到Spark端点并运行无服务器Spark作业,您无需管理任何底层集群。

准备好数据后,下一步是为您的任务选择合适的基础模型,为此Studio提供了JumpStart模型中心,让您可以访问来自Hugging Face、Meta、Anthropic和Stability AI等知名提供商的300多个开源和商业基础模型。

您可以选择一个模型,然后快速运行模型评估测试,以评估其对手头任务的效力。您可以选择自动评估,使用内置评估算法和内置prompt数据集在准确性、有害性、语义稳健性和偏差等多个维度上测试模型。您也可以选择进行人工评估,在其中您可以引入自己的AI专家团队,或选择Amazon支持的团队之一。当您试图为维护自己的品牌、语音或语气等用例对齐模型响应时,这尤其有用。

它是这样工作的。回到SageMaker Studio,进入JumpStart,然后开始浏览来自不同模型提供商的所有模型。假设您喜欢Hugging Face。您可以选择一个模型,然后可以直接在JumpStart中心设置评估任务。您可以选择设置自动评估,在这种情况下,您可以选择要评估模型的任务,例如问答任务、文本生成任务或开放式文本生成。您可以选择任务,然后选择要评估模型的维度,如准确性,并选择一个内置prompt数据集来启动评估作业。该作业使用评估分数,您可以根据该分数确定一组针对用例表现合理的候选模型。

获得这些候选模型后,下一步是开始在您的私有数据上调优这些模型以提高其准确性。在SageMaker Studio中,从JumpStart模型中心调优模型非常简单。您可以选择在模型中心主页上找到的示例笔记本,获取在SageMaker上调优这些模型所需的所有示例代码,或者也可以使用可视化界面。

在可视化界面中,您只需指定训练数据集。Studio会根据您选择的模型架构自动填充所有模型超参数的合理默认值,让您可以快速开始模型微调,而无需担心工作负载的成本和性能。

调优模型通常是一个迭代过程。您将尝试不同的模型、数据集和超参数,并在执行这些实验时,您希望随时跟踪它们,以衡量进展,并在需要时重现这些实验。为此,Studio与完全托管的MLflow集成在一起。

通过完全托管的MLflow集成,您无需管理任何MLflow跟踪服务器的底层基础设施。您可以使用熟悉的MLflow SDK和MLflow网络应用程序来开始跟踪、比较、可视化和评估模型,甚至将这些模型版本注册到SageMaker模型注册表中,以进行进一步部署步骤。

您可以通过以下方式访问MLflow。您只需进入Studio中的Application Hub,从那里您可以将MLflow作为一个全页面应用程序启动到一个单独的浏览器窗口中,与您的SageMaker Studio实例并排,然后开始跟踪和比较实验。

一旦您确定了一个表现合理、准确度可接受的模型候选项,您就希望将其部署。

在SageMaker中部署非常简单。您有几个选择 - 您可以使用SageMaker Python SDK。它带有内置的Model Builder和Model Deploy实用程序,让您只需2步即可部署大多数流行的开源模型。该实用程序会自动为这些开源模型选择最优化的运行时推理容器,并为您部署端点。

您还可以使用我们最近推出的Inference Optimization Toolkit来实现更高级的优化配方,其中包括投机解码技术,您可以使用较小的草稿模型来预生成令牌,从而减少从基础模型获取响应的延迟;或者您可以使用模型量化将模型权重裁剪并压缩,使其更加内存高效,降低延迟;或者您可以使用编译将模型编译为目标硬件,从而加速其性能。我鼓励大家尝试一下Inference Optimization Toolkit,并给我们一些反馈。

部署模型后,故事并没有结束。您真正希望将从数据准备到模型调优、评估再到部署的所有已开发的部分连接到一个流畅的工作流程中,以便自动化该工作流程,并在需要时重新训练模型。

自动化工作流程很简单。您可以使用我们的Python SDK。它带有远程装饰器实用程序,您可以使用步骤装饰器注释工作流程中的各个步骤,它会自动获取您的Python函数,然后将它们缝合到SageMaker Pipeline中。或者您也可以使用可视化的拖放设计器。

视觉拖放设计器是一个点击式界面 - 您进入Studio后,打开设计器,在那里您可以找到内置管道步骤的存储库。您可以开始选择步骤并将它们拖放到视觉画布上,将它们连接成DAG以开始制作管道。您还可以自定义管道的各个步骤,例如,对于此评估步骤,您可以提供自己的代码、自己的运行时容器、数据,甚至您的设置和环境变量,以完全自定义此步骤的执行。

在构建这些复杂的工作流时,您需要一路上的帮助。正因为如此,我们在Studio中引入了由Amazon CodeWhisperer提供支持的AI助手。这是今年早些时候在纽约峰会上推出的。

借助Amazon CodeWhisperer的帮助,您可以询问如何使用SageMaker功能的问题,或生成示例代码,甚至在Studio IDE中内联排除执行该代码时的任何错误。您不仅可以使用Amazon CodeWhisperer,还可以引入您可能在私有代码存储库上训练的自定义基础模型,为您的私有API提供内联帮助。它在这方面非常灵活。

我们将其开发为JupyterLab的扩展。这是我们向Jupyter社区贡献的另一个开源项目。您可能知道这个项目,它叫做JupyterAI。这是由SageMaker团队开发的。使用JupyterAI,您可以在笔记本的扩展面板中获得此扩展,从中您可以打开聊天窗口,并开始在笔记本旁边提问。任何模型为您生成的示例代码,您都可以通过简单的单击将其复制到主笔记本中并开始执行该代码。

您还可以在笔记本单元格中高亮显示代码,反之亦然,并要求聊天窗口解释代码、调试代码或甚至优化代码。这种体验不仅可在工作室内的Jupyter笔记本中获得,而且还可在我们在工作室中支持的一套完全托管的IDE中获得,包括基于Code OS和Visual StudioCode开源的Code Editor IDE。

今天我讨论了一系列专门为您在SageMaker工作室上承担的每个机器学习工作流步骤而构建的工具。然而,我们的客户还在要求更多。他们告诉我们,他们有自己选择的工具,希望与SageMaker集成,而且很多时候集成这些工具可能会很麻烦。

首先,您需要评估、评估和认证这些工具以满足组织内的安全和合规性标准,然后您需要采用这些工具、部署它们、构建规模、管理和操作它们,这会给您的操作员带来大量无差别的繁重工作。

或者另一种选择是使用工具的SaaS版本,在这种情况下,您必须做出妥协,放弃数据的安全性,因为您需要将数据移出治理边界到第三方应用程序。

客户要求我们提供更好的解决方案,因此昨天我们宣布了一项新功能,Amazon SageMaker Partner AI Apps。使用Partner AI Apps,您可以访问来自领先亚马逊云科技合作伙伴的行业领先的生成式AI和ML开发应用程序,这些应用程序在您的SageMaker开发环境中私密、安全地运行。

我们与4家合作伙伴推出,顺序不分先后。我们的第一家合作伙伴是Comet,他们是一个流行的实验管理平台的创建者。使用Comet,您可以跟踪、比较、可视化实验,甚至评估您的模型。

我们的下一家合作伙伴是DeepChecks。他们是一个流行的开源模型评估包的创建者。使用DeepChecks,您可以建立持续调试、模型质量保证和任何模型合规认证的最佳实践,然后再将它们部署到生产环境中。一旦它们投入生产,您就可以使用Fiddler可观察性平台对它们进行监控。Fiddler是AI可观察性的领导者。使用Fiddler的可观察性平台,您可以监控诸如数据漂移、精度下降等多种问题,并采取自动化操作。

最后,使用Lacuna,您可以获得一个低延迟的AI应用程序防火墙,可保护您的AI应用程序免受提示注入攻击或意外泄露PII和敏感数据等多种安全威胁。

所有这4个合作伙伴应用程序都可作为SageMaker中的完全托管应用程序使用,这意味着SageMaker会为您负责扩展、升级、修补和操作这些应用程序。此外,这些应用程序在与公共互联网完全隔离的私有和安全VPC中运行,这意味着您的数据绝对不会被渗透,您的IP也不会被发送到其他地方,并将继续留在SageMaker内的安全治理防线内。

最后,这些应用程序在SageMaker Studio中实现了本地集成。通过本地集成,您不必在多个不同界面之间切换。您可以在SageMaker内的自然开发工作流中发现和使用这些应用程序。它看起来是这样的。这是您可以访问所有IDE、ML流程和其他应用程序的同一个应用程序库。您也可以访问合作伙伴应用程序。首先,您可以启用合作伙伴应用程序。这是CometML的一个示例。您的用户可以为平台管理员创建请求,以启用此应用程序。一旦应用程序启用,应用程序将从启动状态进入启动状态,从那里您将获得应用程序的URL和一键式按钮,以在SageMaker Studio旁边启动应用程序作为全功能应用程序。

我们今天讨论的所有这些功能,所有AI工具,不仅可在SageMaker Studio中使用,而且还可在两天前宣布的新SageMaker Unified Studio中使用。通过Unified Studio,我们正在将SageMaker Studio的所有AI功能以及我们一流的数据分析和通用AI工具集成到一个界面中,您可以从今天开始在Unified Studio中访问所有这些功能。

Bish随后演示了这些功能。他扮演一位金融科技公司的开发人员或数据科学家的角色,在该公司,财务分析师需要由SEC文件中的定量数据驱动的简明、可操作的总结,以回答诸如“2020年,非科技S&P 500公司强调的三大关键风险是什么?”等问题。

Bish展示了如何在JumpStart Model Hub上探索Meta的LLaMa等基础模型,部署它们进行推理,并使用SageMaker的SDK和MLflow进行实验跟踪,在专有的SEC文件数据集上对它们进行微调。他演示了评估微调模型的性能、优化和部署它,以及使用SageMaker Pipelines的可视化设计器自动化整个工作流程。

他还展示了由Amazon CodeWhisperer提供支持的AI助手,用于内联代码解释和生成,以及与合作伙伴AI应用程序如DeepChecks进行模型评估和监控的集成。

接下来,来自GoDaddy的Ankush Prasad分享了他们使用SageMaker为AI域名搜索提供动力的用例,为企业家提供相关和个性化的域名建议。在GoDaddy,使命是“让机会更加包容,让每个人都能成为企业家”,通过提供相关的数字工具来实现。

GoDaddy的Arrow平台利用AI跨身份、存在和商务。对于AI域名搜索,他们在专有域名数据上微调了LLaMa Q7B模型,并结合了实时客户信号,如过去的偏好和区域趋势。与传统深度学习模型相比,这提高了参与度,使企业家能够自信地找到完美的域名并建立品牌。

GoDaddy的架构使用亚马逊云科技服务(如EMR、Athena和SageMaker的Feature Store)来处理和存储域名搜索数据。微调后的模型通过SageMaker端点运行,提供实时建议。SageMaker MLflow、Studio功能(如自动缩放)以及与亚马逊云科技数据服务的集成帮助GoDaddy实现了成本节约并简化了AI开发管道。

GoDaddy计划通过简化模型部署(通过API)、启用更快更具生成性的AI功能、整合高容量数据存储、探索SageMaker AutoML以及与AWSData Lake、Redshift和EMR集成,进一步为客户释放价值。

Ankush分享了他们的旅程中的见解,强调了在SageMaker Studio等平台中集中工具的重要性、通过自动化实现高效资源管理、培养开放和实验文化以及不断迭代和适应不断变化的客户需求。

总之,SageMaker Studio通过提供统一界面,加速了ML工作流,其中包括广泛的基础模型、数据准备工具、模型评估、调优、部署、监控和工作流自动化,以及集成的合作伙伴应用程序,所有这些都在用户自己的环境中安全运行。来自亚马逊和GoDaddy的演讲者演示了真实世界的用例,展示了SageMaker Studio如何使组织能够高效、经济地构建和部署AI解决方案。

下面是一些演讲现场的精彩瞬间:

演讲者强调了推动企业采用生成式AI的关键趋势,例如重塑客户体验、提高生产力以及提升各行业的运营效率。

亚马逊展示了笔记本的数据浏览器扩展,可实现无缝数据探索、SQL查询以及与Pandas DataFrames的集成,从而增强了Jupyter笔记本内的数据分析体验。

演示了Hugging Face模型与SageMaker JumpStart的无缝集成,用于高效的模型评估和选择。

合作伙伴应用程序与SageMaker Studio的无缝集成,实现了一键访问和统一的开发工作流程。

演讲者概述了Meta的LLaMa语言模型,重点介绍了模型大小、许可条款、性能基准和硬件推荐等细节。

演示了Jupyter Lab与S3、Redshift和Snowflake等数据源的无缝集成,可在单一环境中高效进行数据探索和分析。

演讲者感谢观众的反馈,并鼓励他们为本次会议评分和提供意见,以帮助改进未来的内容。

总结

在这场精彩的演讲中,演讲者深入探讨了SageMaker Studio强大的功能,这是亚马逊构建端到端AI工作流程的统一界面。他们展示了SageMaker Studio如何简化整个机器学习生命周期,从数据准备和模型探索到微调、部署和监控。

演讲者重点介绍了JumpStart Model Hub,它提供了来自Hugging Face、Meta和Anthropic等知名供应商的300多个开源和商业基础模型。他们演示了如何使用SageMaker直观的工具对这些模型进行微调,并与MLflow等流行框架集成,用于实验跟踪和模型版本控制。

演讲还介绍了亚马逊SageMaker Partner AI Apps,这是一项新功能,允许客户从亚马逊云科技合作伙伴那里访问行业领先的生成式AI和ML开发应用程序,并安全地在其SageMaker环境中运行。这些应用程序包括Comet、DeepChecks、Fiddler和Lacuna,提供了实验管理、模型评估、可观察性和安全性等高级功能。

此外,演讲者还展示了SageMaker Pipelines,这是一种原生ML工作流服务,可让用户自动化和编排整个AI/ML管道,从数据预处理到模型部署和监控。他们强调了可视化拖放设计器和与亚马逊CodeWhisperer的集成,用于AI辅助代码生成和故障排除。

演讲最后以GoDaddy的真实案例结束,演示了他们如何利用SageMaker构建AI驱动的域名搜索引擎,为企业家提供个性化和相关的域名建议。演讲者强调了集中工具、鼓励实验文化以及持续迭代以满足不断发展的客户需求的重要性。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值