利用Amazon Support将高流量事件扩展到AI部署
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Amazon Bedrock, High Traffic Events, Generative Ai Deployments, Data Preparation, Mlops, Security Governance, Cost Management]
导读
准备将您的生成式AI投资从原型提升到全面部署,或者正在为即将带来大量客户流量的营销活动做准备?在本次会议中,探讨客户如何利用亚马逊云科技 Countdown和亚马逊云科技 Countdown Premium来增强弹性并有效扩展。亚马逊云科技 Countdown Premium对于迁移和现代化传统和生成式AI工作负载的客户来说是一个改变游戏规则的工具。通过在云的所有阶段进行主动规划、执行和切换,亚马逊云科技 Countdown Premium确保客户实现预期的业务成果。了解Georgia-Pacific如何成功地使用亚马逊云科技 Countdown Premium扩展其工作负载。
演讲精华
以下是小编为您整理的本次演讲的精华。
本次会议由亚马逊云科技首席技术客户经理Neil Sandes主持,主题是利用亚马逊云科技支持服务将生成式人工智能部署扩展到生产环境。他承认客户普遍在尝试生成式人工智能原型,但将这些原型过渡到大规模生产部署的步伐缓慢。
Neil引用了Gartner的一项行业统计数据,报告称50%的云迁移和现代化计划将至少延迟两年。这一高比例归因于客户常常低估了使原型做好大规模生产部署的准备所需的工作量,导致未经准备的停机和收入损失。因此,一些客户无法充分实现对这些原型的投资潜力,因为他们一直处于被动支持模式。即使扩展了工作负载,他们也可能需要解决技术债务。
Neil强调规模会破坏一切,并继续讨论客户在将原型迁移到生产环境时面临的五大常见挑战。首先,与现有基础设施集成带来了数据集成、系统兼容性和网络基础设施问题,而这些在原型阶段并不是问题。云运营团队必须建立健全的云运营审查策略,以审查弹性政策和灾难恢复策略。
其次,跨多个账户和区域对分布式亚马逊云科技基础设施进行监控和可观察性的编排是一项艰巨的任务。通过单一窗口集中识别资源、设置警报和管理它们成为一个挑战。
第三,安全性也是一个难以大规模管理的领域。识别漏洞和攻击向量,采取风险缓解措施至关重要,因为安全工作永无止境,必须不断审查安全态势。
第四,在较低环境中进行性能测试从来都不是万无一失的,因为流量和基础设施条件与生产环境不同。测试应用程序是否准备好承担生产工作负载的一个可靠方法是在生产环境本身进行压力测试,而这在原型阶段并不是一个问题。
最后,成本管理是客户常常由于缺乏健全的成本优化策略而过度支出的一个领域,无法管理利用率低下的资源、不当的硬件选择和过度配置。
转而讨论生成式人工智能工作负载,Neil提出了额外的考虑因素。尽管生成式人工智能基于传统的统计机器学习和基于神经网络的深度学习,但它在解决机器学习问题的方式上带来了范式转移。必须学习新的流程,如提示工程、检索增强生成、新的数据库技术(如向量数据库)以及评估新模型(如嵌入和基础模型)。
Neil概述了生成式人工智能工作负载需要额外考虑的四个领域。首先,大规模数据准备至关重要,因为为大型语言模型(LLM)准备和定位上下文数据是它们性能的关键。然而,特定领域的数据通常分散在整个组织中,导致数据孤岛。Neil以制造业为例,传感器读数可能在PI历史记录中,而关键文档(如标准操作程序)可能在内容存储库中。需要一个健全的数据管理策略来集中、清理、验证和获取训练模型的地面真实数据。可以使用Amazon S3构建数据湖,并使用Amazon SageMaker Data Wrangler进行数据清理。
其次,对于检索增强生成(RAG),在为LLM提供上下文信息时,检索系统的性能取决于用于映射数据集的嵌入模型。不同的嵌入模型各有优势,必须为每个用例识别和测试合适的模型。同样,必须根据定价、基于角色的访问控制等安全功能和其他因素选择合适的向量数据库。
第三,MLOps(机器学习运维)对于跨亚马逊云科技账户和区域大规模部署模型至关重要。需要持续训练、部署、版本控制、模型评估以及对模型和特征集进行漂移检测。可以使用Amazon SageMaker Pipeline进行MLOps管道。提示一致性也很重要,可重用的提示组件存储在模板中,高质量的提示维护在使用Amazon Bedrock Prompt Management的提示库中。还需要实时错误监控和响应,以确保不会影响客户体验。
第四,必须考虑大规模的安全性和治理。建立防护栏以防止训练数据中毒(可能导致有毒数据注入和偏差)至关重要。实施健全的身份和访问管理政策很有必要。必须通过在发送给LLM的指令中明确添加安全提示来防止提示注入。分布式拒绝服务(DDoS)攻击可能会用过多的输入数据或高容量队列淹没面向公众的LLM,因此需要输入数据验证、清理和零信任访问控制策略。可以使用Amazon Bedrock Guardrails进行模型治理,执行数据保留政策、管理访问策略并监控模型访问模式。在将输出发送到下游应用程序之前,还必须进行输出验证,以防止恶意指令或敏感数据泄露。
在成本管理方面,可以使用亚马逊云科技预算等服务进行财务控制,管理超支情况。建议与亚马逊云科技支持团队合作评估生成式人工智能运营成本,尝试使用较小的模型来减少令牌大小(主要成本来源),并拥有一支强大的提示工程团队来管理每秒令牌数(TPS)并优化成本。
Neil随后介绍了亚马逊云科技的架构优化框架,这是一个全面的指南,供云架构师构建安全、容错、弹性和高效的云基础设施。该框架包括六大支柱:可持续性、运营卓越、弹性、安全性、成本优化和性能。每个支柱都提供了设计原则、最佳实践和评估当前架构的问题,以及在分布式基础设施中审查架构的一致方法。Neil演示了该框架如何提供量身定制的最佳实践建议,并建议相关的亚马逊云科技服务进行实施。
Mahek Man接着介绍了另一项亚马逊云科技产品亚马逊云科技 Countdown,分为标准版和高级版。亚马逊云科技 Countdown Standard是一项TAM主导的产品(之前称为IM基础设施事件管理),TAM与客户合作预测容量需求、提出资源建议并促进服务限制请求的批准。典型用例包括迁移、产品发布和处理激增的流量,同时保持性能、成本效率和可靠性。
亚马逊云科技 Countdown Premium是一项工程主导的产品,支持客户从初始架构到构建概念验证(POC)并将其投入生产。它提供工具决策、开发运行手册的规范性指导、培训、使能、负载测试(用于识别关键路径和瓶颈)、上线事件支持(包括持续监控和上下文感知支持)以及持续改进协助。
Mahek介绍了一个时尚零售商自动生成产品描述的参考用例。架构决策涵盖了前端(CloudFront、应用程序负载均衡器、Amazon ECS与Streamlit应用程序、Cognito用于身份验证、API网关用于请求验证、DynamoDB用于存储)、后端(Step Functions工作流、S3用于现有图像和metadata、文本提取用于样式指南、Lambda函数用于翻译)、模型选择(多模态模型用于接受图像,考虑速度和延迟)、数据策略(输入数据格式和可访问性、输出存储和质量)、安全性(HTTPS、WAF、Cognito与IAM集成、地理感知角色、AWSInspector用于漏洞扫描、Bedrock防护栏用于输入和输出验证)、运营(日志记录、DynamoDB缓存的成本优化)和可扩展性(多个图像上传、Lambda扩展、Bedrock限制和跨区域调用)。
Mahek还谈到了架构优化框架的可靠性支柱,指出了期望配置与实际工作负载或模型之间的偏差,以及采取纠正措施的需求。她以通过引入人工反馈循环来改进产品描述质量并重新训练模型为例。
随后,乔治亚-太平洋公司(GP)的Manish Thinner受邀分享了他们使用Countdown Premium的生成式人工智能之旅。Manish介绍了GP的背景,这是一家由科赫工业公司持有的私人公司,在全球拥有30,000-35,000名员工,主要分布在北美,在150个地点运营,营收220亿美元。GP专注于环境友好和可持续性,在社区和运营中大量投资。
Manish讨论了推动GP采用人工智能的机遇,包括由于老龄化劳动力和工作年龄人口下降(尤其是在纸厂附近的偏远地区)导致的劳动力短缺。人们更倾向于从事清洁行业和科技公司的工作,加剧了这一问题。GP旨在利用人工智能和高级分析来促进向新一代工人的知识转移。
纸厂等制造环境规模庞大、环境肮脏,有时还存在安全隐患,机器大小堪比足球场。人工检查和重复性的不受欢迎的任务越来越难以配备人手。GP试图通过识别问题和纠正措施来安全地自动化这些任务,并减少运营包络(最佳生产水平和速度)中的差距,因为在某些情况下,整体设备效率(OEE)可能低至40-50%。
GP对人工智能和生成式人工智能的愿景正是由这些机遇推动的。Manish承认了围绕生成式人工智能的炒作,ChatGPT于2022年12月推出引发了热潮,行业每天都在迅速发展,推出新模型和公告。GP认识到与亚马逊云科技合作的重要性,以获得稳健的运营、基础设施、专业知识和可扩展性。
Manish强调了将非结构化数据(文本、视频、图像)与结构化数据相结合对GP的价值,确保操作员能够实时获得见解和处方,同时获取当前问题指示器。架构对于可扩展性和一致使用至关重要,需要持续评估和改进。
GP在营销、销售、财务和IT运营中部署了生成式人工智能用例,重点是操作员助手。运行机器的操作员需要实时了解问题和规定的操作,参考大量文档和配方可能会耗费大量时间。GP旨在提供一种引导式体验,就像汽车会提醒驾驶员存在问题,而不是驾驶员不断查询汽车状态一样。
GP最初与Amazon Support和亚马逊云科技 ProServe团队合作,在6-8周内部署了操作员助手MVP,尽管当时对Bedrock和LLM模型的了解有限。操作员反馈和使用情况测量指导了迭代改进,最终导致了为了可扩展性而进行的重新设计。
从MVP中吸取的教训包括需要参数化而不是硬编码提示和逻辑、使用GP支持的标准数据库(如DynamoDB和PostgreSQL)而不是非标准数据库、避免为每个用例创建自定义Kendra索引、启用CI/CD和故障转移,以及标准化UI技能。
在第二阶段,GP将提示和上下文参数化到数据库中,转移到PostgreSQL等标准数据库和QuasarDB等时序数据库以实现实时数据检索,启用了CI/CD和DevOps实践,添加了容器化和故障转移,并实施了安全性和治理措施。
找到正确的数据是一个挑战,因为一些机器和设施文档已经过时。GP创建了一个名为“DocChan”的工具,利用Amazon工具从人类知识中生成文档,通过访谈和审核将操作员和工程师的经验转化为可消费的培训数据。
目前,GP已标准化了数据库,添加了SharePoint和SFI库等数据源,通过合并Kendra索引优化了成本,并在Countdown Premium的指导下采用了AI Ops和MLOps技术。
当前的GP操作员聊天机器人具有实时监控、示例提示和针对制造业用例的引导式体验。Manish强调了引导式体验的重要性,使用了汽车提醒驾驶员问题而不是驾驶员不断查询汽车状态的类比。
GP的路线图包括基于知识的代理、图嵌入(计划利用Neo4j和亚马逊云科技 Graph RAG)、通过缓存和令牌管理进行成本和性能优化,以及为获得更快响应时间而进行边缘部署。
Manish报告在7-8个月内在6个站点部署了20个用例,拥有500名用户,并计划在第一季度扩展到50个站点。每周使用量每月增长10%,表明生成式人工智能为劳动力带来了好处。
Countdown Premium通过提供反馈、加快模型评估、提供产品团队(如Kendra)的SME支持以及优化向量数据库和令牌大小,支持了GP的旅程。
Manish承认了挑战和经验教训,强调从第一天就吸引客户、不断寻求反馈、为长期愿景构建架构、忽略炒作周期、专注于快速结果以及与亚马逊云科技等云支持团队合作的重要性。他强调在这个新领域需要可支持性。
会议最后,Neil提供了有关Well-Architected Framework、Countdown和保护生成式人工智能工作负载的其他资源,鼓励与会者与他们的技术账户经理接触以获得进一步帮助。
总之,这段视频涵盖了将生成式人工智能原型扩展到生产环境的挑战、生成式人工智能工作负载的额外注意事项、亚马逊云科技 Well-Architected Framework和Countdown产品以支持这一旅程,以及Georgia-Pacific利用Countdown Premium大规模部署操作员助手聊天机器人的真实经历。叙事风格旨在提供全面详细的视频内容概述,严格遵循所呈现的信息,同时丰富了客户故事和用例。
下面是一些演讲现场的精彩瞬间:
演讲者询问观众是否有人在尝试使用诸如聊天机器人之类的生成式人工智能解决方案,大多数观众表示肯定。
强调客户在将原型迁移并扩展到生产环境时所面临的挑战,导致延迟、停机和收入损失。
利用人工智能优化制造流程,减少运营差距,提高整体设备效率(OEE),从而提高生产力和效率。
操作员依赖实时数据和指导,有效管理纸张生产过程,确保纸巾、面巾纸和木材等产品的顺利流动。
工厂工人采用人工智能驱动的支持工具,可以在几秒钟内获得答案,而不必翻阅冗长的手册。
采用现代数据存储和DevOps实践,实现人工智能应用程序的实时数据访问和可扩展性。
亚马逊云科技 re:Invent 2024演讲者强调了其他资源,包括管理生成式人工智能工作负载的安全性会议,以及详细介绍操作员聊天机器人如何为GP增加业务价值的会议。
总结
在这场精彩的会议中,来自亚马逊云科技的Neil Sandes和Mahek Man,以及来自佐治亚太平洋公司的Manish Thinner分享了将生成式AI原型扩展到生产部署的见解。重点内容包括:
- 将原型迁移到生产环境时,常常低估了运营准备所需的工作量,导致未经准备的停机和收入损失。常见挑战包括与现有基础设施的集成、监控和可观察性、安全性、性能测试和成本管理。
- 生成式AI工作负载带来了额外的复杂性,如大规模数据准备、模型部署和版本控制的MLOps、安全性和治理考虑因素,以及成本优化策略。
- 亚马逊云科技的架构优化框架提供了构建安全、容错、弹性和高效云基础设施的全面指南,而亚马逊云科技 Countdown则提供了TAM主导的支持,以预测容量需求、提供资源建议并确保服务限制获得批准。
- 佐治亚太平洋公司与亚马逊云科技 Countdown Premium合作的旅程涉及了迭代式架构评审、模型评估和优化,最终在7-8个月内成功部署了一个跨20个用例和6个站点的运营助手聊天机器人,并计划在第一季度将其扩展到50个站点。
会议强调了与亚马逊云科技合作以获得稳健的运营、基础设施和专业知识的重要性,同时不断改进架构、采用DevOps实践,专注于快速取得成果,同时保持长期可扩展性和可支持性的愿景。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。