用EC2 Graviton优化AI和ML工作负载

用EC2 Graviton优化AI和ML工作负载

用EC2 Graviton优化AI和ML工作负载

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Amazon Web Services Graviton, Next Token Generation, Vector Database, Data Ingestion, Data Preparation, Generative Ai]

导读

Amazon EC2提供了多种实例类型,针对不同的使用场景进行了优化,包括AI/ML工作负载。参加本次会议,了解如何在考虑可持续性和成本等因素的同时,最大化提升AI/ML工作负载的性能。直接听取客户分享,他们如何借助亚马逊云科技工具和解决方案加速AI/ML创新。离开时,您将具备探索如何使用由亚马逊云科技 Graviton、加速计算实例和Amazon EC2 Spot实例提供支持的服务来优化AI/ML解决方案的能力。

演讲精华

以下是小编为您整理的本次演讲的精华。

在充满活力的拉斯维加斯市中心,亚马逊云科技 re:Invent 2024大会激发了无限热情,吸引了来自世界各地的开发者、工程师和科技爱好者。在众多富有洞见的会议中,有一场关于AI和ML工作负载优化的创新探讨引人入胜,以其深度和实际应用吸引了观众的目光。

演讲者Jeff登台时,生动地强调了在高效运行AI/ML工作负载时选择合适工具的重要性。他将亚马逊云科技云比作一个装备精良的工具间,里面汇集了广泛深入的AI/ML服务和基础设施组合,满足了从经典ML到生成式AI的各种工作负载需求,涵盖不同的模型规模、数据类型和业务目标。他用锤子的比喻警示,将所有问题都视为钉子的做法可能会错失优化效率的机会,需要采取更加细致入微的方法,而不是仅仅依赖单一工具来应对所有工作负载。

Jeff随后深入探讨了AI/ML管道的复杂性,引导观众了解数据摄取和准备、模型训练、性能评估以及最终部署推理的精细步骤。他强调了软件在这个管道中的关键作用,从数据摄取和准备工具到数据分析和优化数学库,都为训练和推理工作负载奠定了基础。在此基础之上,Jeff强调了一个计算连续体,从强大的CPU到专门设计的加速器,如Amazon Trainium和Inferentia,他形容这些加速器为“令人惊叹的技术”。

讨论的核心是亚马逊云科技 Graviton,亚马逊的通用CPU,这是优化AI/ML工作负载价格/性能比的关键组成部分。Jeff展示了亚马逊云科技广泛的硅片选择,包括Graviton、用于推理的Amazon Inferentia和用于训练的Amazon Trainium,以及来自英特尔、AMD、NVIDIA和高通等知名合作伙伴的选择。观众被Graviton在过去四代中取得的惊人性能提升所吸引。Graviton 3比前代Graviton 2提升了25%,而Graviton 4则比Graviton 3提升了高达30%的性能,优化AI/ML工作负载的潜力变得越来越明显。

Jeff接着深入探讨了由Graviton 3和Graviton 4驱动的实例,这些实例精心设计以满足AI/ML工作负载的苛刻要求。他概述了在Graviton实例上针对ML框架和库进行的软件优化,强调了对各种硬件功能的支持,如矢量处理引擎、矩阵乘累加指令和bfloat16等本地数据类型,后者可通过减少对内存带宽和缓存的压力提供高达2倍的性能提升。

会议进入了一个引人入胜的环节,Jeff展示了对流行框架如PyTorch、JAX和LLamaC++所做的优化,这些优化带来了1.5倍至3.5倍的性能提升。观众惊叹于这些优化为AI/ML工作负载带来的效率和成本节约潜力。Jeff强调,PyTorch凭借新的torch compile功能实现了2倍的性能提升,而从PyTorch 1.13到2.0版本的集体贡献则带来了惊人的3.5倍性能提升。

此外,Jeff强调Graviton 4在这些软件优化的基础上进一步提升了15%到28%的性能,超越了在Graviton 3上取得的成果。观众被这种可以叠加的性能提升所吸引,这为提高效率和降低成本开辟了新的领域。

Jeff的同事Shang Tsai随后上台讨论生成式AI推理工作负载,重点关注下一个标记生成、向量数据库以及数据摄取和准备挑战。Shang Tsai娴熟地展示了在Graviton实例上使用LLaMa模型进行文本生成时取得的性能提升。他演示了一个案例,其中70亿参数的LLaMa模型在Graviton 4上实现了每秒70个标记的生成速度,比前代Graviton 3提升了55%。

Shang Tsai进一步强调,Graviton 4能够在单个实例上成功部署计算密集型的700亿参数LLaMa模型,实现略快于人类可读速度的每秒10个标记的生成速度,满足了约100毫秒的下一个标记生成延迟服务级别协议。

Shang Tsai接着探讨了在生成式AI世界中,向量数据库对于检索增强生成的重要性。他解释了Graviton实例如何通过改进的DRAM、增加的通道和每核增强的L2缓存,优化了更快的向量检索和比较操作。Shang Tsai强调,在Graviton 3上运行支持PG向量的Aurora RDS等向量数据库时,在高维浮点计算和高并发方面比Graviton 2提升了60%的性能。

接下来,来自Anthropic的Nova分享了他们在数据处理管道中使用Graviton实例的真实经验。Nova的见解揭示了Graviton提供的经济高效的可扩展性和改善的可持续性,使Anthropic能够更高效地处理PB级数据集。他回顾了去年Anthropic如何在大量I4实例上仅用4天56分钟就完成了PB级数据去重运行。今年,他们已经扩展到200PB的数据集,同时缩短了总处理时间,部分原因是使用了更强大的第八代Graviton实例。

Nova生动地讲述了他们为充分利用Graviton的能力而实施的优化和工作流程调整。他分享了Anthropic如何从基于docker的构建过程转向基于nix的方法,使他们能够为整个工作流程编译利用系统架构优化。这一转变,加上对JAX等框架的软件更新和特定于架构的节点选择器,使Anthropic能够释放Graviton实例的全部潜力。

观众聚精会神地聆听Nova讲述他们所面临的挑战和创新解决方案,这为Graviton如何彻底改变数据处理管道提供了一个生动的例证。他强调了所取得的显著性能提升,如在Rust代码中针对Neoverse N1架构实现了20%的加速,以及在部署了亚马逊云科技 LCRS等优化(如矢量化TLS支持)后,吞吐量达到每分钟2.8PB的处理速度。

Nova还分享了Anthropic在内存密集型工作负载(如Apache Spark)中使用Graviton实例的经验,利用r6g.48xlarge实例进行大数据shuffle,并从透明大页表分配所带来的改善内存带宽和减少页表遍历中获益。

会议临近尾声时,Jeff总结了采用亚马逊云科技 Graviton用于AI/ML工作负载的令人信服的理由,包括广泛的实例类型和区域可用性、广泛的ML框架支持、简化的ML集成以及优化的价格/性能比。他就何时利用CPU处理各种AI/ML任务(如在单个Graviton节点上生成高达700亿参数的生成式AI文本、数据摄取和准备、用于检索增强生成的向量数据库,以及自然语言处理、分类、排序和聚类等经典ML工作负载)提供了指导,为观众绘制了通往成功的路线图。

在最后的号召中,Jeff鼓励与会者评估自己的AI/ML管道,审视工作负载,并考虑在哪些地方Graviton实例可能提升价格/性能比。他强调,在亚马逊云科技云中进行实验和评估非常简单,只需几次点击即可启动Graviton实例,评估其是否适合特定用例,从而可能实现显著的成本节约和性能提升。

会议结束时,观众爆发出热烈的掌声,他们的思维被新获得的知识和灵感所充实。利用亚马逊云科技 Graviton实例优化AI和ML工作负载的潜力已经展现无遗,未来的道路也变得清晰起来——拥抱创新,勇于实验,利用云的力量开启效率和性能的新领域。AI和ML工作负载优化的未来已经来临,创新和发现的新时代已经拉开序幕。

下面是一些演讲现场的精彩瞬间:

演讲者强调了为不同的AI/ML工作负载选择合适工具的重要性,而不是为每个问题依赖单一工具。

40df6eb45ef91c437b1bdc4f6dbda6a5.png

Andy Jassy强调了软件、优化的数学库以及亚马逊云科技的计算产品系列(包括专门设计的加速器如Trainium和Inferentia)在支持机器学习工作负载方面的重要性。

248319bff27fc912f97842ae26f38216.png

亚马逊云科技推出了对Graviton实例的重大增强,包括更快的DRAM、增加的缓存以及改进的PCIe支持,以加速向量运算和相似性计算。

4ba59a16993a4e7a2e4c5151375dcb1d.png

演讲强调了数据管道中关键且耗时的任务,从数据摄取到分析、清理、特征工程、模型训练、部署,以及持续监控数据和模型漂移。

39d8ba6717a1bacefb336036b07bbd68.png

亚马逊云科技 Graviton实例为各种工作负载(如I/O密集型任务、高性能计算和内存密集型作业如Spark)提供了显著的性能改进和可扩展性。

7120bd83ba2e2f086e3afbfe8961e2c3.png

将实验迭代时间从4-5天缩短到1-2天,使研究人员能够进行更多实验,并在大规模200PB的数据规模上加速数据研究。

5092df8f14b6f53e6f39bca10e30cdbb.png

亚马逊云科技促进了实验和评估,允许您快速启动实例(如Graviton),并确定工作负载的价格/性能优势,从而可能带来显著的成本节约。

8364e0cc071b311a75297ddd1cec866c.png

总结

在这个引人入胜的叙事中,Jeff作为一位经验丰富的亚马逊云科技专业人士,带领我们踏上了探索AI/ML工作负载和亚马逊云科技 Graviton处理器变革力量的旅程。他巧妙地运用比喻和现实案例,揭示了Graviton的多功能性和高效性,展示了它优化各种AI/ML工作负载的能力,从经典机器学习到前沿的生成式AI模型。

Jeff的引人入胜的叙述重点突出了三个关键点:首先,亚马逊云科技 Graviton实例的广泛产品组合,涵盖各种系列和规格,为AI/ML工作负载提供了无与伦比的灵活性和可访问性。其次,在流行的ML框架(如PyTorch、TensorFlow和JAX)上进行了大量优化工作,确保了在Graviton上无缝集成和开箱即用的性能提升。第三,与行业领导者Anthropic的合作展示了Graviton的实际影响,实现了高效的数据处理管道,加速了模型开发。

随着叙述的展开,Jeff的同事Shang Tsai深入探讨了生成式AI推理、向量数据库和数据摄取挑战的细微差别,而Anthropic的Nova则分享了他们与Graviton合作的见解,强调了它在负责任和可持续地扩大研究工作规模方面的关键作用。

在结束语中,Jeff发出了响亮的行动号召,敦促建设者评估他们的AI/ML管道,探索Graviton的潜力,体验优化后的价格/性能转变力量。这个演讲巧妙地融合了技术深度和引人入胜的叙事,让观众受到启发并为他们的AI/ML事业充分利用亚马逊云科技 Graviton的全部潜力做好了准备。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值