Amazon SageMaker训练大模型实现规模化高性能

最新推荐文章于 2025-08-26 16:00:39 发布

原创

最新推荐文章于 2025-08-26 16:00:39 发布 · 1.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#AWS

Amazon SageMaker训练大模型实现规模化高性能

关键字: [Amazon Web Services re:Invent 2024，亚马逊云科技，生成式AI， SageMaker Hyperpod， Large Models， Model Training， Distributed Training， Cluster Resiliency， Infrastructure Optimization]

导读

Amazon SageMaker提供最高性能的机器学习基础设施和稳定的训练环境，帮助您连续数月不间断地训练基础模型（FMs）。从大型企业到初创公司，顶级AI公司都在SageMaker上构建拥有数十亿参数的尖端模型。了解如何通过使用最先进的训练功能（如Amazon SageMaker HyperPod、训练作业和优化的分布式训练框架）来节省高达40%的训练时间和成本。参加本次会议，学习如何在SageMaker上进行大规模、高性价比的模型训练，以加速生成式AI的开发。

演讲精华

以下是小编为您整理的本次演讲的精华。

科技世界正在经历一场地震式的变革，生成式人工智能(generative AI)成为了焦点，吸引了消费者和组织的广泛关注。在亚马逊云科技，人们坚信虽然消费者对这项技术的采用令人兴奋，但它将从根本上改变组织为客户和员工创新的方式。高盛预测，在未来十年里，这项革命性技术将推动GDP增长7万亿美元。

生成式人工智能的核心是利用机器学习和人工智能的最新进展。Transformer架构的出现开启了基础模型或大型语言模型的时代。这些模型通常包含数十亿个参数，经过互联网规模的数据训练，因此在预训练阶段接触到了大量数据，从而获得了在各种环境下执行任务的能力。

虽然预训练模型提供了许多令人兴奋的使用案例，但组织同样热衷于在自己的专有数据上训练这些模型，从而实现行业特定的差异化。亚马逊云科技一直根据客户需求采取反向工作方式，大约五年前，当越来越多的客户开始深入研究深度学习时，亚马逊云科技推出了SageMaker Training Jobs。

SageMaker Training Jobs为希望训练机器学习模型而无需管理基础设施的客户提供了一个完全托管的API。流程非常简单 - 客户只需提供所需的实例类型、实例数量和训练脚本。SageMaker负责启动集群、下载所需的容器、运行训练脚本，并将训练好的模型工件复制到指定的输出位置。一旦模型训练完成，基础设施会自动关闭，客户只需为使用的资源付费。SageMaker Training Jobs与实验管理工具、低延迟的热池和EC2 Spot实例集成，因此成为客户希望训练模型而无需管理基础设施的热门选择。

然而，近年来随着越来越多的客户开始训练大型模型并长期运行，出现了一系列新的挑战。第一个挑战与硬件有关。在生成式人工智能领域，硬件市场发展迅速，每隔几个月就会推出新的芯片，使模型训练更快。但获得最新硬件仍然是一个障碍，一旦获得，配置与新硬件兼容的集群和软件也是一项额外的任务。

随着模型大小和训练数据集的不断增长，训练模型的计算需求呈指数级增长，在过去5年中每年增长超过4倍。这就需要进一步扩大集群规模，从而增加了基础设施故障的概率。事实上，在Meta最近关于LLaMA训练的论文中，他们报告说每3个小时就会发生一次GPU故障，这对数据科学家来说是一项重大的调试基础设施故障的时间投资。

最后，随着计算需求激增，组织必须确保将成本控制在合理范围内，并尽可能有效地利用基础设施。

为了解决这些挑战，Amazon SageMaker在去年的re:Invent活动上推出了Hyperpod。SageMaker Hyperpod是专为生成式人工智能开发而设计的基础设施，可将训练时间缩短高达40%，允许客户跨数千个加速器进行扩展。Hyperpod通过以下几个关键特性实现了这一点。

首先，SageMaker Hyperpod提供了一个可靠的环境。Hyperpod集群配备了集群监控软件，可监控基础设施故障并在检测到故障时自行修复节点，从而减少训练时间。Hyperpod还包括SageMaker的分布式训练库，可轻