Amazon EC2 P5 实例部署在 Amazon EC2 UltraCluster 的超大规模集群中,该集群由云端最高性能的计算、网络和存储系统组成。每个 EC2 UltraCluster 都是世界上功能最强大的超级计算机之一,助力客户运行最复杂的多节点机器学习训练和分布式 HPC 工作负载。它们采用PB级无阻塞网络,基于 Amazon EFA,这种面向 Amazon EC2 实例的网络接口使客户能够在亚马逊云科技上运行需要在大规模高级节点间通信的应用程序。EFA 的定制操作系统绕过硬件接口,并与英伟达 GPUDirect RDMA 整合,可降低延迟、提高带宽利用率,从而提升实例间通信性能,这对于在数百个 P5 节点上扩展深度学习模型的训练至关重要。借助 P5 实例和 EFA,机器学习应用程序可以使用 NVIDIA Collective Communications Library(NCCL)扩展到多达 2 万个 H100 GPU。因此,客户可以通过亚马逊云科技的按需弹性和灵活扩展能力,获得本地 HPC 集群的应用性能。除了这些出色的计算能力外,客户可以使用业界最广泛最深入的服务组合,比如面向对象存储的 Amazon S3、面向高性能文件系统的 Amazon FSx,以及用于构建、训练和部署深度学习应用的 Amazon SageMaker。P5 实例将在今后几周提供有限预览版。
亚马逊云科技与英伟达携手开发下一代基础设施,助力大型机器学习模型训练和生成式AI应用程序构建(第四部分)
AmazonEC2P5实例在EC2UltraCluster上运行,提供顶级计算、网络和存储能力,支持大规模机器学习训练和HPC工作负载。借助EFA接口和NVIDIA技术,实现低延迟、高带宽的实例间通信,可扩展至2万个H100GPU。此外,客户还能利用AmazonS3、AmazonFSx和AmazonSageMaker等服务进行存储和深度学习应用的开发与部署。P5实例即将开放预览。

被折叠的 条评论
为什么被折叠?



