传统本地HPC集群面临资源扩展性差、前期投入高、运维复杂等挑战。AWS云平台凭借其丰富的计算实例类型、高速网络、并行文件系统和灵活的调度管理工具,为构建弹性和高性能的HPC集群提供了强大支撑。本文将深入探讨在AWS上部署HPC集群的核心组件、架构设计、实施步骤及优化实践,助力科研与工程计算用户释放云端超算潜力。
网络,安全性,全球基础设施
此架构图显示了如何使用 AWS CloudFormation 模板预置网络资源、安全性和存储组件,以部署本指导。下一个选项卡显示了如何使用 AWS ParallelCluster CloudFormation 堆栈部署 HPC 资源。 
第 1 步(续)
这些模板还为安全性和存储预置资源,例如 Amazon Simple Storage Service(Amazon S3)、Amazon Elastic File System(Amazon EFS)和适用于 Lustre 的 Amazon FSx。包括用来部署 Slurm 会计数据库(DB)和 Microsoft Active Directory 用户目录的可选模板
第 2 步
基于目标 AWS 区域创建四个逻辑子网(区域),每个子网位于多个可用区(AZ)中。部署所有必需的网络、网络访问控制列表(ACL)、路由和安全性资源
第 2 步(续)
这四个区域是:1)访问区域(公有子网)、2)计算区域、3)管理区域和 4)存储区域(所有私有子网)。
第 3 步
创建一个 Amazon RDS for MySQLRDS 实例,此实例将用作 Slurm 会计数据库。它是在单个区域中设置的,如果愿意,也可以将其修改成多可用区。在两个可用区中创建一个 AWS Directory Service 用户目录。
第 4 步
为共享集群存储空间创建一

最低0.47元/天 解锁文章
4626

被折叠的 条评论
为什么被折叠?



