高性能计算基础设施即服务的硬件设备级计算机平台动态重构
1. 引言
高性能计算(HPC)系统的功能日益多样化,用户很难拥有具备多种功能的HPC系统。HPC系统不仅用于传统科学模拟,还用于分析来自众多传感器的大量流数据(物联网/大数据),以及让人工智能从这些数据中学习功能。未来的HPC系统需要具备更广泛的功能和更高的性能。
然而,HPC系统往往需要特定的应用配置,用户拥有这些系统变得越来越困难。例如,用于图形处理单元(GPU)计算的HPC系统服务器需要高电源供应、大插槽空间和冷却机制来安装高功率GPU加速器。集群计算系统通常安装消息传递接口(MPI),为了实现高性能,还会考虑引入高速且昂贵的Infiniband主机总线适配器(HBA)。因此,这些HPC系统比传统计算系统更昂贵,且耗电量更大。
对于这些用户来说,先进的云服务是获取HPC系统(如GPU计算平台和使用MPI的分布式集群系统)的一种方式。但这些HPC系统的每个配置都是独特且固定的,使用特定设备、网络拓扑和协议。这导致云中的计算资源只能为特定用途预留,无法灵活用于其他用途。例如,安装了两个GPU的服务器节点,即使其中一个GPU被使用,另一个也不能用于其他应用。为了为每个系统提供最佳性能,需要预先精心设计由多个服务器节点组成的集群系统网络。
这种刚性给用户和云服务提供商带来了问题。从用户角度看,他们无法从云中为应用获取最合适的计算资源,因为计算资源只能从固定配置菜单中选择,该菜单可能不是最佳配置,还可能出现资源请求冲突。从云服务提供商角度看,需要准备各种HPC平台来满足用户多样化需求,这缩短了每个平台执行作业的时间,导致HPC平台安装和维护成本高,但利用率低。
我们的目标是从云中灵活提供
超级会员免费看
订阅专栏 解锁全文
1644

被折叠的 条评论
为什么被折叠?



