大规模 SCI 集群实践:架构与性能
1. 引言
帕德博恩可扩展计算服务器(PSC Server)是一款商业产品的原型,于 1997/1998 年由西门子公司和 Scali 计算机公司组成的供应商联盟安装在帕德博恩并行计算中心。它基于商用现货(COTS)概念,即使用常见的现成技术。
经过广泛的稳定性和性能测试后,不同规模的 PSC 服务器如今由西门子以 hpcLine 品牌进行销售。它们提供真正可扩展的计算能力,从小型集群的几 GFlop/s 到配备数百个英特尔处理器的高端系统的超过一百 GFlop/s。
本文将分享两个分别配备 64 个和 192 个英特尔奔腾 II 处理器的大规模安装实例的经验,给出底层基准测试以及实际应用的结果。尽管这些结果仍处于初步阶段(因为系统还需进一步优化),但它们为使用标准现成 PC 技术和 SCI 互连的大型专用计算集群的特性和可用性提供了宝贵的见解。
2. PSC 系统架构
除了几个用于测试目的、配备各种硬件组件的小型系统外,我们的研究所运营着两个大规模 SCI 计算服务器,均包含西门子多处理器 PC 和海豚 PCI/SCI 适配卡。它们不同的硬件规格(300 MHz 与 450 MHz 的英特尔奔腾 II)反映了它们分别在 1997 年和 1998 年安装时的技术进步。而且它们的外观也大不相同:较小的系统包含标准 PC 机箱,这些机箱简单地堆叠在四个机柜中;而较大的系统则只包含没有机箱的 PC 主板,放置在六个机柜中。这是因为我们系统中使用的 SCI 技术不允许电缆长度超过几米。此外,通过移除不必要的 PC 组件(如 CD 驱动器、软盘驱动器、显卡等),我们能够减少冷却工作和功耗。
大规模SCI集群架构、性能实践与展望
超级会员免费看
订阅专栏 解锁全文
69

被折叠的 条评论
为什么被折叠?



