SCI集群的监控与多用户系统管理
1. SCI集群监控概述
在缺乏单一系统映像的情况下,计算机集群的管理颇具挑战。监控工具能提供集群运行状态和资源利用的全局视图,有助于填补这一空白,还能辅助程序员进行调试和调优。
其核心由本地监控代理和中央主进程组成,它们以主 - 从模式进行通信。可视化工具以清晰易读的方式将收集到的数据呈现给用户。所有组件都具有灵活性和可配置性,能满足用户的不同需求。此外,一个小型库可使监控数据供其他组件使用,进一步提升集群计算机的效率和易用性。
当点击相应图标时,会弹出一个窗口,该窗口分为两部分:
- 上半部分:以文本形式描述节点,包括静态和动态数据的数值,以及由CCS提供的数据。
- 下半部分:展示一些曲线,显示所选测量值在过去τ个样本中的数值。
2. CCS资源管理软件介绍
2.1 硬件场景
CCS可用于访问和控制小型异构SCI集群,但它主要是为管理多用户模式下的大型专用计算集群而设计的。例如:
- 32节点SCI集群:具有2D环形拓扑结构,由四个垂直和八个水平SCI环组成。每个节点的交叉点配备两个奔腾II处理器。由于物理环长度不同,垂直和水平环的通信带宽分别为400和500 MByte/s。
- 96节点SCI集群:峰值性能为86 GFlop/s,每个节点配备两个450 MHz奔腾II处理器和512 MB主内存。SCI环通过16路SCI交换机进行路由。
2.2 软件场景
这些SCI集群提供了一系列高性能计算环境中常见的软件服务,包括:
- 编译器:Fortran77、Fortran90、C、C+
超级会员免费看
订阅专栏 解锁全文
65

被折叠的 条评论
为什么被折叠?



