SCI 集群监控:硬件、软件与工具全解析
1. 相关工作概述
在分布式共享内存(DSM)监控领域,目前专注于为基于硬件的分布式共享内存提供硬件支持的项目较少。例如,普林斯顿 SHRIMP 多计算机的性能监控器,它既可以配置为跟踪监控器,利用大量本地内存存储本地跟踪信息且无探测效应,也能作为多维直方图监控器。对于 CC - NUMA FLASH 多处理器系统,其硬件实现的缓存一致性机制通过用于监控细粒度性能数据(如缺失次数和持续时间、无效操作等)的组件得到补充。还有一些多处理器系统利用现代 CPU 芯片(如 DEC Alpha 21164、英特尔奔腾处理器、MIPS R10000)内置的硬件计数器收集的信息进行性能分析。不过,这些系统都只是进行性能测量,并未尝试影响程序行为。
2. SMiLE 系统介绍
SMiLE 系统是一个基于硬件支持的 DSM 架构的示例,它使用现代低延迟、高速互连(如 SCI)将 PC 集群化。这类并行和分布式计算机的细粒度通信特性,虽能带来更精细的计算活动优势,但也给高效并行程序的开发带来了挑战。在性能分析和调试方面,通信的可观察性是了解被测程序行为的关键要素。
SMiLE 硬件监控卡能够检测底层 SCI 内存事务的大小、时间点和目标地址。对于性能分析,这些信息可以高效地记录在节点的主内存中,满足时间和空间要求。监控器的另一个任务是影响程序运行行为,SMiLE 监控卡和 SMiLE PCI/SCI 适配器的组合可以选择性地检测和暂停传入的 SCI 事务,混合监控系统的软件部分可以显式地重新启用这些事务,从而对 SMiLE 系统架构提供的面向内存的通信进行显式控制。以 codex 系统为例,它展示了这种方法的强大功能,使得通常仅适用于
超级会员免费看
订阅专栏 解锁全文
69

被折叠的 条评论
为什么被折叠?



