高性能计算中的跟踪分析与全对全通信节能策略
1. PFLOTRAN应用的跟踪分析与MPI通信器管理
在大规模PFLOTRAN应用的跟踪收集和分析中,Scalasca对MPI通信器的管理需要全面重新设计。通过消除通信操作中伙伴和根进程通信器秩到全局秩的转换,避免了相关的测量膨胀,同时也推动了在分析期间消息重放所需的通信器规范的更高效跟踪和存储。经过改进的实现,现在已经能够对128k及更多进程进行之前无法完成的跟踪分析。对于使用MPI内部通信器的罕见应用,目前正在研究一些小的扩展。新的通信器管理方案也已被纳入开源的Score - P测量系统。
从Scalasca分析报告资源管理器中可以看到,在BG/P上进行的64k进程的PFLOTRAN跟踪实验的时间步循环提取情况。左窗格中选择的MPI通信和同步等待时间指标占总时间的10%以上。中央窗格显示,在流动和传输阶段使用的PETSc SNESSolve LS线搜索求解器调用占这部分时间的99%,而右窗格中64k进程的等待时间分布表明,这弥补了应用程序固有的计算负载不平衡。
2. 全对全通信中的节能策略
随着现代计算平台峰值性能的提高,其能耗也在增加,这可能导致过高的运营成本和故障率。动态电压和频率缩放(DVFS)以及CPU时钟调制(节流)等技术常用于降低计算节点的功耗。然而,在应用程序执行期间应谨慎使用这些技术,以避免显著的性能损失。
2.1 英特尔架构中的CPU节流和DVFS
当前一代英特尔处理器为DVFS提供了各种P状态,为节流提供了T状态。例如,英特尔“Core”微架构提供四个P状态和从T0到T7的八个T状态,其中Tj状态表示在CPU执行的每八个周期中引入j个空闲周期。