折叠与TAU性能系统的技术进展
1. 折叠:粗采样的详细分析
在性能分析中,折叠机制结合粗采样是一种有效的方法。下面是相关实验设置的详细信息:
| 应用执行设置 | 详细采样 | 粗采样 |
| — | — | — |
| 应用名称 | BT.B | BT.B |
| 采样模式 | 详细 | 粗 |
| 采样周期 | 50 Kcycles | 10 Mcycles |
| 每秒样本数 | 32,000 | 160 |
| 采样开销 | 89 % | 2 % |
| 迭代次数 | 1 | 200 |
| 每个任务的总样本数 | 5,661 | 5,445 |
为了提高数据访问的局部性,对循环进行了一些优化尝试。例如,尝试减少循环内的数组访问次数,当前循环中有11个数组被访问。还对第三个循环应用了分块和拆分技术,但分块大小为128个元素时,Cluster 1变慢了3%,拆分循环则使Cluster 1变慢了20%,主要原因是TLB缺失增加。
1.1 结果验证
使用NAS MPI并行基准套件3.2中的BT.B基准测试,在配备1.6 GHz英特尔安腾2处理器的SGI Altix机器上验证和研究折叠机制的质量。虽然该基准测试经过了大量优化,但部分计算区域表现出不均匀的行为,适合用于研究。折叠机制中使用的克里金插值算法类似于低通滤波器,插值的样本越多,插值结果越详细。
实验主要分为两个部分:
- 第一部分 :比较高频采样轨迹和低频折叠采样轨迹中硬件计数器指标的形状。选取基准测试中两个最耗时的计算区域,将高频轨迹的一