数据预取与模板应用优化:突破性能瓶颈
1. 数据预取研究现状
数据预取在提高系统性能方面具有重要作用,但目前混合软硬件数据预取的研究较少。不同研究人员提出了多种预取方法:
- Wang等人提出引导区域预取(GRP)来改进调度区域预取(SRP),不过该研究仅关注单核执行。
- Seung Woo Son等人指出传统数据预取技术在CMP系统中扩展性不佳,并提出编译器驱动的预取技术,且在模拟器上进行了验证。
- Gornish和Veidenbaum提出一种混合机制,在给定循环前使用软件预取来“训练”硬件预取器,告知其步长和停止预取的时机。若该机制得以实现,将有助于程序员和编译器编写者更高效地将数据带回正确的缓存和核心。
然而,目前对当代多核架构中预取对“缓存行窃取”影响的研究较少。Song等人试图建立直接映射缓存的精确模型,以预测强制缺失、容量缺失以及缓存命中与缺失的转换情况。
2. 缓存行窃取问题及解决策略
数据预取虽然有用,但过度激进的预取会引发缓存行窃取,严重影响性能。在单核情况下,该问题已得到深入研究,但多核情况的研究几乎空白。硬件预取器无法让用户根据已知模式选择预取距离,一旦发生缓存抖动,难以避免。软件预取方面,数组形状会影响预取效率,通常需通过迭代方法修正,否则可能出现缓存行窃取。
为消除部分或全部缓存行窃取问题,提出了以下解决方案:
- 关闭预取:微处理器供应商可考虑提供按进程激活或停用预取的功能。
- 对有问题的代码进行循环转换。
- 重塑数据结构,使其更适合预取策略。
此外,还提出了一种自适应框架,仅在必要时停用Core 2处理器的硬件预取,以应