流处理器上3 - D雅可比迭代的评估优化及分布式STM中冲突可串行性的高效实现
1. 流处理器上3 - D雅可比迭代相关优化
在流处理器的计算中,StreamJacobi的性能受到多种因素的影响。随着内存访问次数的增加,其内存访问延迟逐渐降低,目前它受计算资源和内存访问性能的双重限制。特别是对于规模大于512的StreamJacobi,现在主要受内核执行的限制。
1.1 记录重用的效果
通过对记录重用的利用,即重新组织流以减少片外内存传输,能够带来一定的性能提升。图14展示了由于内存传输减少而带来的边际加速比。对于128×128规模的StreamJacobi,这种优化减少了加载流的数量,从而降低了准备开销,获得了最大的加速比。但对于其他规模的雅可比应用流程序,其加速比几乎相同。
1.2 流重用的效果
流处理器通过捕获SRF中流之间的重用性来减少内存传输,这种优化非常重要。StreamJacobi从流重用优化中受益匪浅。由于六个输入流中有五个重用了上一次迭代生成的数据,大量的内存传输得以减少。如果没有这种优化,流编译器无法识别重用性,所有输入流都必须从片外内存加载,每个内核都必须等待其输入流从片外内存加载完成。流重用消除了起始和结束未知的流的出现,使流编译器能够识别重用。
2. 分布式软件事务内存相关问题与解决方案
2.1 分布式STM的背景与问题
事务内存是简化共享内存并行编程的一种有前途的机制。分布式STM适用于分布式内存系统,但目前大多数分布式STM仍然采用2PL(两阶段锁定)。当两个重叠的事务访问同一对象且至少有一个访问是写操作时,2PL会重启或延迟一个事务。在分布式应用中,长事务和
超级会员免费看
订阅专栏 解锁全文

881

被折叠的 条评论
为什么被折叠?



