高性能计算中的CPU架构与CUDA编程基础
1. 高性能CPU架构基础
在高性能计算中,CPU架构的一些基础知识对于提升程序性能至关重要。
1.1 缓存内存
缓存内存离执行单元越近,数据传输速度越快,但存储容量会相应减小。在Linux系统中,可以使用“lscpu”命令确认缓存内存大小。L1缓存的延迟为4 - 6个时钟周期,L2缓存的访问时间是L1缓存的2 - 3倍,L3缓存的访问时间是L2缓存的4 - 5倍,且其延迟是L1缓存的8 - 15倍。
为了加速程序运行,一个重要的点是编写的程序要使指令处理所需的操作数存在于低级缓存内存中。不建议使用在超过缓存内存大小的广阔空间中连续访问不连续地址的算法,因为数据存在于缓存内存中的概率极低,会导致与系统内存进行通信,使缓存内存无法有效发挥作用,矩阵计算算法就是这样的例子。
为了提高缓存命中率,常使用缓存分块技术。该技术不直接处理大型程序,而是将计算所需的数据量小于缓存内存大小的小部分程序进行处理。在进行CGH计算时,不一次性使用所有对象点进行计算,而是将对象点划分为缓存内存大小范围内的较小集合。使用此方法时,要注意缓存级别,不同级别的缓存内存具有不同特性,例如L2缓存专用于CPU核心,L3缓存为多个CPU核心共享。对于没有公共数据的算法,以L2 + L3缓存大小作为每个CPU核心的缓存大小来划分数据。
1.2 缓存行
当执行使用一个浮点型变量的指令时,由于浮点型为32位,会通过缓存内存从系统内存将4字节数据加载到寄存器。但实际上,此时从系统内存加载的不仅仅是4字节数据。缓存内存以缓存行为单位管理数据,加载的最小数据量等于缓存行大小,在现代CPU中通常为
超级会员免费看
订阅专栏 解锁全文
3823

被折叠的 条评论
为什么被折叠?



