CnC - CUDA:用于GPU的声明式编程
1. 引言
计算机行业正处于硬件发展的重大转折点,数十年来时钟频率指数级增长的趋势已结束。未来的计算机系统预计将采用同构和异构多核处理器,每颗芯片拥有数十到数百个核心,同时配备复杂的硬件设计,以应对并发、能源效率和弹性等挑战。这种向多核计算的转变对软件产生了深远影响,尤其是在那些以往无需考虑多处理器并行性的主流工作负载和应用领域中,软件面临着更大的挑战。
目前,主流桌面系统中出现了使用通用图形处理器单元(GPGPU)来大幅提升性能的趋势。例如,NVIDIA的CUDA已成为一种流行的CPU和GPGPU混合编程模型。然而,对于主流程序员和领域专家来说,编写完整的CUDA应用程序非常复杂,因为涉及到CPU - GPU交互的控制流、数据流和同步等问题,而且调试也十分困难。
为了解决这一混合编程挑战,我们扩展了Intel的并发集合(CnC)编程模型,提出了CnC - CUDA模型。该模型包括为GPU执行定义多线程步骤,以及自动生成CPU步骤和GPU步骤之间的数据和控制流。同时,我们开发了基于Java的CnC实现,为CnC - CUDA的实现奠定了基础。实验结果表明,这种方法在GPU执行和CPU/GPU混合执行中都能带来显著的性能提升。
2. 背景
2.1 并发集合编程(CnC)模型
CnC程序是一个由串行内核组成的图,内核之间相互通信。CnC有三个主要构造:步骤集合、数据项集合和控制标签集合。静态地看,每个构造都是一个代表一组动态实例的集合。步骤实例是分布和调度的单位,数据项实例是同步和通信的单位,控制标签实例是控制的单位。
程序以图的形式表示,在文本中,用