1.1 Heterogeneous Parallel Computing
前言
基于单个中央处理器(CPU)的微处理器,如英特尔奔腾系列和AMD皓龙系列的微处理器,二十多年来推动了计算机应用程序的性能快速提高和成本降低。
这些微处理器将每秒千兆浮点运算(GFLOPS,或千兆(每秒10%的浮点运算))带到桌面,每秒将tera浮点运算(TFLOPS,或每秒Tera(1012)浮点运算)带到数据中心。这种对性能改进的不懈推动使应用软件能够提供更多功能,拥有更好的用户界面,并产生更有用的结果。反过来,一旦用户习惯了这些改进,他们就会要求更多的改进,为计算机行业创造一个积极的(良性)循环。
然而,自2003年以来,由于能耗和散热问题,这种驱动器已经放缓,这些问题限制了时钟频率的增加和在单个CPU内每个时钟周期内可以执行的生产活动水平。
从那时起,几乎所有微处理器供应商都转向在每个芯片中使用多个处理单元(称为处理器核心)的模型,以提高处理能力。这个开关对软件开发人员社区[Sutter 2005]产生了巨大影响。
传统上,绝大多数软件应用程序都是作为顺序程序编写的,由处理器执行,其设计是由冯诺伊曼在1945年的开创性报告中[vonNeumann 1945]。这些的执行人类可以循序渐进地完成代码来理解程序。从历史上看,大多数软件开发人员都依靠硬件的进步来提高其在引擎盖下顺序应用程序的速度;随着每一代新处理器的推出,相同的软件运行速度更快。计算机用户也已经习惯了这些程序在每个新一代微处理器上运行得更快的期望。从今天起,这种期望不再有效。顺序程序只会在其中一个处理器内核上运行,从一代到一代不会明显加快。如果没有性能改进,随着新微处理器的引入,应用程序开发人员将不再能够在其软件中引入新的特性和功能,从而减少整个计算机行业的增长机会。
相反,随着微处理器的每次新生成,将继续获得显著性能改进的应用程序软件将是并行程序,其中多个执行线程合作以更快地完成工作。这种新的、急剧升级的并行程序开发的激励被称为并发革命[Sutter 2005]。并行编程的实践绝非新鲜事。几十年来,高性能计算社区一直在开发并行程序。这些程序通常在大规模、昂贵的计算机上运行。只有少数精英应用程序可以证明使用这些昂贵的计算机