并行与分布式系统:GPU、加速比及系统设计解析
1. 英特尔i7 920的屋顶线性能模型
英特尔i7 920的屋顶线性能模型显示,当算术强度低于约3时,16.4GB/秒的内存带宽成为瓶颈;而当算术强度大于约3时,处理器提供的42.66 Gflops会限制应用程序的性能。
2. 图形处理单元(GPUs)
- 发展背景与应用领域 :对支持二维、三维或四维向量实时图形的需求促使了图形处理单元(GPUs)的发展。GPUs在处理计算机图形方面非常高效,英特尔、英伟达(NVIDIA)和AMD/ATI生产的GPUs被广泛应用于嵌入式系统、移动电话、个人计算机、工作站和游戏机等。
- 执行模型与结构特点 :GPU处理基于异构执行模型,其中CPU作为主机,与被称为设备的GPU相连。GPUs的高度并行结构基于单指令多数据(SIMD)执行,支持对大数据块的并行处理。一个GPU拥有多个多线程SIMD处理器,例如英伟达的Fermi架构GPU有7到15个多线程SIMD处理器。与向量处理器相比,每个多线程SIMD处理器有几个宽而浅的单指令单数据(SISD)通道。以英伟达GPU为例,有32768个寄存器分布在16个物理SIMD通道中,每个通道有2048个寄存器。
- 典型处理执行步骤 :
- CPU将输入数据从主内存复制到GPU内存。
- CPU指示GPU使用GPU内存中的可执行文件开始处理。
- GPU使用多个核心执行并行代码。
- 处理完成后,
超级会员免费看
订阅专栏 解锁全文
701

被折叠的 条评论
为什么被折叠?



