16、并行与分布式系统：GPU、加速比及系统设计解析

最新推荐文章于 2025-10-06 05:14:34 发布

php55

最新推荐文章于 2025-10-06 05:14:34 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏：探索云计算：从理论到实践文章标签：并行计算分布式系统 GPU

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/php55/article/details/150669158

探索云计算：从理论到实践专栏收录该内容

69 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

并行与分布式系统：GPU、加速比及系统设计解析

1. 英特尔i7 920的屋顶线性能模型

英特尔i7 920的屋顶线性能模型显示，当算术强度低于约3时，16.4GB/秒的内存带宽成为瓶颈；而当算术强度大于约3时，处理器提供的42.66 Gflops会限制应用程序的性能。

2. 图形处理单元（GPUs）

发展背景与应用领域 ：对支持二维、三维或四维向量实时图形的需求促使了图形处理单元（GPUs）的发展。GPUs在处理计算机图形方面非常高效，英特尔、英伟达（NVIDIA）和AMD/ATI生产的GPUs被广泛应用于嵌入式系统、移动电话、个人计算机、工作站和游戏机等。
执行模型与结构特点 ：GPU处理基于异构执行模型，其中CPU作为主机，与被称为设备的GPU相连。GPUs的高度并行结构基于单指令多数据（SIMD）执行，支持对大数据块的并行处理。一个GPU拥有多个多线程SIMD处理器，例如英伟达的Fermi架构GPU有7到15个多线程SIMD处理器。与向量处理器相比，每个多线程SIMD处理器有几个宽而浅的单指令单数据（SISD）通道。以英伟达GPU为例，有32768个寄存器分布在16个物理SIMD通道中，每个通道有2048个寄存器。
典型处理执行步骤 ：
1. CPU将输入数据从主内存复制到GPU内存。
2. CPU指示GPU使用GPU内存中的可执行文件开始处理。
3. GPU使用多个核心执行并行代码。
4. 处理完成后，

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。