7、并行计算：GPU与CUDA编程全解析

iii12

于 2025-08-22 10:40:50 发布

阅读量119

点赞数

CC 4.0 BY-SA版权

分类专栏：计算的未来：超越摩尔定律文章标签：并行计算 GPU CUDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/iii12/article/details/151054711

计算的未来：超越摩尔定律专栏收录该内容

17 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

并行计算：GPU与CUDA编程全解析

1. GPU架构与发展

GPU的架构不断演进，以满足日益增长的计算需求。早期的GPU专为图形渲染设计，是特定的单核心、固定功能的硬件流水线。如今，GPU已发展为具有高度并行和可编程核心的设备，可用于更通用的计算任务。

Kepler架构 ：每个流多处理器（SM）包含192个标量处理器（SP）和32个特殊功能单元（SFU），还有64K的共享内存，用于线程间的数据共享和通信。图形处理集群（GPC）由2个SM组成，2个SM共享一个GPC以及L1和纹理缓存，仅4个GPC共享L2缓存，所有SM共享全局内存。
Maxwell架构 ：于2014年推出，通过提供大量专用共享内存、共享内存原子操作以及每个SM更多的活动线程块，显著提升了应用性能。
Pascal架构 ：2016年发布，NVIDIA的Tesla P100加速器采用了开创性的Pascal GP100 GPU。GP100由一系列GPC组成，每个GPC包含10个SM，每个SM有64个CUDA核心和4个纹理单元。60个SM使GP100共有3840个单精度CUDA核心和240个纹理单元。此外，Tesla P100还采用了新的高速接口NVLink，提供高达160 Gb/s的双向带宽，是PCIe Gen 3 × 16带宽的五倍。

2. GPGPU计算

通用目的GPU计算（GPGPU）的理念是利用GPU执行通常由计算机中更通用的CPU完成的计算任务。GPU具有大量核心和低功耗的特点，能够加速应用程序的数据

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。