并行计算:GPU与CUDA编程全解析
1. GPU架构与发展
GPU的架构不断演进,以满足日益增长的计算需求。早期的GPU专为图形渲染设计,是特定的单核心、固定功能的硬件流水线。如今,GPU已发展为具有高度并行和可编程核心的设备,可用于更通用的计算任务。
- Kepler架构 :每个流多处理器(SM)包含192个标量处理器(SP)和32个特殊功能单元(SFU),还有64K的共享内存,用于线程间的数据共享和通信。图形处理集群(GPC)由2个SM组成,2个SM共享一个GPC以及L1和纹理缓存,仅4个GPC共享L2缓存,所有SM共享全局内存。
- Maxwell架构 :于2014年推出,通过提供大量专用共享内存、共享内存原子操作以及每个SM更多的活动线程块,显著提升了应用性能。
- Pascal架构 :2016年发布,NVIDIA的Tesla P100加速器采用了开创性的Pascal GP100 GPU。GP100由一系列GPC组成,每个GPC包含10个SM,每个SM有64个CUDA核心和4个纹理单元。60个SM使GP100共有3840个单精度CUDA核心和240个纹理单元。此外,Tesla P100还采用了新的高速接口NVLink,提供高达160 Gb/s的双向带宽,是PCIe Gen 3 × 16带宽的五倍。
2. GPGPU计算
通用目的GPU计算(GPGPU)的理念是利用GPU执行通常由计算机中更通用的CPU完成的计算任务。GPU具有大量核心和低功耗的特点,能够加速应用程序的数据
超级会员免费看
订阅专栏 解锁全文
2056

被折叠的 条评论
为什么被折叠?



