7、并行计算:GPU与CUDA编程全解析

并行计算:GPU与CUDA编程全解析

1. GPU架构与发展

GPU的架构不断演进,以满足日益增长的计算需求。早期的GPU专为图形渲染设计,是特定的单核心、固定功能的硬件流水线。如今,GPU已发展为具有高度并行和可编程核心的设备,可用于更通用的计算任务。

  • Kepler架构 :每个流多处理器(SM)包含192个标量处理器(SP)和32个特殊功能单元(SFU),还有64K的共享内存,用于线程间的数据共享和通信。图形处理集群(GPC)由2个SM组成,2个SM共享一个GPC以及L1和纹理缓存,仅4个GPC共享L2缓存,所有SM共享全局内存。
  • Maxwell架构 :于2014年推出,通过提供大量专用共享内存、共享内存原子操作以及每个SM更多的活动线程块,显著提升了应用性能。
  • Pascal架构 :2016年发布,NVIDIA的Tesla P100加速器采用了开创性的Pascal GP100 GPU。GP100由一系列GPC组成,每个GPC包含10个SM,每个SM有64个CUDA核心和4个纹理单元。60个SM使GP100共有3840个单精度CUDA核心和240个纹理单元。此外,Tesla P100还采用了新的高速接口NVLink,提供高达160 Gb/s的双向带宽,是PCIe Gen 3 × 16带宽的五倍。
2. GPGPU计算

通用目的GPU计算(GPGPU)的理念是利用GPU执行通常由计算机中更通用的CPU完成的计算任务。GPU具有大量核心和低功耗的特点,能够加速应用程序的数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值