Tesla图形与计算架构:流处理器阵列(scalable streaming processor array,SPA)+存储器系统,由片上互联网络连接;
存储器系统:存储器控制器(MMC)、固定功能的光栅操作单元(raster operation processors,ROP),二级纹理缓存;
MMC:负责控制片外的DRAM显存,每个存储器可以提供64bit位宽;
ROP:对存储器内的数据进行颜色和深度操作;
SPA可以将计算得到的深度与颜色信息发送给ROP,也可以直接读写DRAM或者通过纹理缓存以制度方式访问DRAM;
SPA:若干个TPC(Thread Processing Cluster,线程处理器群)构成;
2~3个SM(Streaming Multiprocessor)组成一个TPC;
G200:10个TPC,每个TPC中有3个SM;
SM:大致相当于一个具有8路SIMD的处理器,指令宽度不是是32(即warp size);
每个

本文详细介绍了CUDA的Tesla图形与计算架构,包括流处理器阵列SPA、存储器系统、SPA的组成和工作原理。重点阐述了SM(Streaming Multiprocessor)的结构,如线程处理器群TPC、线程处理器SP,以及CUDA编程模型中的Grid、Block和Thread的关系。还讨论了Tesla通用计算模型中的CTA和shared memory,以及计算调度和内存流水线的工作方式,强调了带宽在计算性能中的关键作用。
最低0.47元/天 解锁文章
547

被折叠的 条评论
为什么被折叠?



