CUDA Core理解

s.feng

已于 2022-04-22 18:18:25 修改

阅读量2.8k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： CUDA编程文章标签： c++

于 2022-04-22 18:11:09 首次发布

本文链接：https://blog.youkuaiyun.com/feng__shuai/article/details/124351924

CUDA编程专栏收录该内容

36 篇文章

订阅专栏

博主在接触GPU一年后发现之前对CUDA核心的理解有误。原本认为一个CUDA核心执行指令后需要等待相应时钟周期才能接受新指令，但书中提到延迟可以通过发射更多指令来隐藏。CUDA核心实际上是一个管道，可以连续处理指令。因此，一个SM中多个CUDA核心能同时处理多个指令以实现高效利用。这使得博主重新认识到CUDA核心的工作原理，感叹自学CUDA的挑战性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

背景

目前为止，自己已经接触GPU一年多了, 最近才发现对最基础的cuda core 认识错误，具体的原因是：当在《CUDA C编程权威指南》上看延迟隐藏章节的时候疑惑很大，书上说隐藏延迟需要的线程数=延迟*吞吐？当一个warp调度器发射一个除法指令给某一个cuda core的时候，假如需要5个时钟周期，我自己理解应该是5个周期后才能接收下一个指令，但是根据书上的意思，cuda core 在下一个周期就可以接收另外的除法指令了，为什么？

定义

cuda core是可以执行 32 位浮点加法、32 位浮点乘法、32 位到 8 位整数运算（如移位、加法、muls 和类似操作）的管道（pipe），并且还可以在其 SM 单元上生成内存请求以提供数据以不断处理数据 . 还要求特殊函数计算并由 SM 单元同步，以正确计算并行算法。

在这里插入图片描述

结论

就离谱，原来cuda core不是元操作，而是一个pipe, 所以一个cuda core如果执行一个除法指令需要N个时钟周期，一个SM中有M个cuda core，那么这个SM至少需要N*M个除法指令才能把这个cuda core(pipe)利用完全，好吧，又颠覆了自己的认知, 自学cuda真的好难😂
在这里插入图片描述