1 GPU基本概念
1.1 CUDA
CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。
CUDA核心数量决定了GPU并行处理的能力,在深度学习、机器学习等并行计算类业务下,CUDA核心多意味着性能好一些。
1.2 Tensor(张量) 内核
CUDA是NVIDIA推出的统一计算架构,NVIDIA过去的几乎每款GPU都有CUDA Core,而Tensor Core是最近几年才有的,Tensor Core是专为执行张量或矩阵运算而设计的专用执行单元,而这些运算正是深度学习所采用的核心计算函数。Tensor核心在训练方面能够提供高达12倍的teraflops (TFLOPS) 峰值,而在推理方面则可提供6倍的TFLOPS峰值。每个Tensor核心每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。

1.3 TFLOPS
FLOPS,即每秒浮点运算次数(亦称每秒峰值速度)是每秒所执行的浮点运算次数(英文:Floating-point operations per second;缩写:FLOPS)的简称,被用来评估电脑效能,尤其是在使用到大量浮点运算的科学计算领域中。
1.4 显存容量
显存容量:其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据。显存容量大小决定了GPU能够加载的数据量大小。(在显存已经可以满足客户业务的情况下,提升显存不会对业务性能带来大的提升。在深度学习、机器学习的训练场景,显存的大小决定了

本文介绍了GPU的基本概念,包括CUDA平台、TensorCore在深度学习中的作用、TFLOPS作为性能指标的含义、显存容量与位宽的重要性。此外,还梳理了NVIDIA的GPU架构发展历程,从G80到Ampere,并提及了英伟达在不同场景下的GPU产品分类,如Tesla、Quadro和GeForce。最后,提到了GPU市场的份额情况,NVIDIA占据了大部分独立GPU市场。
最低0.47元/天 解锁文章
1388

被折叠的 条评论
为什么被折叠?



