1. CUDA Core:
- 标量或者向量计算,用于FP64,FP32等高精度运算,支持通用的加减乘除、三角函数等运算,在进行矩阵计算时需要软件层面先分解为标量或者向量计算,运算效率低。
- 适用于精度敏感的科学计算、图形渲染、视频处理、非矩阵运算的深度学习计算任务。
2. Tensor Core:
- 矩阵运算的专用单元,对低精度运算做了优化如FP16,INT8,BF16等,专用大量深度学习中的张量(矩阵乘加)运算,如D = A*B +C,在硬件层面对矩阵乘加进行优化,减少内存访问次数,大幅提高运算效率。
- 转为深度学习(如神经网路)训练和推理设计。
2202

被折叠的 条评论
为什么被折叠?



