GPGPU Tensor core和CUDA core的区别

最新推荐文章于 2025-11-11 10:23:34 发布

原创最新推荐文章于 2025-11-11 10:23:34 发布 · 246 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#GPGPU

部署运行你感兴趣的模型镜像

1. CUDA Core：

标量或者向量计算，用于FP64，FP32等高精度运算，支持通用的加减乘除、三角函数等运算，在进行矩阵计算时需要软件层面先分解为标量或者向量计算，运算效率低。
适用于精度敏感的科学计算、图形渲染、视频处理、非矩阵运算的深度学习计算任务。

2. Tensor Core：

矩阵运算的专用单元，对低精度运算做了优化如FP16，INT8，BF16等，专用大量深度学习中的张量（矩阵乘加）运算，如D = A*B +C，在硬件层面对矩阵乘加进行优化，减少内存访问次数，大幅提高运算效率。
转为深度学习（如神经网路）训练和推理设计。

您可能感兴趣的与本文相关的镜像

PyTorch 2.7

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

写点儿笔记

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

CUDA编程：概述

u013250861的博客

06-15

2202

ptr2 = 引用栈的P位置上，8个字节。ptr2 = G 把G复制到。

深入浅出之cuda编程概念

浩瀚之水的专栏

10-15

4819

在CUDA编程模型中，主机通常指的是CPU及其附属的内存资源。它是执行串行代码和进行设备管理的核心。

参与评论您还未登录，请先登录后发表或查看评论

Tensor Core的一些概念理解

Briwisdom的博客

01-14

2038

对CUDA Core来说，GPU并行模式实现深度学习模型的功能过于通用，比如常见的conv/GEMM操作，被编码为FMA（fused multiply-add）实现，硬件层面会把数据按照：寄存器-ALU-寄存器-ALU-寄存器，方式来回搬运。: 在CUDA架构中，共享内存是一个非常快速的内存类型，它位于每个线程块内部并为该线程块内的所有线程提供服务。理想的情况是，同一时钟周期内的所有线程访问的地址分布在不同的banks上，这样每个线程的访问都可以在一个时钟周期内被处理，从而实现最大的吞吐量。

菜叶子芯酸笔记3：GPU、GPGPU、CUDA之间的关系；CUDA之外；Tensor Core

qq_64955200的博客

10-26

1538

接手CPU传来的顶点数据，包括顶点的位置、法线、颜色、纹理坐标等，对其进行转换、光照处理以及坐标空间变换，计算得到每个顶点的最终属性。早期阶段，GPU的渲染管线被称为固定功能管线，此时渲染管线各阶段的处理单元是固定的，开发人员不可以改动，不能直接控制GPU内部的计算过程。主要发生在CPU中，CPU准备后续渲染所需的数据，将数据，包括3D模型的顶点、纹理、光照、摄像机参数等，发送给GPU。对以上得到的片元进行裁剪测试、透明度测试、深度测试、模板测试和混合等操作，然后写入到帧缓冲区，最终显示在计算机屏幕上。

深入了解英伟达GPU的CUDA核心

最新发布

m0_59601332的博客

11-11

911

不同的架构可能更有效地利用CUDA核心，这意味着拥有较少CUDA核心但架构更新、更先进的GPU，其性能可能超过核心数量更多但架构较老的GPU。Tensor核心的引入标志着AI驱动图形增强技术的重大飞跃，允许以更清晰的视觉效果和更流畅的帧率实现更具沉浸感的游戏体验。对于机器学习和AI应用，您需要的CUDA核心数量可能取决于您训练的模型的复杂性和数据集的大小。虽然CUDA核心为从3D渲染到科学计算的各种任务提供了通用计算能力，但Tensor核心和光线追踪核心提供了专用能力，将游戏和AI应用提升到新的高度。

英伟达的GPU(2)

周博洋的博客

05-18

958

简单说它就是NV自己的通用并行计算架构，是一种并行计算平台和编程模型，该架构使GPU能够解决复杂的计算问题，连接程序和GPU的核心，它一般情况用C来开发，3.0以后也提供了对其它编程语言的支持，如C/C++，Fortran等语言。OK今天就讲这些，大概把CUDA的编程知识点和硬件的关联性给大家理了一下，我第一篇就说过，CUDA core对于矩阵计算，实际上可以认为是向量对向量的乘然后并行，（A矩阵的行向量，去乘B矩阵的列向量）这也是大部分的GPU，NPU执行矩阵计算的逻辑，那有没有更好的方式呢？

CUDA Core 和 Tensor Core 的区别

shangjg3的博客

06-17

1324

NVIDIA GPU中的CUDA Core和Tensor Core是两种关键计算单元，具有不同的设计目标和适用场景。CUDA Core是通用计算单元，支持FP32/FP64高精度运算和复杂控制流，适用于科学计算和图形处理。而Tensor Core是专用矩阵运算单元，支持FP16/INT8混合精度，在深度学习训练和推理中提供8-16倍的性能提升。二者的主要差异体现在计算类型、精度支持、内存访问和编程模型上：Tensor Core通过自动批处理实现高效矩阵运算，而CUDA Core更适合通用并行计算。现代GPU

NVIDIA 显卡 CUDA Core 和 Tensor Core 特性及其区别

JiaWen的博客

12-07

5915

NVIDIA GeForce RTX 系列显卡广受欢迎，不仅因为其强大的图形处理能力，还因为它搭载了多种专用硬件单元，如这种硬件层面的分工协作，使 RTX 显卡在高性能图形计算和 AI 领域都表现出色。这两者在显卡的性能表现中发挥了重要作用，但它们的用途和功能却有显著差异。

Tensor Core 基本原理 CUDA Core Tensor Core RT CoreAI 工作负载线程束（Warp） CNN GEMM 混合精度训练

万有文的博客

05-01

4404

当 NVIDIA 的架构演进到 Volta 架构时，它标志着对深度学习优化的重大突破。Volta 架构的一个显著特点是引入了大量的 Tensor Core，这一变化对于加速深度学习应用产生了革命性的影响。在 Tensor Core 出现之前，CUDA Core 是实现深度学习加速的核心硬件技术。CUDA Core 可以处理各种精度的运算。如上图 Volta 架构图所示，左侧有 FP64、FP32 和 INT32 CUDA Cores 核心，右侧则是许多 Tensor Core 核心。CUDA Core。

Tensor Core技术解析（上）

吴建明wujianming_110117

05-30

2644

Tensor Core技术解析（上） NVIDIA在SIGGRAPH 2018上正式发布了新一代GPU架构——Turing（图灵），黄仁勋称Turing架构是自2006年CUDA GPU发明以来最大的飞跃。Turing架构的两大重要特性便是集成了用于光线追踪的RT Core以及用于AI计算的Tensor Core，使其成为了全球首款支持实时光线追踪的GPU。不过说到AI计算，NVIDIA GPU成为最好的加速器早已是公认的事实，但将Tensor Core印上GPU名片的并不是这次的Turing，而是他的上

CUDA和cuDNN什么区别如何安装下载cuda

deepseek01的博客

02-25

971

需编写 CUDA C/C++ 代码通过深度学习框架间接调用（如 Python API）通用计算（如科学模拟、图形处理）深度学习（如 CNN、RNN 训练）提供底层 GPU 编程接口和工具提供优化后的深度学习核心算法实现。基础平台，独立存在依赖 CUDA，需与 CUDA 版本匹配。如果你需要本地部署Deepseek可以联系站长。通用 GPU 计算平台深度学习专用加速库。

【CUDA深度学习加速】：Tensor Core与AI计算优化指南

本文综述了CUDA在深度学习加速中的应用和实践，首先介绍了CUDA加速技术的基本概念，然后深入探讨了Tensor Core的理论基础及其在深度学习中的应用。通过对硬件架构和编程模型的分析，文章阐述了如何高效利用CUDA进行...

【AI系统】SIMD & SIMT 与 CUDA 关系

ZOMI酱

11-28

965

前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析，结合 NVIDIA CUDA 实现对 SIMD 和 SIMT 进行了对比，本节将对不同并行的编程方式进行讲解，以英伟达 GPU 为例，讲解 GPU 的编程模型。

GPU(国内外发展，概念参数（CUDA,Tensor Core等），类别，如何选型，NPU,TPU)

weixin_48878618的博客

10-06

6688

从目前的市场看，人工智能（大模型）发展的快慢主要取决于算力，其次是算法。而算力又受限于GPU。

深入理解混合精度训练：从 Tensor Core 到 CUDA 编程

旷视开发者技术社区

12-20

3731

背景近年来，自动混合精度（Auto Mixed-Precision，AMP）技术在各大深度学习训练框架中作为一种使用简单、代价低廉、效果显著的训练加速手段，被越来越广泛地应用到算法研究中。...

Tensor core原理

weixin_39326879的博客

06-28

1万+

Tensor core是nvidia底层执行运算的硬件单元，不同于nvidia以往的cuda core(全浮点型），Tensor core是近几年推出来的、混合精度的、将累加和累乘放在一起的计算硬件；混合精度指的是在输入、输出的时候使用FP16,计算的时候使用FP32；在GPU编程中，"kernel"一词有特定的含义，与计算机操作系统中的内核不同。在GPU编程中，"kernel"是指在并行计算中由多个线程同时执行的函数。它是在GPU上执行的并行计算任务的入口点。

Tensor~Coresの使用方法

whaosoft143ai的博客

05-05

615

为此，我们需要在A矩阵的行和B矩阵的列上进行循环。本文介绍了TensorCore和其api wmma api的使用，和常规CUDA C开发不太一样的地方，就是它是warp-level的，这里需要切换下思路，其实可以把它想象成synchronized函数，warp中所有线程都在等待wmma中的流程执行完毕，可以从所有api都有sync结尾来引导出。如图下图所示，对于4x4x4矩阵乘法，FP16乘法的结果是一个完整精度的值，该值在进行4x4x4矩阵乘法的点积运算中与其他乘积一起累积在FP32操作中。 whao

CUDA Core理解

feng__shuai的博客

04-22

3034

背景也接触一两年GPU了, 最近发现对最基础的cuda core 反而不认识了，具体的原因是：当在《CUDA C编程权威指南》上看延迟隐藏的时候有很大的疑惑，为什么隐藏延迟需要的线程数=延迟*吞吐？当一个warp调度器发射一个除法指令给某一个cuda core的时候，假如需要5个时钟周期，那么应该是5个周期后才能接收下一个指令，但是根据书上的意思，cuda core 在下一个周期就可以接收另外有除法指令了，为什么？理解 cuda core是可以执行 32 位浮点加法、32 位浮点乘法、32 位到 8

Nvidia GPU架构 - Cuda Core，SM，SP等等傻傻分不清？