GPU、NPU、MPS：现代计算加速器的架构革命

最新推荐文章于 2025-05-10 18:15:00 发布

一休哥助手

最新推荐文章于 2025-05-10 18:15:00 发布

阅读量812

点赞数 23

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：架构

本文链接：https://blog.youkuaiyun.com/fudaihb/article/details/146917856

人工智能专栏收录该内容

94 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

一、计算加速器的演进图谱

1.1 算力需求爆炸的时代背景

AI模型参数增长：从AlexNet（6000万参数）到GPT-4（1.7万亿参数）
数据规模膨胀：全球数据量预计2025年达175ZB
实时性要求提升：自动驾驶需<100ms延迟决策

1.2 传统CPU的局限性

维度	CPU表现	AI计算需求	差距倍数
并行计算	数十核心	百万级并行	10^4
能效比	100 GFLOPS/W	10 TFLOPS/W	100x
专用指令集	通用指令	矩阵运算专用指令	N/A

二、GPU：通用并行计算的王者

2.1 架构演进路线

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一休哥助手

关注关注

23
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

如何使用 NVIDIA MPS 提高 Kubernetes 中的 GPU 利用率

iCloudEnd的博客

03-01

1313

时间分片多实例 GPU (MIG)多进程服务 (MPS)在深入了解动态 MPS 分区的演示之前，让我们先来概述一下这些技术。

如何通过CPU多核并行和GPU多核并行两种方式提升GPU的运算性能 Accelerating GPUs with Multithreading Programming

AI天才研究院

08-05

1721

GPU(Graphics Processing Unit)多核并行处理单元是当前科技领域里最热门的硬件之一。如今GPU已经集成在笔记本电脑、平板电脑、服务器和手机等各类设备中。由于其高性能的计算能力及其独特的编程模型（比如CUDA），使得GPU在科技界占有重要地位。同时，GPU的多线程编程技术也越来越受到关注。本文将从多线程编程的基本概念出发，介绍基于CUDA编程模型的多线程编程技术。然后，介绍如何通过CPU多核并行和GPU多核并行两种方式提升GPU的运算性能。

参与评论您还未登录，请先登录后发表或查看评论

判断 Mac显卡 mps 是否可以正常运行

专注于AI领域前沿技术学习与分享：目标检测、图像修复、超分重建、AI工程化

07-13

4903

使用 Apple 的作为 PyTorch 的后端来启用加速 GPU 训练。MPS 后端扩展了 PyTorch 框架，提供了在 Mac 上设置和运行操作的脚本和功能。MPS 使用针对每个 Metal GPU 系列的独特特性进行微调的内核来优化计算性能。新设备将机器学习计算图和基元映射到 MPS 提供的 MPS Graph 框架和优化内核上。

MAC使用MPS进行GPU深度模型训练（MPS替代CUDA）

riemann_的博客

01-11

2290

随着深度学习的广泛应用，硬件加速成为了模型训练的重要因素。GPU凭借其强大的并行计算能力，已经成为深度学习训练的首选设备。然而，在不同的操作系统上，由于硬件厂商和软件生态的差异，GPU加速的实现方式也各有不同。在Windows和Linux系统中，CUDA（Compute Unified Device Architecture）是由NVIDIA提供的GPU计算框架，得益于NVIDIA显卡的广泛使用和成熟的软件生态，CUDA已经成为深度学习领域事实上的标准。

公司来了个大神，把GPU算力榨干了...

最新发布

weixin_51702416的博客

05-10

970

MPS（Multi-Process Service）是一种支持多任务模式的方法，它跟网络、框架（PyTorch/Tensorflow/others）无关，只跟任务数量以及硬件相关，由于尝试成本比较低，那就试一下吧，收获还不小，简单聊一点。至于能学习到多少就看你的学习毅力和能力了。没错，MPS 让利用率变低了，86%→53%，为什么会降低，结合上面对 GPU 利用率的解释不难理解，在共享模式下，由于两个任务可以同时干活，所以反而对 GPU 的占用时间变小了，nvidia-smi 上看到的利用率就变低了。

NVIDIA MPS详解

二爷的博客

06-13

3134

MPS多进程服务（Multi-Process Scheduling）是CUDA应用程序编程接口（API）的替代二进制兼容实现。从Kepler的GP10架构开始，NVIDIA就引入了MPS（基于软件的多进程服务），这种技术在当时实际上是称为HyperQ ，允许多个流（stream）或者CPU的进程同时向GPU发射Kernel函数，结合为一个单一应用程序的上下文在GPU上运行，从而实现更好的GPU利用率。在单个进程的任务处理，对GPU利用率不高的情况下是非常有用的。

MPS 后端

AI工程化、开源分享、文档翻译、代码笔记

07-16

451

它引入了新的设备，将机器学习计算图和原语映射到 Metal Performance Shaders 图框架和 Metal Performance Shaders 框架提供的经过优化的内核上。新的 MPS 后端扩展了 PyTorch 生态系统，并为现有脚本提供在 GPU 上设置和运行操作的功能。设备支持在使用 Metal 编程框架的 MacOS 设备上，进行高性能 GPU 训练。要开始使用，只需将您的张量和模块移动到。2024-07-16（二）

cpu gpu npu xpu的大全和各个详解

完颜振江

04-18

2242

GPU 调度策略架构与CUDA运行机制（二）

生活需要深度

07-15

5124

说到GPU估计大家都不陌生，但是提起gpu底层的一些架构以及硬件层一些调度策略的话估计大部分人就很难说的上熟悉了。当然这个不是大家的错，主要是因为Nv gpu的整个生态都是闭源的，所以大家了解起来就会有一些障碍。最近这半年笔者有幸参与了一些gpu的项目，在这个过程当中也花了一些时间去理了一下gpu相关的东西，故借这篇文章给大家简单介绍一下。下面的行文将基于以下三个层面进行阐述：CUDA编程模型GPU 底层硬件架构硬件层的调度策略gpu上的其他细节还有很多，笔者这篇文章就当作抛砖引玉了。

广告深度学习计算：异构硬件加速实践

阿里妈妈技术

12-22

1253

丨目录：- 前沿1. 算力需求与供给1.1 算力需求：模型复杂度1.2 算力供给：异构硬件计算能力1.3 问题与优化方法2. 算法-系统-硬件协同性能优化2.1 算法优化2.2 系统优化：...

【芯片原理】NPU矩阵乘法加速详解

HaoBBNuanMM的博客

10-11

1万+

概述深度学习模型中费时的算子是往往是卷积操作，而卷积的本质是矩阵的乘加计算，所以通过硬件加速矩阵的乘加运算就能达到加速深度学习训练与推理的目标；本文旨在形象化的解释Google TPU与Nvidia TensorCore对矩阵乘加的加速过程 Nvidia TensorCore NV TensorCore 加速矩阵乘加运算示意图 Nvidia官方给出的TensorCore 加速矩阵...

MPS（多进程服务器）解决多进程占用GPU问题.rar

03-11

目标为了解决单GPU只有一个CONTEXT，在多进程调度的时候只能串行化运行，利用MPS机制可以解决这个问题

Kubernetes容器平台下的 GPU 集群算力管控

alauda_andy的博客

03-28

2449

这种结合将充分发挥每块显卡的算力，并通过 Kubernetes 的弹性伸缩特性，实现对 GPU 算力的灵活调度和管理，为大规模 AI 模型的训练和推理提供了可靠的基础支持。在单个进程的任务处理，对GPU利用率不高的情况下是非常有用的。GPU 虚拟化，除了 GPU 厂商能够在硬件和驱动层面对各种资源进行划分进而形成隔离的虚拟化方案之外，其他主流方案本质上都是对 CUDA 调用的劫持与管控，这里包括阿里的 cGPU、百度的 qGPU、火山引擎的 mGPU 和灵雀云的 vGPU 方案等。

最新NPU芯片详解及应用场景

SDJ_success的博客

02-17

2881

近年来，NPU（神经网络处理器）技术快速发展，各大厂商推出多款高性能AI加速芯片，覆盖从端侧设备到云端数据中心的多样化需求。这些最新NPU芯片正在推动生成式AI、自动驾驶、元宇宙等领域的革命性进步，同时持续优化能效比与成本，未来将进一步渗透至工业、医疗、农业等垂直行业。：CPU+GPU+NPU融合（如苹果M3 Ultra、AMD Ryzen AI）。：微型NPU（<1W功耗）推动IoT设备AI化（如Arm Ethos-U55）。：3nm/2nm工艺与存算一体设计（如三星MRAM NPU）。

一文搞懂深度学习加速单元NPU的量化原理

tugouxp的专栏

01-05

4485

量化带来的好处有很多，首先，由于神经网络对数据精度的不敏感，通过量化将参数从4byte float转换位1byte，减少了数据量，可以使用容量更小的存储设备，节省了成本；其次，量化带来计算效率的提升，单位时间，单位能效内的计算成果多了，或者说，同样的算力需求的模型，所消费的时间和能量少了，结果就是又快又省电，现在的移动终端都是用电池供电的，也就意味着更久的续航和更好的体验，量化的好处很多很多，但是在那时只能想到这么多，后面有时间再补充。量化虽好，也有一个问题，就是比较难以理解，尤其是结合复杂的网络拓扑

【MacOS】MacBook使用本机m1芯片GPU训练的方法（mps替代cuda）

热门推荐

wangzaiyouzr的博客

04-13

2万+

使用Mac M1芯片加速 pytorch 不需要安装 cuda后端，因为cuda是适配nvidia的GPU的，Mac M1芯片中的GPU适配的加速后端是mps，在Mac对应操作系统中已经具备，无需单独安装。只需要安装适配的pytorch即可。mps用法和cuda很像，只是将“cuda”改为“mps”

【NPU 系列专栏 1.1 -- NPU TOPS 算力的计算方式】

CodingCos的博客

07-25

1788

MAC（Multiply-Accumulate）阵列是电子计算领域中的一个基本单元，广泛应用于数字信号处理（DSP）、神经网络加速以及其他需要高效数学计算的领域。MAC 单元能够执行乘积累加运算，即在一个操作周期内同时进行乘法和加法运算。

关于NPU处理器

qq_35037684的博客

05-21

3009

npu指的是“嵌入式神经网络处理器”，采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体数据。NPU处理器专门为物联网人工智能而设计，用于加速神经网络的运算，解决传统芯片在神经网络运算时效率低下的问题。在GX8010中，CPU和MCU各有一个NPU，MCU中的NPU相对较小，习惯上称为SNPU。 NPU处理器包括了乘加、激活函数、二维数据运算、解压缩等模块。乘加模块用于计算矩阵乘加、卷积、点乘等功能，NPU内部有64个MAC，SNPU有32个。激活函数模块采用最高12阶参数拟合的方式

CPU GPU和NPU

02-14

### CPU、GPU 和 NPU 的区别及其应用场景 #### 中央处理器 (CPU) 中央处理器(CPU)，通常被称为计算机的大脑，设计用于处理广泛类型的计算任务。这些任务包括但不限于运行操作系统功能、管理输入输出操作以及执行应用程序逻辑。现代多核CPU能够高效地分配资源来并发处理多个线程的任务[^1]。对于批处理大小设置，默认每设备训练批次大小为8，适用于CPU核心的配置说明也体现了这一点。这意味着，在训练期间，每个CPU核心会接收固定数量的数据样本进行处理，以此平衡负载并提升效率。 ```python per_device_train_batch_size: int = field( default=8, metadata={"help": "Batch size per GPU/TPU/MPS/NPU core/CPU for training."} ) ``` #### 图形处理器 (GPU) 图形处理器(GPU)最初是为了加速图像渲染而设计的硬件单元，但随着技术的发展，其应用范围已经扩展到通用计算领域。相比于传统CPU，GPU拥有更多的处理单元(ALUs)，特别适合大规模矩阵运算和平行数据流处理。因此，在机器学习特别是深度学习方面表现尤为突出，因为这类算法往往涉及大量相似结构化的重复计算工作[^2]。当涉及到评估阶段时，同样采用默认值8作为每设备评测批次尺寸，表明即使是在不同架构下（如GPU），保持一致性的批量规模有助于维持稳定性和可预测性。 ```python per_device_eval_batch_size: int = field( default=8, metadata={"help": "Batch size per GPU/TPU/MPS/NPU core/CPU for evaluation."} ) ``` #### 神经网络处理器 (NPU) 神经网络处理器(NPU)是一种专门为人工智能推理和训练定制优化过的集成电路芯片。相较于其他两种类型，NPUs更专注于支持特定的人工智能框架和技术栈，比如TensorFlow或PyTorch等，并且内置了许多针对卷积层、激活函数以及其他常见AI组件的高度专业化指令集和支持库。这使得它们能够在更低能耗的情况下实现更高的吞吐量和更快的速度，非常适合部署在边缘端设备上完成实时分析任务。例如，在移动平台上，通过利用像苹果公司的Metal API这样的接口，可以更好地发挥出集成在其SoC内部的小型专用AI协处理器——即所谓的“Apple Neural Engine”的潜力，从而显著改善用户体验的同时减少延迟时间。