GPU 架构完全解析：从历史演进到 Jetson 实战

GPU架构解析与Jetson实战

最新推荐文章于 2025-11-24 15:08:00 发布

原创最新推荐文章于 2025-11-24 15:08:00 发布 · 948 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#架构 #linux #arm开发 #人工智能 #ai #数据库

AI 同时被 2 个专栏收录

52 篇文章

订阅专栏

NVIDIA

32 篇文章

订阅专栏

开源AI·十一月创作之星挑战赛 10w+人浏览 704人参与

GPU 架构完全解析：从历史演进到 Jetson 实战

📺 本课B站视频讲解（Bilibili）：https://www.bilibili.com/video/BV1k1C9BYEAB/

📘 《Yocto项目实战教程》京东购买链接：Yocto项目实战教程

在这里插入图片描述

1. GPU 是什么？为什么需要 GPU 架构？

当 CPU 的通用算力无法满足图形渲染与深度学习等大规模并行运算需求时，GPU 成为了必然选择。

项目	GPU	CPU
擅长任务	并行计算、矩阵运算、像素处理	逻辑判断、控制流程、系统调度
核心数量	数百～上万 GPU 核心	4～16 CPU 核心
执行方式	SIMT（单指令多线程）	串行逻辑执行
最佳场景	AI、图形渲染、科学计算	操作系统、通用应用执行

📌 关键结论：

CPU 是大脑，GPU 是肌肉。
AI = 数学并行运算，而 GPU 正是为此而生。

没有 GPU，就没有深度学习时代。

2. GPU 架构 ≠ CPU 架构

很多开发者会问：

GPU 架构是否和 ARM 架构一样也是一种“指令集架构”？

答案是：并不是。

类型	含义	例子
CPU 架构 = 指令集架构	定义通用计算指令与执行模式	ARMv8、x86-64
GPU 架构 = 并行处理微结构	关注并发算法与内存调度能力	Maxwell、Volta、Ampere
GPU 指令集	厂商私有，不公开	NVIDIA CUDA ISA

📌 核心差异总结：

CPU 架构定义如何执行指令，GPU 架构定义如何提升并行效率

因此 GPU 架构主要关心：

SM（Streaming Multiprocessor）流式多处理器设计
CUDA Core 与 Tensor Core 的代际差异
显存/缓存结构与带宽调度能力
Warp 执行效率
AI 单元的增强方式

3. GPU 架构核心组成解析

GPU 的核心计算组织结构如下（以 NVIDIA 为例）：

GPU
└── GPC（Graphics Processing Cluster）
     ├── SM（Streaming Multiprocessor）
     │     ├── CUDA 核心
     │     ├── Tensor Core（矩阵乘加单元）
     │     ├── Warp Scheduler（并行调度器）
     │     ├── Shared Memory（共享缓存）
     │     └── SFU（特殊数学计算单元）
     └── L2 Cache + 显存控制器

3.1 GPU 中各核心功能速览

单元	性能作用
CUDA Core	基础浮点运算与向量计算
Tensor Core	针对 AI 推理与训练的矩阵乘加加速
SFU	加速特殊数学函数（sin/cos/exp）
Warp Scheduler	32 线程捆绑调度，提升并发
Shared Memory	降低显存访问延迟，提高数据复用

📌 Tensor Core 是 AI 性能指数级提升的关键

Jetson AGX Orin AI 性能能达 275 TOPS，就是因为 Ampere 架构加入第二代 Tensor Core。

3.2 GPU 如何执行指令：SIMT 机制

SIMT（Single Instruction Multiple Threads）执行模式：

一个 Warp = 32 个线程
同时执行一条指令
高度并发

对 AI 来说，矩阵运算都是重复操作，GPU 正好最擅长：

卷积（Conv2D）
全连接（GEMM）
激活函数并行计算

📌 一句话总结：

AI 的计算模式与 GPU 的并行设计天然匹配

3.3 GPU 性能评价指标

指标	含义	影响性能方向
CUDA 核数量	基础算力	浮点吞吐
Tensor Core 世代	AI 单元版本	INT8/FP16 推理性能
Memory Bandwidth	内存带宽性能	模型吞吐能力
Compute Capability	架构级能力版本	TensorRT 加速特性
TDP + 时钟	性能与功耗权衡	嵌入式能效比

以 Jetson Xavier vs Orin 为例：

参数对比	Xavier	Orin	提升来源
GPU 架构	Volta	Ampere	架构升级
CUDA Core	512	2048	单元翻倍
Tensor Core	第一代	第二代	AI矩阵性能暴涨
内存带宽	137GB/s	204GB/s	更高带宽
AI 性能	32 TOPS	275 TOPS	架构+规模跃迁

📌 总结一句话：

GPU 架构越先进，AI 动力越强大，能效比越高。

4. GPU 架构发展脉络（以 NVIDIA 为主）

NVIDIA 的 GPU 架构升级是推动 AI 计算发展的关键力量。下表展示其主要架构演进：

架构代号	代表 GPU/SoC	关键创新	对 AI 影响
Tesla	GTX 200 系列	GPGPU 概念引入	CUDA 初代通用计算能力
Fermi	GTX 400/500	双精度计算提升	科学计算可行
Kepler	GTX 600/700	更高能效	大规模 GPU 集群基础
Maxwell	GTX 900 / Jetson TX2	图形与能耗优化	嵌入式 GPU 普及
Pascal	GTX 10 系列	FP16 支持	AI 推理性能起飞
Volta	Titan V / Jetson Xavier	第一代 Tensor Core	深度学习计算爆炸式提升
Turing	RTX 20 系列	光追 RT Core	图形渲染革命
Ampere	RTX 30 系列 / Jetson AGX Orin	第二代 Tensor Core + 稀疏计算	AI 能效大幅提升

📌 Jetson 系列 GPU 使用车规或嵌入式变体：

TX2（Maxwell）：入门 AI
Xavier（Volta）：引入 Tensor Core
Orin（Ampere）：AI 性能 275 TOPS

👇 架构差异导致性能代际跃迁：

Maxwell → Volta = AI 单元诞生
Volta → Ampere = AI 单元飞跃

5. Jetson 系列 GPU 架构深度解析

5.1 各 Jetson 对比图

型号	GPU 架构	CUDA	Tensor Core	AI 性能	典型应用
Nano	Maxwell	128	❌	<1 TOPS	入门计算机视觉
TX2	Maxwell	256	❌	1.5 TOPS	工业相机、机器人入门
Xavier NX	Volta	384	✔	21 TOPS	SLAM / 语音识别
AGX Xavier	Volta	512	✔	32 TOPS	自动驾驶基础
AGX Orin	Ampere	2048	✔	275 TOPS	工业 AI、机器人、车规

📌 重点：

Orin GPU（Ampere）性能 = Xavier 8 倍以上
同等功耗下能效提升巨大

5.2 Ampere 架构核心优势

优化方向	技术特点	实际收益
Tensor Core	第二代矩阵加速	FP16/INT8 推理更快
稀疏计算	自动跳过 0 权重	AI 速度 ≈ 提升 2 倍
显存体系	L2 缓存提升、带宽增强	大模型吞吐提升
多引擎并行	CUDA + NVDLA + PVA	异构并行加速

📌 对嵌入式开发者而言：

能效比是决定选型的核心，而 Ampere 在这点上无敌。

6. GPU 在 AI 管线中的角色：CUDA + TensorRT

在 Jetson 系统中：

AI 应用
  ↓ TensorRT 加速
GPU（CUDA/ Tensor Core） + NVDLA
  ↓
运行高效推理

组件	功能	作用
CUDA	GPU 编程模型	实现并行计算
cuDNN	深度学习算子库	差分卷积/归一化优化
TensorRT	模型推理引擎	图优化、半精度运算
NVDLA	深度学习加速器	离线或低功耗推理
PVA	视觉加速器	预处理/边缘检测

GPU 做主要数学任务，NVDLA + PVA 协同提效

7. GPU 选型建议：嵌入式产品如何选择？

产品定位	推荐 Jetson型号	理由
入门 CV/语音	Nano / TX2	成本低、算力够用
差速机器人 / 人脸识别闸机	Xavier NX	性能与功耗平衡
工厂视觉检测 / 机械臂	AGX Xavier	Tensor Core 稳定强大
自动驾驶 / 多相机融合 AI	AGX Orin	AI + IO + 并发全面领先

📌 总结一句话：

Orin 是未来 5 年嵌入式 AI 的主角

8. Jetson GPU 实战性能调优指南

影响 GPU 推理效率的核心要素：

调优方向	技术手段	实际收益
精度优化	FP16 / INT8 量化	性能提升 2～4 倍
数据布局	NHWC → Tensor Core 最优路径	降低访存瓶颈
多流并行	CUDA Stream	CPU/GPU 协同提升
模型剪枝	稀疏性提升	加速 & 降低功耗
TensorRT 图融合	自动 Kernel 优化	延迟大幅下降

示例命令：查看 GPU 状态

tegrastats

TensorRT 导出：

trtexec --onnx=model.onnx --saveEngine=model_fp16.engine

9. GPU 架构未来趋势

趋势	意义
更深异构计算	GPU + DLA + AI ISP 集成	节能 + 并发更强
车规算力爆发	自动驾驶的核心大脑	安全性、可预测性提升
AI + 图形融合	实时渲染 + 认知计算	数字孪生落地
稀疏计算普及	Tensor Core 自动提速	模型规模可继续扩展

📌 尤其是车规方向：

功耗、散热、稳定性比算力更重要

📌 全文总结

关键结论	描述
GPU 架构强调并行与能效	与 CPU 设计目标完全不同
Tensor Core 决定 AI 能力	架构代际 = AI 跃迁
Ampere = 边缘 AI 最佳架构	Jetson Orin 成为行业首选
嵌入式 AI 的未来 = 异构	GPU + NVDLA + PVA 协同