GPU 架构完全解析:从历史演进到 Jetson 实战
📺 本课B站视频讲解(Bilibili):https://www.bilibili.com/video/BV1k1C9BYEAB/
📘 《Yocto项目实战教程》京东购买链接:Yocto项目实战教程

1. GPU 是什么?为什么需要 GPU 架构?
当 CPU 的通用算力无法满足图形渲染与深度学习等大规模并行运算需求时,GPU 成为了必然选择。
| 项目 | GPU | CPU |
|---|---|---|
| 擅长任务 | 并行计算、矩阵运算、像素处理 | 逻辑判断、控制流程、系统调度 |
| 核心数量 | 数百~上万 GPU 核心 | 4~16 CPU 核心 |
| 执行方式 | SIMT(单指令多线程) | 串行逻辑执行 |
| 最佳场景 | AI、图形渲染、科学计算 | 操作系统、通用应用执行 |
📌 关键结论:
CPU 是大脑,GPU 是肌肉。
AI = 数学并行运算,而 GPU 正是为此而生。
没有 GPU,就没有深度学习时代。
2. GPU 架构 ≠ CPU 架构
很多开发者会问:
GPU 架构是否和 ARM 架构一样也是一种“指令集架构”?
答案是:并不是。
| 类型 | 含义 | 例子 |
|---|---|---|
| CPU 架构 = 指令集架构 | 定义通用计算指令与执行模式 | ARMv8、x86-64 |
| GPU 架构 = 并行处理微结构 | 关注并发算法与内存调度能力 | Maxwell、Volta、Ampere |
| GPU 指令集 | 厂商私有,不公开 | NVIDIA CUDA ISA |
📌 核心差异总结:
CPU 架构定义如何执行指令,GPU 架构定义如何提升并行效率
因此 GPU 架构主要关心:
- SM(Streaming Multiprocessor)流式多处理器设计
- CUDA Core 与 Tensor Core 的代际差异
- 显存/缓存结构与带宽调度能力
- Warp 执行效率
- AI 单元的增强方式
3. GPU 架构核心组成解析
GPU 的核心计算组织结构如下(以 NVIDIA 为例):
GPU
└── GPC(Graphics Processing Cluster)
├── SM(Streaming Multiprocessor)
│ ├── CUDA 核心
│ ├── Tensor Core(矩阵乘加单元)
│ ├── Warp Scheduler(并行调度器)
│ ├── Shared Memory(共享缓存)
│ └── SFU(特殊数学计算单元)
└── L2 Cache + 显存控制器
3.1 GPU 中各核心功能速览
| 单元 | 性能作用 |
|---|---|
| CUDA Core | 基础浮点运算与向量计算 |
| Tensor Core | 针对 AI 推理与训练的矩阵乘加加速 |
| SFU | 加速特殊数学函数(sin/cos/exp) |
| Warp Scheduler | 32 线程捆绑调度,提升并发 |
| Shared Memory | 降低显存访问延迟,提高数据复用 |
📌 Tensor Core 是 AI 性能指数级提升的关键
Jetson AGX Orin AI 性能能达 275 TOPS,就是因为 Ampere 架构加入第二代 Tensor Core。
3.2 GPU 如何执行指令:SIMT 机制
SIMT(Single Instruction Multiple Threads)执行模式:
- 一个 Warp = 32 个线程
- 同时执行一条指令
- 高度并发
对 AI 来说,矩阵运算都是重复操作,GPU 正好最擅长:
- 卷积(Conv2D)
- 全连接(GEMM)
- 激活函数并行计算
📌 一句话总结:
AI 的计算模式与 GPU 的并行设计天然匹配
3.3 GPU 性能评价指标
| 指标 | 含义 | 影响性能方向 |
|---|---|---|
| CUDA 核数量 | 基础算力 | 浮点吞吐 |
| Tensor Core 世代 | AI 单元版本 | INT8/FP16 推理性能 |
| Memory Bandwidth | 内存带宽性能 | 模型吞吐能力 |
| Compute Capability | 架构级能力版本 | TensorRT 加速特性 |
| TDP + 时钟 | 性能与功耗权衡 | 嵌入式能效比 |
以 Jetson Xavier vs Orin 为例:
| 参数对比 | Xavier | Orin | 提升来源 |
|---|---|---|---|
| GPU 架构 | Volta | Ampere | 架构升级 |
| CUDA Core | 512 | 2048 | 单元翻倍 |
| Tensor Core | 第一代 | 第二代 | AI矩阵性能暴涨 |
| 内存带宽 | 137GB/s | 204GB/s | 更高带宽 |
| AI 性能 | 32 TOPS | 275 TOPS | 架构+规模跃迁 |
📌 总结一句话:
GPU 架构越先进,AI 动力越强大,能效比越高。
4. GPU 架构发展脉络(以 NVIDIA 为主)
NVIDIA 的 GPU 架构升级是推动 AI 计算发展的关键力量。下表展示其主要架构演进:
| 架构代号 | 代表 GPU/SoC | 关键创新 | 对 AI 影响 |
|---|---|---|---|
| Tesla | GTX 200 系列 | GPGPU 概念引入 | CUDA 初代通用计算能力 |
| Fermi | GTX 400/500 | 双精度计算提升 | 科学计算可行 |
| Kepler | GTX 600/700 | 更高能效 | 大规模 GPU 集群基础 |
| Maxwell | GTX 900 / Jetson TX2 | 图形与能耗优化 | 嵌入式 GPU 普及 |
| Pascal | GTX 10 系列 | FP16 支持 | AI 推理性能起飞 |
| Volta | Titan V / Jetson Xavier | 第一代 Tensor Core | 深度学习计算爆炸式提升 |
| Turing | RTX 20 系列 | 光追 RT Core | 图形渲染革命 |
| Ampere | RTX 30 系列 / Jetson AGX Orin | 第二代 Tensor Core + 稀疏计算 | AI 能效大幅提升 |
📌 Jetson 系列 GPU 使用车规或嵌入式变体:
- TX2(Maxwell):入门 AI
- Xavier(Volta):引入 Tensor Core
- Orin(Ampere):AI 性能 275 TOPS
👇 架构差异导致性能代际跃迁:
Maxwell → Volta = AI 单元诞生
Volta → Ampere = AI 单元飞跃
5. Jetson 系列 GPU 架构深度解析
5.1 各 Jetson 对比图
| 型号 | GPU 架构 | CUDA | Tensor Core | AI 性能 | 典型应用 |
|---|---|---|---|---|---|
| Nano | Maxwell | 128 | ❌ | <1 TOPS | 入门计算机视觉 |
| TX2 | Maxwell | 256 | ❌ | 1.5 TOPS | 工业相机、机器人入门 |
| Xavier NX | Volta | 384 | ✔ | 21 TOPS | SLAM / 语音识别 |
| AGX Xavier | Volta | 512 | ✔ | 32 TOPS | 自动驾驶基础 |
| AGX Orin | Ampere | 2048 | ✔ | 275 TOPS | 工业 AI、机器人、车规 |
📌 重点:
Orin GPU(Ampere)性能 = Xavier 8 倍以上
同等功耗下能效提升巨大
5.2 Ampere 架构核心优势
| 优化方向 | 技术特点 | 实际收益 |
|---|---|---|
| Tensor Core | 第二代矩阵加速 | FP16/INT8 推理更快 |
| 稀疏计算 | 自动跳过 0 权重 | AI 速度 ≈ 提升 2 倍 |
| 显存体系 | L2 缓存提升、带宽增强 | 大模型吞吐提升 |
| 多引擎并行 | CUDA + NVDLA + PVA | 异构并行加速 |
📌 对嵌入式开发者而言:
能效比是决定选型的核心,而 Ampere 在这点上无敌。
6. GPU 在 AI 管线中的角色:CUDA + TensorRT
在 Jetson 系统中:
AI 应用
↓ TensorRT 加速
GPU(CUDA/ Tensor Core) + NVDLA
↓
运行高效推理
| 组件 | 功能 | 作用 |
|---|---|---|
| CUDA | GPU 编程模型 | 实现并行计算 |
| cuDNN | 深度学习算子库 | 差分卷积/归一化优化 |
| TensorRT | 模型推理引擎 | 图优化、半精度运算 |
| NVDLA | 深度学习加速器 | 离线或低功耗推理 |
| PVA | 视觉加速器 | 预处理/边缘检测 |
GPU 做主要数学任务,NVDLA + PVA 协同提效
7. GPU 选型建议:嵌入式产品如何选择?
| 产品定位 | 推荐 Jetson型号 | 理由 |
|---|---|---|
| 入门 CV/语音 | Nano / TX2 | 成本低、算力够用 |
| 差速机器人 / 人脸识别闸机 | Xavier NX | 性能与功耗平衡 |
| 工厂视觉检测 / 机械臂 | AGX Xavier | Tensor Core 稳定强大 |
| 自动驾驶 / 多相机融合 AI | AGX Orin | AI + IO + 并发全面领先 |
📌 总结一句话:
Orin 是未来 5 年嵌入式 AI 的主角
8. Jetson GPU 实战性能调优指南
影响 GPU 推理效率的核心要素:
| 调优方向 | 技术手段 | 实际收益 |
|---|---|---|
| 精度优化 | FP16 / INT8 量化 | 性能提升 2~4 倍 |
| 数据布局 | NHWC → Tensor Core 最优路径 | 降低访存瓶颈 |
| 多流并行 | CUDA Stream | CPU/GPU 协同提升 |
| 模型剪枝 | 稀疏性提升 | 加速 & 降低功耗 |
| TensorRT 图融合 | 自动 Kernel 优化 | 延迟大幅下降 |
示例命令:查看 GPU 状态
tegrastats
TensorRT 导出:
trtexec --onnx=model.onnx --saveEngine=model_fp16.engine
9. GPU 架构未来趋势
| 趋势 | 意义 | |
|---|---|---|
| 更深异构计算 | GPU + DLA + AI ISP 集成 | 节能 + 并发更强 |
| 车规算力爆发 | 自动驾驶的核心大脑 | 安全性、可预测性提升 |
| AI + 图形融合 | 实时渲染 + 认知计算 | 数字孪生落地 |
| 稀疏计算普及 | Tensor Core 自动提速 | 模型规模可继续扩展 |
📌 尤其是车规方向:
功耗、散热、稳定性比算力更重要
📌 全文总结
| 关键结论 | 描述 |
|---|---|
| GPU 架构强调并行与能效 | 与 CPU 设计目标完全不同 |
| Tensor Core 决定 AI 能力 | 架构代际 = AI 跃迁 |
| Ampere = 边缘 AI 最佳架构 | Jetson Orin 成为行业首选 |
| 嵌入式 AI 的未来 = 异构 | GPU + NVDLA + PVA 协同 |
CPU 负责逻辑,GPU 负责计算
Ampere 负责边缘 AI 的未来
GPU架构解析与Jetson实战

1561

被折叠的 条评论
为什么被折叠?



