主流GPU机型比较

原创于 2025-12-09 10:12:50 发布 · 323 阅读

CC 4.0 BY-SA版权

文章标签：

•	定位：
•	3090：偏消费级/个人深度学习卡
•	A100：通用数据中心训练卡
•	L20：偏推理+中等训练的新一代数据中心卡
•	910B：华为 NPU，专攻 AI 训练/推理（非 CUDA 体系）

FP16/BF16 算力大致排序：

👉 910B ≳ A100 ≫ L20 ＞ 3090（按官方峰值 FP16/BF16 Tensor 来看）

显存容量排序：

👉 A100 80G ≥ 910B（64G 级） ＞ L20 48G ＞ 3090 24G

显存带宽排序（粗略）：

👉 A100（≈1.9–2.0 TB/s） ≳ 910B（400 GB/s – 1.2 TB/s，看版本） ＞ L20（864 GB/s） ＞ 3090（936 GB/s 但 GDDR6X，非 HBM）

⸻

核心规格对比表（典型版本）

⸻

用“你刚才问的几个维度”来总结差距

① 纯理论算力（主要看 FP16/BF16 Tensor）
• A100：
312 TFLOPS FP16/BF16 Tensor（不含稀疏），算是“老牌训练主力”。
• 910B：
公开信息大多在 320 TFLOPS FP16 左右，同一量级，个别实测场景能略超 A100（有报告称大模型训练效率可以达到 A100 的 80% 水平、个别测试甚至高出 20%）。
• L20：
单精度 FP32 有 59.8 TFLOPS，看上去很猛，但 Tensor Core 设计偏推理方向，整体训练算力仍低于 A100/910B 一档，胜在能效比、价格和算力监管友好。
• 3090：
只有 ~35.6 TFLOPS FP32，Tensor Core FP16 算力算“够用”，但跟上面几张数据中心卡相比就是“小钢炮对大炮”。

如果只看“训练大模型单卡极限”：910B ≈ A100 ≫ L20 ＞ 3090。

⸻

② 显存容量 & 带宽
容量：
• A100 80G ＞ 910B（64G 级）＞ L20 48G ＞ 3090 24G
• 对大模型训练来说，显存往往比 TFLOPS 更先成为瓶颈。
带宽：
• A100 HBM2e：≈1.9–2.0 TB/s，非常凶。
• 910B：HBM2e/3e，版本不同，带宽从 400 GB/s 到 1.2 TB/s 不等。
• L20：864 GB/s，推理足够，训练中等规模模型也 OK。
• 3090：936 GB/s GDDR6X，比 L20 带宽略高，但 GDDR 延迟更高，整体不如 HBM 体系适合超大规模训练。

直观理解：
• 训练/推理“吃显存带宽”，A100 在这几个里最强，910B 某些版本接近。
• 3090 虽然也有 900+ GB/s，但定位是游戏卡 + 小规模训练卡，持续满负载场景下发热、功耗都会比较暴躁。

⸻

③ 能效 & 运维视角
功耗：
• 3090：350 W
• A100 80G PCIe：300 W
• L20：275 W
• 910B：约 350 W 级
• 如果以 “每瓦 FP16/BF16 Tensor 算力” 来看：
• L20 的能效比不错但总算力有限，更适合作为“推理池子”；
• A100 / 910B 属于“重型训练卡”，能效比也不错，但核心卖点是绝对算力和 HBM 带宽。

⸻

④ 软件生态 & 使用门槛
• 3090 / A100 / L20：
统一走 CUDA 生态，你现在所有的 PyTorch / TensorFlow / vLLM / Triton 之类，都是天然友好。
• 910B：
必须走 CANN + MindSpore / Ascend 版 PyTorch 这条链路；
生态、文档、踩坑成本，都明显高于 CUDA 阵营，但在国内“算力合规 + 供货稳定”是它的大优势。

⸻

如果你要“算算自己机房的整体算力”，可以这样粗估

假设你有：
• n₁ 张 3090
• n₂ 张 A100 80G
• n₃ 张 L20 48G
• n₄ 张 910B

可以粗略估一个 FP16/BF16 Tensor 理论总算力（单位 TFLOPS）：
• A100：312 × n₂
• 910B：320 × n₄（按典型值）
• L20：可以按“假设 150 TFLOPS 级别”估一个上限；
• 3090：可以粗略按 “50–80 TFLOPS 级别” 估算（只是量级，不要当精确值）。

然后乘上一个利用率系数 η（0.5～0.8），就是你集群的大致有效算力。