• 定位:
• 3090:偏消费级/个人深度学习卡
• A100:通用数据中心训练卡
• L20:偏推理+中等训练的新一代数据中心卡
• 910B:华为 NPU,专攻 AI 训练/推理(非 CUDA 体系)
FP16/BF16 算力大致排序:
👉 910B ≳ A100 ≫ L20 > 3090(按官方峰值 FP16/BF16 Tensor 来看)
显存容量排序:
👉 A100 80G ≥ 910B(64G 级) > L20 48G > 3090 24G
显存带宽排序(粗略):
👉 A100(≈1.9–2.0 TB/s) ≳ 910B(400 GB/s – 1.2 TB/s,看版本) > L20(864 GB/s) > 3090(936 GB/s 但 GDDR6X,非 HBM)
⸻
- 核心规格对比表(典型版本)

⸻
- 用“你刚才问的几个维度”来总结差距
① 纯理论算力(主要看 FP16/BF16 Tensor)
• A100:
312 TFLOPS FP16/BF16 Tensor(不含稀疏),算是“老牌训练主力”。 
• 910B:
公开信息大多在 320 TFLOPS FP16 左右,同一量级,个别实测场景能略超 A100(有报告称大模型训练效率可以达到 A100 的 80% 水平、个别测试甚至高出 20%)。
• L20:
单精度 FP32 有 59.8 TFLOPS,看上去很猛,但 Tensor Core 设计偏推理方向,整体训练算力仍低于 A100/910B 一档,胜在能效比、价格和算力监管友好。 
• 3090:
只有 ~35.6 TFLOPS FP32,Tensor Core FP16 算力算“够用”,但跟上面几张数据中心卡相比就是“小钢炮对大炮”。
如果只看“训练大模型单卡极限”:910B ≈ A100 ≫ L20 > 3090。
⸻
② 显存容量 & 带宽
容量:
• A100 80G > 910B(64G 级) > L20 48G > 3090 24G
• 对大模型训练来说,显存往往比 TFLOPS 更先成为瓶颈。
带宽:
• A100 HBM2e:≈1.9–2.0 TB/s,非常凶。
• 910B:HBM2e/3e,版本不同,带宽从 400 GB/s 到 1.2 TB/s 不等。
• L20:864 GB/s,推理足够,训练中等规模模型也 OK。
• 3090:936 GB/s GDDR6X,比 L20 带宽略高,但 GDDR 延迟更高,整体不如 HBM 体系适合超大规模训练。
直观理解:
• 训练/推理“吃显存带宽”,A100 在这几个里最强,910B 某些版本接近。
• 3090 虽然也有 900+ GB/s,但定位是游戏卡 + 小规模训练卡,持续满负载场景下发热、功耗都会比较暴躁。
⸻
③ 能效 & 运维视角
功耗:
• 3090:350 W
• A100 80G PCIe:300 W
• L20:275 W
• 910B:约 350 W 级
• 如果以 “每瓦 FP16/BF16 Tensor 算力” 来看:
• L20 的能效比不错但总算力有限,更适合作为“推理池子”;
• A100 / 910B 属于“重型训练卡”,能效比也不错,但核心卖点是绝对算力和 HBM 带宽。
⸻
④ 软件生态 & 使用门槛
• 3090 / A100 / L20:
统一走 CUDA 生态,你现在所有的 PyTorch / TensorFlow / vLLM / Triton 之类,都是天然友好。
• 910B:
必须走 CANN + MindSpore / Ascend 版 PyTorch 这条链路;
生态、文档、踩坑成本,都明显高于 CUDA 阵营,但在国内“算力合规 + 供货稳定”是它的大优势。
⸻
- 如果你要“算算自己机房的整体算力”,可以这样粗估
假设你有:
• n₁ 张 3090
• n₂ 张 A100 80G
• n₃ 张 L20 48G
• n₄ 张 910B
可以粗略估一个 FP16/BF16 Tensor 理论总算力(单位 TFLOPS):
• A100:312 × n₂
• 910B:320 × n₄(按典型值)
• L20:可以按“假设 150 TFLOPS 级别”估一个上限;
• 3090:可以粗略按 “50–80 TFLOPS 级别” 估算(只是量级,不要当精确值)。
然后乘上一个 利用率系数 η(0.5~0.8),就是你集群的大致有效算力。
2855

被折叠的 条评论
为什么被折叠?



