算力卡性能指标

原创

已于 2025-11-05 09:10:57 修改 · 440 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-11-04 22:20:13 首次发布

训练卡只看三档
1. 顶配：H100/H200 ≈ 1 PFLOPS（FP8）+ 900 GB/s，贵但无敌；
2. 平价：A100 80 GB ≈ 312 TFLOPS + 600 GB/s，云厂默认；
3. 国产：Ascend 910B 64 GB ≈ 280 TFLOPS + 300 GB/s，已能训 70 B 模型。
中国特供 = 同芯少带宽
A800/H800/H20 把 NVLink 砍到 400 GB/s 甚至更低，多卡并行效率直接打 7 折，只适合单卡或 2-4 卡小集群。
消费级卡算力爆表却“缺显存、无互联”
RTX 4090 660 TFLOPS（FP16）> A100，但 24 GB 装不下 13 B fp16 模型，只能 QLoRA/推理，且多卡靠 PCIe，线性加速比差。
推理卡关键词：大显存 + 低功耗 + 高 INT8
L20 48 GB/275 W、T4 16 GB/70 W、含光 800 0 GB/100 W（用主存）——每瓦特 TOPS 最高，放数据中心做批量推理最划算。
国产推理卡：超大显存 + 低算力
MXC500 128 GB、寒武纪 370-X8 48 GB，显存比 H100 还大，算力却不到 200 TFLOPS，适合 KV-Cache 巨长的长文本/大 batch 推理，或做显存池子。
选卡口诀
训大模型：H100 > A100 80G > 910B 64G > 4090D（QLoRA）
长文本推理：H200 141G > L20 48G > MXC500 128G
边缘低功耗：T4 > L20 > 含光 800 > 昆仑芯 R200
多卡并行：NVLink 600 GB/s 以上才值得堆 8 卡，否则用 2-4 卡即可。