-
训练卡只看三档
-
顶配:H100/H200 ≈ 1 PFLOPS(FP8)+ 900 GB/s,贵但无敌;
-
平价:A100 80 GB ≈ 312 TFLOPS + 600 GB/s,云厂默认;
-
国产:Ascend 910B 64 GB ≈ 280 TFLOPS + 300 GB/s,已能训 70 B 模型。
-
-
中国特供 = 同芯少带宽
A800/H800/H20 把 NVLink 砍到 400 GB/s 甚至更低,多卡并行效率直接打 7 折,只适合单卡或 2-4 卡小集群。 -
消费级卡算力爆表却“缺显存、无互联”
RTX 4090 660 TFLOPS(FP16)> A100,但 24 GB 装不下 13 B fp16 模型,只能 QLoRA/推理,且多卡靠 PCIe,线性加速比差。 -
推理卡关键词:大显存 + 低功耗 + 高 INT8
L20 48 GB/275 W、T4 16 GB/70 W、含光 800 0 GB/100 W(用主存)——每瓦特 TOPS 最高,放数据中心做批量推理最划算。 -
国产推理卡:超大显存 + 低算力
MXC500 128 GB、寒武纪 370-X8 48 GB,显存比 H100 还大,算力却不到 200 TFLOPS,适合 KV-Cache 巨长的长文本/大 batch 推理,或做显存池子。 -
选卡口诀
训大模型:H100 > A100 80G > 910B 64G > 4090D(QLoRA)
长文本推理:H200 141G > L20 48G > MXC500 128G
边缘低功耗:T4 > L20 > 含光 800 > 昆仑芯 R200
多卡并行:NVLink 600 GB/s 以上才值得堆 8 卡,否则用 2-4 卡即可。
| 品牌 | 型号 | 显存容量 | FP32算力 (TFLOPS) | FP16/BF16算力 (TFLOPS) | INT8算力 (TOPS) | NVLink带宽 | 功耗 | 算力备注 | 备注 |
| NVIDIA | A100 | 40/80 GB | 19.5 | 312 | 312 | 600 GB/s | 400W | 所有算力值均为稠密值 | Ampere架构,数据中心主力 |
| NVIDIA | A800 | 40/80 GB | 19.5 | 312 | 312 | 400 GB/s | 400W | A100的中国特供版,NVLink带宽受限 | |
| NVIDIA | H100 | 80 GB | 34 | 990 | 1975 | 900 GB/s | 700W | Hopper架构,性能王者 | |
| NVIDIA | H800 | 80 GB | 34 | 990 | 1975 | 400 GB/s | 700W | H100的中国特供版,NVLink带宽受限 | |
| NVIDIA | H200 | 141 GB |

最低0.47元/天 解锁文章
4632

被折叠的 条评论
为什么被折叠?



