禁令解除48小时：141GB H20 跑满血实测，DeepSeek 性能超预期

Cloud云工场科技

已于 2025-07-18 15:30:02 修改

阅读量546

点赞数 16

CC 4.0 BY-SA版权

文章标签： java 服务器数据库

于 2025-07-18 15:24:48 首次发布

本文链接：https://blog.youkuaiyun.com/Cloudcsp/article/details/149446334

2025 年 7 月 15 日，英伟达 CEO 黄仁勋宣布了一个震动 AI 圈的消息：美国政府即日起解除 H20 芯片对华销售禁令，而就在禁令解除 48 小时后，云工场科技测试出详细数据--- 8 卡 141GB 显存的 H20 服务器，能流畅运行 671B 参数的满血版非量化 DeepSeek-R1 模型，推理吞吐量突破预期。

硬核实测：141GB H20 跑满血版非量化 DeepSeek 性能全面解析

测试环境配置

测试版本	DeepSeek-R1 671B 满血非量化版
测试框架	vllm 0.84
测试环境
GPU	NVIDIA H20 * 8 一台
显存	141 GB
处理器型号	Intel Xeon 系列
CPU	192 核
内存	2048 GB
本地存储	4*3.84 TB

测试数据

DeepSeek-R1 671B H20 141GB * 8 并发测试数据
序号	Request num	input	output	TTFT	总吞吐量
序号	Request num	input	output	TTFT	总吞吐量
1	1	256	256	0.1	32
2	1	1k	1k	0.1	32
3	1	2k	2k	0.1	32
4	10	256	256	0.3	177
5	10	1k	1k	0.6	186
6	10	2k	2k	0.9	208
7	50	256	256	0.8	634
8	50	1k	1k	1.9	682
9	50	2k	2k	2.8	707
10	100	256	256	0.8	1124
11	100	1k	1k	1.9	1100
12	100	2k	2k	2.8	1020

使用的 benchmark 测试命令：vllm bench serve --port 30000 --model $model_name --dataset-name random --served-model-name $served_model_name --random-input-len x --random-output-len x --num-prompts x --profile

关键性能测试结果

测试显示，

1.首 token 响应快：在测试的多个并发量下，首个 Token 的响应时间 (TTFT) 都保持在3秒以内（实测 0.1s - 2.8s），用户体验非常流畅，感觉不到任何延迟。

2.高并发吞吐大： H20 显卡展现出优秀的并发处理能力。在模拟 100 个用户同时提问（并发请求=100）的中高负载场景下：

处理短问题（输入/输出各 256 tokens），系统总吞吐量高达约 1124 tokens/s。
处理典型问题（输入/输出各 1K tokens），总吞吐量稳定在约 1100 tokens/s。
处理复杂问题/长对话（输入/输出各 2K tokens），总吞吐量仍能保持约 1020 tokens/s。

分场景性能趋势：

1.低并发场景 (<10 用户)：

响应极快： TTFT 始终低于 0.9 秒，用户几乎感觉不到等待。
吞吐未饱和：系统能力远未被充分利用，吞吐量相对较低（32-208 tokens/s），性能表现轻松自如。

2.中高并发场景 (50-100用户)：

响应依然迅速： TTFT 保持在 1.9 秒 (1K上下文) 到 2.8 秒 (2K上下文)，交互体验依然流畅。
吞吐大幅跃升：系统资源得到高效利用，总吞吐量急剧上升至 634 - 1124 tokens/s。
长上下文优势显现：在相同并发下，处理更长（1K/2K）的上下文通常能获得比短上下文（256）更高的吞吐量（尤其在并发50时最明显），充分体现了 vLLM 对长文本的优化效果。

3.极限场景 (100用户 + 长上下文 2K)：

响应可控： TTFT 为 2.8 秒，交互体验依然流畅。
吞吐维持高位：即使在此压力下，系统总吞吐量仍达 1020 tokens/s。

测试总结

测试场景	并发数	总吞吐量(tokens/s)	延迟(ms/token)	表现特点
简单问答(短输入/短输出)	100	1124	~0.9ms	吞吐极限：超低Token延迟！系统全力输出短内容，总吞吐最高。TTFT≈0.8s。
RAG 检索(长输入/短输出)	100	≈ 1100	≈ 0.9ms	吞吐维持极高(1100)，延迟极低。处理大量检索请求能力强。TTFT≈1.9s。

长文本生成(1K/1K)	100	1100	~0.9ms	稳健高效：即使百人并发生成 1K 长文本，吞吐仍达1100 tokens/s，延迟<1ms，非常流畅！TTFT≈1.9s。

云工场科技构建了全面的异构计算资源池，涵盖 NVIDIA 全系高性能 GPU（包括 141GB 显存 H20、L20、RTX 4090 等最新型号）、AMD w7900 以及国产算力三巨头（华为昇腾 910B 系列、百度昆仑芯 P800、燧原 S60）等等，可本地部署到就近机房，提供 DeepSeek、文心一言、华为盘古、LLaMA 等开源大模型。

通过严格的横向性能基准测试，我们验证了不同架构 GPU 在 LLM 推理、计算机视觉等场景的能效比差异，并为客户提供"算力租赁 + 算力智能调度 + 平台化交付"的完整 AI 服务体系，目前已在教育/工业/通信/交通等多领域成功落地，支撑其大模型部署、推理及场景化落地的全流程需求。