禁令解除48小时:141GB H20 跑满血实测,DeepSeek 性能超预期

2025 年 7 月 15 日,英伟达 CEO 黄仁勋宣布了一个震动 AI 圈的消息:美国政府即日起解除 H20 芯片对华销售禁令,而就在禁令解除 48 小时后,云工场科技测试出详细数据--- 8 卡 141GB 显存的 H20 服务器,能流畅运行 671B 参数的满血版非量化 DeepSeek-R1 模型,推理吞吐量突破预期。

硬核实测:141GB H20 跑满血版非量化 DeepSeek 性能全面解析 

测试环境配置

测试版本

DeepSeek-R1 671B 满血非量化版

测试框架

vllm 0.84

测试环境

GPU

NVIDIA H20 * 8 一台

显存

141 GB

处理器型号

Intel Xeon 系列

CPU

192 核

内存

2048 GB

本地存储

4*3.84 TB

测试数据

DeepSeek-R1 671B H20 141GB * 8 并发测试数据

序号

Request num

input

output

TTFT

总吞吐量

1

1

256

256

0.1

32

2

1

1k

1k

0.1

32

3

1

2k

2k

0.1

32

4

10

256

256

0.3

177

5

10

1k

1k

0.6

186

6

10

2k

2k

0.9

208

7

50

256

256

0.8

634

8

50

1k

1k

1.9

682

9

50

2k

2k

2.8

707

10

100

256

256

0.8

1124

11

100

1k

1k

1.9

1100

12

100

2k

2k

2.8

1020

使用的 benchmark 测试命令:vllm bench serve  --port 30000   --model $model_name --dataset-name random  --served-model-name $served_model_name --random-input-len x  --random-output-len x --num-prompts x --profile

关键性能测试结果 

测试显示,

1.首 token 响应快: 在测试的多个并发量下,首个 Token 的响应时间 (TTFT) 都保持在3秒以内(实测 0.1s - 2.8s),用户体验非常流畅,感觉不到任何延迟。

2.高并发吞吐大: H20 显卡展现出优秀的并发处理能力。在模拟 100 个用户同时提问(并发请求=100)的中高负载场景下:

  • 处理短问题(输入/输出各 256 tokens),系统总吞吐量高达 约 1124 tokens/s。

  • 处理典型问题(输入/输出各 1K tokens),总吞吐量稳定在 约 1100 tokens/s。

  • 处理复杂问题/长对话(输入/输出各 2K tokens),总吞吐量仍能保持 约 1020 tokens/s。

分场景性能趋势:

1.低并发场景 (<10 用户):

  • 响应极快: TTFT 始终低于 0.9 秒,用户几乎感觉不到等待。

  • 吞吐未饱和: 系统能力远未被充分利用,吞吐量相对较低(32-208 tokens/s),性能表现轻松自如。

2.中高并发场景 (50-100用户):

  • 响应依然迅速: TTFT 保持在 1.9 秒 (1K上下文) 到 2.8 秒 (2K上下文),交互体验依然流畅。

  • 吞吐大幅跃升: 系统资源得到高效利用,总吞吐量急剧上升至 634 - 1124 tokens/s。

  • 长上下文优势显现: 在相同并发下,处理更长(1K/2K)的上下文通常能获得比短上下文(256)更高的吞吐量(尤其在并发50时最明显),充分体现了 vLLM 对长文本的优化效果。

3.极限场景 (100用户 + 长上下文 2K):

  • 响应可控: TTFT 为 2.8 秒,交互体验依然流畅。

  • 吞吐维持高位: 即使在此压力下,系统总吞吐量仍达 1020 tokens/s。

测试总结 

测试场景

并发数

总吞吐量(tokens/s)

延迟(ms/token)

表现特点

简单问答(短输入/短输出)

100

1124

~0.9ms

吞吐极限: 超低Token延迟!系统全力输出短内容,总吞吐最高。TTFT≈0.8s。

RAG 检索(长输入/短输出)

100

≈ 1100

≈ 0.9ms

吞吐维持极高(1100),延迟极低。处理大量检索请求能力强。TTFT≈1.9s。

长文本生成(1K/1K)

100

1100

~0.9ms

稳健高效: 即使百人并发生成 1K 长文本,吞吐仍达1100 tokens/s,延迟<1ms,非常流畅!TTFT≈1.9s。

云工场科技构建了全面的异构计算资源池,涵盖 NVIDIA 全系高性能 GPU(包括 141GB 显存 H20、L20、RTX 4090 等最新型号)、AMD w7900 以及国产算力三巨头(华为昇腾 910B 系列、百度昆仑芯 P800、燧原 S60)等等,可本地部署到就近机房,提供 DeepSeek、文心一言、华为盘古、LLaMA 等开源大模型。

通过严格的横向性能基准测试,我们验证了不同架构 GPU 在 LLM 推理、计算机视觉等场景的能效比差异,并为客户提供"算力租赁 + 算力智能调度 + 平台化交付"的完整 AI 服务体系,目前已在教育/工业/通信/交通等多领域成功落地,支撑其大模型部署、推理及场景化落地的全流程需求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值