一、背景
经过几天的实际使用,发现当并发数达到一定阈值时,性能出现下降。为进一步评估和优化集群性能,现对已部署的 DeepSeek-r1 推理集群进行深入的性能压测。选型LLM 性能压测工具经过调研,选择 推理引擎 SGLang 自带的 sglang.bench_serving 基准测试工具,以及 Locust 和 EvalScope 两款成熟的性能测试工具,进行全面的性能评估。
二、Locust
官网地址:https://locust.io
Locust 是一款开源的性能和负载测试工具,主要用于测试 HTTP 和其他协议的性能。它的最大优势是,用户可以用简单的 Python 代码来定义测试,灵活且易于使用,并且提供Web UI界面,在测试过程中,可以实时查看吞吐量、响应时间和错误情况,或者将数据导出以供后续分析。
#安装包
~# pip3 install locust
~# locust --version
locust 2.32.9 from /usr/local/lib/python3.10/dist-packages/locust (Python 3.10.12)
##压测脚本
from locust import HttpUser,task, between
import json
class LLMUser(HttpUser):
wait_time = between(1,2) # 每个用户请求的间隔时间
@task
def generate_text(self):
headers = {"Content-Type":"application/json"}
data = {"model":"DeepSeek-R1:1.5b-qwen-distill-q4_K_M","prompt":"简单介绍一下你自己","stream": False}
self.client.post("/api/generate", headers=headers, json=data, timeout=60)
###压测方法
# locust
深度学习模型性能压测指南

最低0.47元/天 解锁文章
1419

被折叠的 条评论
为什么被折叠?



