前言
经过前三篇文章的铺垫:
生产环境H200部署DeepSeek 671B 满血版全流程实战(一):系统初始化
生产环境H200部署DeepSeek 671B 满血版全流程实战(二):vLLM 安装详解
生产环境H200部署DeepSeek 671B 满血版全流程实战(三):SGLang 安装详解
相信大家已经成功在 H200 服务器上搭建起了 DeepSeek 671B 的运行环境。但一个新的问题也随之而来:vLLM和SGLang这两款推理引擎在实际性能表现上究竟有何差异?如何根据具体的业务需求在它们之间做出最佳选择?本篇我们将使用 EvalScope 基准测试工具, 对 vLLM 和 SGLang 进行全方位、 多角度的性能压测。
一、EvalScope
1.1 简介
EvalScope是魔搭社区官方推出的模型评测与性能基准测试框架,内置多个常用测试基准和评测指标,如MMLU、CMMLU、C-Eval、GSM8K、ARC、HellaSwag、TruthfulQA、MATH和HumanEval等;支持多种类型的模型评测ÿ