LLMPerf-为LLM推理提供可复现的性能指标
翻译自文章:Reproducible Performance Metrics for LLM inference
结合之前的LLMPerf测试大模型API性能的文章进行查看,效果更佳。
1. 摘要
-
我们见过许多关于LLM性能的声明;然而,这些声明往往无法复现。
-
今天,我们发布了LLMPerf(https://github.com/ray-project/llmperf),这是一个开源项目,用于基准测试LLM,以使这些声明可复现。我们讨论了选择的指标以及如何测量它们。
-
有趣的见解:100个输入token对延迟的影响与一个输出token大致相同。如果你想加快速度,减少输出比减少输入更有效。
-
我们还展示了这些基准测试在一些当前LLM产品上的结果,并确定了哪些LLM目前最适合什么用途。我们重点关注了Llama 2 70b。
-
总结我们在每个token价格上的结果:Perplexity beta由于低速率限制,目前尚不适用于生产;Fireworks.ai和Anyscale Endpoints都可行,但Anyscale Endpoints在典型工作负载(550个输入token,150个输出token)的平均端到端延迟上便宜15%,快17%。在高负载水平下,Fireworks的首次token时间(TTFT)稍好。
-
特别是对于LLM,性能特性变化迅速,每个用例都有不同的需求,适用情况因人而异。

2. 问题
最近,许多人对其LLM推理性能做出了各种声明。然而,这些声明往往无法复现,并且缺乏详细信息。例如,有一篇帖子仅仅说明了结果是针对“不同输入大小”的,但其图表我们根本无法理解。
我们曾考虑发布自己的基准测试结果,但意识到仅仅这样做只会延续不可复现结果的问题。因此,除了发布结果之外,我们还将我们的内部基准测试工具开源。你可以在这里下载它。README文件中有许多示例展示了如何使用它。
在本文的其余部分,我们将讨论我们测量的关键指标以及各个供应商在这些指标上的表现。
3. LLM的定量性能指标
LLM的关键指标有哪些?我们建议标准化以下指标:

最低0.47元/天 解锁文章
1939

被折叠的 条评论
为什么被折叠?



