关于MLPerf 测试结果的一些基础概念

1. 查询 (Queries)

在 MLPerf 或深度学习推理的上下文中,“查询”(Query) 指的是一个 推理请求,即向模型提交一个输入数据(例如一张图片、一段文本)并获取模型输出的过程。
查询(Query) = 输入数据 + 推理任务
每个查询通常包括:

  • 输入数据:例如一张图片、一段音频、一段文本。
  • 模型推理:将输入数据传递给模型,运行推理。
  • 输出结果:模型生成的预测结果(例如分类标签、生成文本)。

2. QPS (Queries Per Second)

系统每秒能够处理多少个查询(推理请求)。
QPS 描述的是 推理应用 的性能指标,而不是模型本身的指标。它衡量的是 整个推理系统的吞吐量。
具体来说:
如果 QPS = 100,表示系统每秒可以处理 100 个推理请求。
如果 QPS = 50,表示系统每秒可以处理 50 个推理请求。
这个值越高越好,表明系统能够在单位时间内处理更多请求。

3. Mean (Mean Latency,平均延迟)

MEAN 表示系统处理一个任务(查询/推理请求)平均需要多长时间。
举个例子, 如果 MEAN = 0.02 秒,表示系统处理一张图片平均需要 0.02 秒。如果 MEAN = 0.05 秒,表示系统处理一张图片平均需要 0.05 秒。
MEAN 越低,说明系统处理任务的速度越快。

4. MLPerf Inference 测试场景

MLPerf Inference 基准测试支持多种 测试场景(Scenarios),每种场景模拟不同的应用需求。以下是 MLPerf 中常见场景的区别和适用场景:

4.1 SingleStream(单流)

模拟单个用户推理请求的场景。
每次处理 一个输入数据(例如一张图片、一段文本), 且 输入数据是逐张/逐条处理的。
举个例子,有100张图片,一个图片执行一次查询,每个图片逐张执行一次查询,总共执行100次。

  • 测试目标: 评估系统处理 单个任务(/查询) 的速度(延迟)
  • 关键指标延迟(Latency)
  • 适用场景
    对延迟敏感的应用,例如,实时图像分类,实时语音识别,自动驾驶中的实时目标检测。

4.2 MultiStream(多流)

模拟多个用户同时请求的场景。
每个用户请求都是独立执行的。相当于多个 SingleStream加在一起,但多个请求会 同时并发 执行。类似于OS单个进程和多个进程。

  • 测试目标: 评估系统在同时处理多个并发请求 时的性能。
  • 关键指标吞吐量(Throughput)& 延迟(Latency)
  • 适用场景:对吞吐量和延迟都有要求的应用,例如,视频流分析, 多用户语音助手,多摄像头监控系统。

4.3 Offline(离线)

模拟单用户批量处理的场景。系统一次性处理大量输入数据(例如一批图片、一段长文本)来执行一次查询(推理请求)。
由于模型一般地都支持一次性输入多个数据来执行一次查询,所以离线模式研究多个输入下模型的处理能力,这个瓶颈就在QPS。

举个例子,有100张图片,给模型一次输入20张,然后模型一次推理后,输出20张的结果,然后进入下一个批处理周期,直到处理完成。

  • 测试目标: 评估系统处理 大量任务 的能力(吞吐量)
  • 关键指标吞吐量(Throughput)
  • 适用场景
    对吞吐量要求高、对延迟不敏感的应用,例如,批量图像处理,大规模文本生成,离线数据分析。

4.4 Server(服务器)

模拟服务器端推理的场景。
系统需要同时处理多个并发请求,并在规定时间内返回结果。

  • 关键指标吞吐量(Throughput)& 延迟(Latency)
  • 适用场景:服务器端推理应用,例如,云端的图像分类服务,在线的语音识别服务,实时推荐系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值