嵌入式 AI 算力与性能测试完整指南:概念、方法、工具与不同硬件对比(面向初学者,超详细版)
适用对象: Jetson / RK3588 / x86 / Raspberry Pi 学习者、算法工程师、嵌入式 AI 初学者
文章目标: 用最通俗、最完整、最专业的方式,彻底讲清楚算力、TOPS、FPS、推理速度、模型性能测试方法,让你真正理解“AI 性能到底怎么测”。
📌 一、为什么要学性能测试?(你以为你理解了,其实没有)
在做边缘 AI(Embedded AI)开发时,无论你使用:
- NVIDIA Jetson(Orin Nano / NX / AGX)
- Rockchip RK3588(NPU)
- Intel NUC / MiniPC
- Raspberry Pi(CPU 推理)

你都会遇到两个最重要的问题:
❶ 我这块硬件到底跑得快不快?能不能满足我的产品需求?
❷ 数据手册写的 TOPS 到底和真实速度有什么关系?
初学者常常被宣传数字误导:
- RK3588:6 TOPS
- Orin Nano:40 TOPS
- Orin NX:100 TOPS
- AGX Orin:275 TOPS
但,当你实际运行 YOLO、OCR、Transformer 时:
- 有的平台真实性能 比标称高很多
- 有的平台真实性能 比标称低很多
因此,这篇文章的核心目的:
⭐ 帮你建立一个真正正确的算力理解体系,并教你如何完整测试 AI 性能。
📌 二、核心概念总览:TOPS、FPS、推理延迟、吞吐量
很多初学者会混淆这些概念。下面一次讲清楚。
⭐ 1. TOPS(理论算力,不是实际速度)
Tera Operations Per Second = 每秒执行多少万亿次 INT8 运算。
特性:
- 厂商自己算的
- 只代表理论峰值
- 不考虑内存、算子、软件栈
- 不能代表真实推理速度(FPS)
一句话总结:
TOPS 是“纸面战斗力”,不是“实战战斗力”。
⭐ 2. 实测 FPS(真实速度,必须看它)
FPS = 每秒推理多少帧(图片/视频帧)。
例:
- 30 FPS → 流畅实时
- 60 FPS → 高清实时
- 100 FPS → 高速视觉 / 多路摄像头
FPS 取决于:
- 软件框架(TensorRT / RKNN / OpenVINO)
- 内存带宽
- 算子支持
- 模型结构
- 硬件类型(GPU / NPU / CPU)
一句话:
FPS 才是真实能力,是你做产品必须看的指标。
⭐ 3. 推理延迟 Latency(延迟小代表速度快)
单位:毫秒(ms)
例如:
- 20ms → 每秒最多 50FPS
- 10ms → 每秒最多 100FPS
公式:
FPS = 1000ms / latency
⭐ 4. 吞吐量 Throughput(批量处理能力)
适用于服务器 / 多 Batch 情况。
例如:
- Batch=4 → 处理 4 张图的速度
边缘设备一般 batch = 1,不必过度关注。
📌 三、为什么不同硬件“宣传 TOPS”差不多,但实际性能差很多?
我们看一个经典例子:
| 平台 | 宣传 TOPS | YOLOv8-S 实测 FPS | 推理框架 |
|---|---|---|---|
| RK3588 | 6 TOPS | 15–25 FPS | RKNN |
| Orin Nano | 40 TOPS | 80–120 FPS | TensorRT |
| Orin NX | 100 TOPS | 140–200 FPS | TensorRT |
| AGX Orin | 275 TOPS | 250–350 FPS | TensorRT |
非常明显:
- RK3588:宣传 6 TOPS,看起来不低,但 FPS 非常一般
- Orin Nano:宣传 40 TOPS,看似一般,实际远远更快
为什么?
因为:
⭐ 真实 AI 性能 = TOPS × 软件优化 × 内存带宽 × 算子支持 × 架构
其中最重要的其实是:
⭐ 推理框架的质量(TensorRT)决定真实速度。
这是 Jetson 与其它平台拉开巨大差距的原因。
📌 四、Jetson、RK3588、x86、树莓派真实 AI 性能对比(附表)
测试模型:YOLOv8-S(ONNX)640×640
测试框架:TensorRT / RKNN / OpenVINO
Batch=1
⭐ 表一:真实 FPS 对比(最重要)
| 平台 | AI 模型(YOLOv8-S)FPS | 适用场景 | 注意事项 |
|---|---|---|---|
| Jetson Orin Nano 8GB | 80–120 FPS | 入门 AI / 边缘设备 | TensorRT 优化极强 |
| Jetson Orin NX 16GB | 140–200 FPS | 工业视觉 / 机器人 | 性能 / 功耗平均最佳 |
| Jetson AGX Orin | 250–350 FPS | 重载 AI / 自动驾驶 | 性能天花板 |
| Rockchip RK3588 | 15–25 FPS | 低成本 AI 设备 | NPU 对模型兼容性不稳定 |
| Intel i7 NUC | 20–40 FPS | 边缘服务器 | 功耗高,不适合嵌入式 |
| Raspberry Pi 5 | 1–2 FPS | 教育 | 无 NPU,不适合 AI |
可以看出:
🔥 Jetson 的实际 FPS = 同级别 NPU 的 3~10 倍
这是为什么?继续往下看。
📌 五、决定实际性能的五大关键因素(TOPS 不是最重要的)
⭐ 1. 软件栈成熟度(最重要)
Jetson:CUDA + TensorRT + cuDNN(行业最成熟)
RK3588:RKNN(算子不稳定,模型兼容性差)
Pi/x86:基本无加速或部分加速
TensorRT 的优势:
- 自动融合算子
- 自动 kernel 调度
- 自动量化(INT8)
- 自动优化计算图
NPU 无法做到如此完整的优化。
⭐ 2. 内存带宽
大模型(YOLO / OCR / Transformer)非常吃内存:
- Orin 带宽远大于 RK3588
- 树莓派更低
带宽不足 → 推理速度直接下降。
⭐ 3. 算子支持(决定是否会“掉速”)
如果遇到 NPU 不支持的算子:
- RK3588 → 回退 CPU → 速度慢到不可用
- Jetson → TensorRT 基本都能优化
⭐ 4. GPU Tensor Cores
Jetson 支持:
- FP16
- INT8
- Tensor Core 加速
这些是 Jetson 推理速度领先 NPU 的核心硬件原因。
⭐ 5. 推理框架(TensorRT)
这是 Jetson 真实 FPS 远超 TOPS 的根本原因。
TensorRT 可以让:
- 40 TOPS(Orin Nano)跑赢
- 理论 6 TOPS(RK3588)数倍性能
📌 六、如何正确测试 AI 性能?(完整工程流程)
这一节非常重要,你的产品性能能否达到要求,就靠它了。
⭐ 第一步:准备模型
推荐使用:
- YOLOv8-S.onnx(最具有代表性)
- ResNet50.onnx(分类模型)
- MobileNetV3.onnx(轻量模型)
⭐ 第二步:选择推理框架
不同平台使用不同框架:
| 平台 | 推理框架 |
|---|---|
| Jetson | TensorRT |
| RK3588 | RKNN Toolkit |
| x86 | OpenVINO / TensorRT |
| Raspberry Pi | CPU Only |
⭐ 第三步:测试代码(示例)
✔ TensorRT(Jetson)测试代码
import time
import cv2
import tensorrt as trt
# 假设你已加载好 engine,并实现了 infer() 函数
warmup = 20
for _ in range(warmup): infer()
count = 0
start = time.time()
while time.time() - start < 5: # 测 5 秒
infer()
count += 1
fps = count / 5
print(f"TensorRT FPS: {fps}")
✔ RKNN(RK3588)测试代码
from rknn.api import RKNN
import time
rknn = RKNN()
rknn.load_rknn('model.rknn')
rknn.init_runtime()
warmup = 20
for _ in range(warmup): rknn.inference(inputs)
count = 0
start = time.time()
while time.time() - start < 5:
rknn.inference(inputs)
count += 1
print("RKNN FPS:", count/5)
⭐ 第四步:测试摄像头实时性能(更接近真实场景)
包括:
- 预处理耗时
- 摄像头抓帧延迟
- 推理解码速度
- 后处理速度(NMS)
Jetson 可以使用:
- GStreamer
- nvvidconv(GPU 加速)
- nvargus(摄像头 ISP)
RK3588 多数使用:
- v4l2 + RGA
实际场景常常比纯推理慢 20–40%。
📌 七、不同模型在不同硬件上的真实速度表(非常实用)
| 模型 | Orin Nano | Orin NX | AGX Orin | RK3588 | Pi 5 |
|---|---|---|---|---|---|
| YOLOv8-N | 180 FPS | 260 FPS | 400+ FPS | 40 FPS | 2 FPS |
| YOLOv8-S | 80–120 FPS | 140–200 FPS | 250–350 FPS | 15–25 FPS | 1–2 FPS |
| ResNet50 | 400+ FPS | 700+ FPS | 1000+ FPS | 80–120 FPS | 10 FPS |
嵌入式AI性能测试全解析
781

被折叠的 条评论
为什么被折叠?



