嵌入式 AI 算力与性能测试完整指南：概念、方法、工具与不同硬件对比

嵌入式AI性能测试全解析

原创于 2025-11-15 11:55:53 发布 · 939 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #网络 #数据库 #linux #缓存 #redis #运维

AI 专栏收录该内容

52 篇文章

订阅专栏

『AI先锋杯·14天征文挑战第8期』 10w+人浏览 387人参与

嵌入式 AI 算力与性能测试完整指南：概念、方法、工具与不同硬件对比（面向初学者，超详细版）

适用对象： Jetson / RK3588 / x86 / Raspberry Pi 学习者、算法工程师、嵌入式 AI 初学者

文章目标： 用最通俗、最完整、最专业的方式，彻底讲清楚算力、TOPS、FPS、推理速度、模型性能测试方法，让你真正理解“AI 性能到底怎么测”。

📌 一、为什么要学性能测试？（你以为你理解了，其实没有）

在做边缘 AI（Embedded AI）开发时，无论你使用：

NVIDIA Jetson（Orin Nano / NX / AGX）
Rockchip RK3588（NPU）
Intel NUC / MiniPC
Raspberry Pi（CPU 推理）

在这里插入图片描述

你都会遇到两个最重要的问题：

❶ 我这块硬件到底跑得快不快？能不能满足我的产品需求？

❷ 数据手册写的 TOPS 到底和真实速度有什么关系？

初学者常常被宣传数字误导：

RK3588：6 TOPS
Orin Nano：40 TOPS
Orin NX：100 TOPS
AGX Orin：275 TOPS

但，当你实际运行 YOLO、OCR、Transformer 时：

有的平台真实性能 比标称高很多
有的平台真实性能 比标称低很多

因此，这篇文章的核心目的：

⭐ 帮你建立一个真正正确的算力理解体系，并教你如何完整测试 AI 性能。

📌 二、核心概念总览：TOPS、FPS、推理延迟、吞吐量

很多初学者会混淆这些概念。下面一次讲清楚。

⭐ 1. TOPS（理论算力，不是实际速度）

Tera Operations Per Second = 每秒执行多少万亿次 INT8 运算。

特性：

厂商自己算的
只代表理论峰值
不考虑内存、算子、软件栈
不能代表真实推理速度（FPS）

一句话总结：

TOPS 是“纸面战斗力”，不是“实战战斗力”。

⭐ 2. 实测 FPS（真实速度，必须看它）

FPS = 每秒推理多少帧（图片/视频帧）。

例：

30 FPS → 流畅实时
60 FPS → 高清实时
100 FPS → 高速视觉 / 多路摄像头

FPS 取决于：

软件框架（TensorRT / RKNN / OpenVINO）
内存带宽
算子支持
模型结构
硬件类型（GPU / NPU / CPU）

一句话：

FPS 才是真实能力，是你做产品必须看的指标。

⭐ 3. 推理延迟 Latency（延迟小代表速度快）

单位：毫秒（ms）

例如：

20ms → 每秒最多 50FPS
10ms → 每秒最多 100FPS

公式：

FPS = 1000ms / latency

⭐ 4. 吞吐量 Throughput（批量处理能力）

适用于服务器 / 多 Batch 情况。

例如：

Batch=4 → 处理 4 张图的速度

边缘设备一般 batch = 1，不必过度关注。

📌 三、为什么不同硬件“宣传 TOPS”差不多，但实际性能差很多？

我们看一个经典例子：

平台	宣传 TOPS	YOLOv8-S 实测 FPS	推理框架
RK3588	6 TOPS	15–25 FPS	RKNN
Orin Nano	40 TOPS	80–120 FPS	TensorRT
Orin NX	100 TOPS	140–200 FPS	TensorRT
AGX Orin	275 TOPS	250–350 FPS	TensorRT

非常明显：

RK3588：宣传 6 TOPS，看起来不低，但 FPS 非常一般
Orin Nano：宣传 40 TOPS，看似一般，实际远远更快

为什么？

因为：

⭐ 真实 AI 性能 = TOPS × 软件优化 × 内存带宽 × 算子支持 × 架构

其中最重要的其实是：

⭐ 推理框架的质量（TensorRT）决定真实速度。

这是 Jetson 与其它平台拉开巨大差距的原因。

📌 四、Jetson、RK3588、x86、树莓派真实 AI 性能对比（附表）

测试模型：YOLOv8-S（ONNX）640×640
测试框架：TensorRT / RKNN / OpenVINO
Batch=1

⭐ 表一：真实 FPS 对比（最重要）

平台	AI 模型（YOLOv8-S）FPS	适用场景	注意事项
Jetson Orin Nano 8GB	80–120 FPS	入门 AI / 边缘设备	TensorRT 优化极强
Jetson Orin NX 16GB	140–200 FPS	工业视觉 / 机器人	性能 / 功耗平均最佳
Jetson AGX Orin	250–350 FPS	重载 AI / 自动驾驶	性能天花板
Rockchip RK3588	15–25 FPS	低成本 AI 设备	NPU 对模型兼容性不稳定
Intel i7 NUC	20–40 FPS	边缘服务器	功耗高，不适合嵌入式
Raspberry Pi 5	1–2 FPS	教育	无 NPU，不适合 AI

可以看出：

🔥 Jetson 的实际 FPS = 同级别 NPU 的 3～10 倍

这是为什么？继续往下看。

📌 五、决定实际性能的五大关键因素（TOPS 不是最重要的）

⭐ 1. 软件栈成熟度（最重要）

Jetson：CUDA + TensorRT + cuDNN（行业最成熟）
RK3588：RKNN（算子不稳定，模型兼容性差）
Pi/x86：基本无加速或部分加速

TensorRT 的优势：

自动融合算子
自动 kernel 调度
自动量化（INT8）
自动优化计算图

NPU 无法做到如此完整的优化。

⭐ 2. 内存带宽

大模型（YOLO / OCR / Transformer）非常吃内存：

Orin 带宽远大于 RK3588
树莓派更低

带宽不足 → 推理速度直接下降。

⭐ 3. 算子支持（决定是否会“掉速”）

如果遇到 NPU 不支持的算子：

RK3588 → 回退 CPU → 速度慢到不可用
Jetson → TensorRT 基本都能优化

⭐ 4. GPU Tensor Cores

Jetson 支持：

FP16
INT8
Tensor Core 加速

这些是 Jetson 推理速度领先 NPU 的核心硬件原因。

⭐ 5. 推理框架（TensorRT）

这是 Jetson 真实 FPS 远超 TOPS 的根本原因。

TensorRT 可以让：

40 TOPS（Orin Nano）跑赢
理论 6 TOPS（RK3588）数倍性能

📌 六、如何正确测试 AI 性能？（完整工程流程）

这一节非常重要，你的产品性能能否达到要求，就靠它了。

⭐ 第一步：准备模型

推荐使用：

YOLOv8-S.onnx（最具有代表性）
ResNet50.onnx（分类模型）
MobileNetV3.onnx（轻量模型）

⭐ 第二步：选择推理框架

不同平台使用不同框架：

平台	推理框架
Jetson	TensorRT
RK3588	RKNN Toolkit
x86	OpenVINO / TensorRT
Raspberry Pi	CPU Only

⭐ 第三步：测试代码（示例）

✔ TensorRT（Jetson）测试代码

import time
import cv2
import tensorrt as trt

# 假设你已加载好 engine，并实现了 infer() 函数

warmup = 20
for _ in range(warmup): infer()

count = 0
start = time.time()
while time.time() - start < 5:  # 测 5 秒
    infer()
    count += 1

fps = count / 5
print(f"TensorRT FPS: {fps}")

✔ RKNN（RK3588）测试代码

from rknn.api import RKNN
import time

rknn = RKNN()
rknn.load_rknn('model.rknn')
rknn.init_runtime()

warmup = 20
for _ in range(warmup): rknn.inference(inputs)

count = 0
start = time.time()
while time.time() - start < 5:
    rknn.inference(inputs)
    count += 1

print("RKNN FPS:", count/5)

⭐ 第四步：测试摄像头实时性能（更接近真实场景）

包括：

预处理耗时
摄像头抓帧延迟
推理解码速度
后处理速度（NMS）

Jetson 可以使用：

GStreamer
nvvidconv（GPU 加速）
nvargus（摄像头 ISP）

RK3588 多数使用：

v4l2 + RGA

实际场景常常比纯推理慢 20–40%。

📌 七、不同模型在不同硬件上的真实速度表（非常实用）

模型	Orin Nano	Orin NX	AGX Orin	RK3588	Pi 5
YOLOv8-N	180 FPS	260 FPS	400+ FPS	40 FPS	2 FPS
YOLOv8-S	80–120 FPS	140–200 FPS	250–350 FPS	15–25 FPS	1–2 FPS
ResNet50	400+ FPS	700+ FPS	1000+ FPS	80–120 FPS	10 FPS