RK3568模型移植部署全流程实战指南

最新推荐文章于 2025-10-07 20:58:33 发布

原创最新推荐文章于 2025-10-07 20:58:33 发布 · 1.4k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#stm32 #嵌入式硬件 #算法

算法移植部署专栏收录该内容

11 篇文章

订阅专栏

该文章已生成可运行项目，

RK3568模型移植部署全流程实战指南

一、开发环境搭建

1.1 硬件准备清单

核心设备：
Rockchip RK3568开发板（如Firefly Station-M2）
散热模块（建议加装散热片+风扇）
Type-C转USB3.0调试器
外设要求：
至少32GB UHS-I级TF卡
5V/3A电源适配器
1080P显示器（通过HDMI2.0连接）

1.2 软件工具链安装

# 安装RKNN-Toolkit2（推荐使用Python3.8）
sudo apt install python3.8 python3.8-venv
python3.8 -m venv rknn_env
source rknn_env/bin/activate
pip install rknn_toolkit2-1.4.0-cp38-cp38-linux_x86_64.whl# 需从官网下载

# 交叉编译环境配置
sudo apt install gcc-arm-linux-gnueabihf g++-arm-linux-gnueabihf
export CC=arm-linux-gnueabihf-gcc
export CXX=arm-linux-gnueabihf-g++

1.3 系统镜像烧录

# 使用RKDevTool烧录Ubuntu20.04镜像
sudo dpkg -i rkdevtool_1.8.0_amd64.deb
rkdeveloptool db rk356x_loader_v1.12.112.bin
rkdeveloptool wl 0x0 ubuntu-rootfs.img
rkdeveloptool rd

二、模型转换与优化

2.1 PyTorch模型转换RKNN

from rknn.api import RKNN

# 创建转换实例
rknn = RKNN(verbose=True)

# 模型配置（针对RK3568优化）
rknn.config(
target_platform='rk3568',
optimization_level=3,
quantize_input_node=True,
float_dtype='float16',
quantized_dtype='asymmetric_quantized-8'
)

# 加载PyTorch模型（需提前导出）
rknn.load_pytorch(
model='yolov5s.pt',
input_size_list=[[1, 3, 640, 640]]
)

# 量化校准（需准备100张校准图片）
rknn.build(
do_quantization=True,
dataset='./calib_data.txt',# 每行指向一张图片路径
pre_compile=True
)

# 导出RKNN模型
rknn.export_rknn('./yolov5s.rknn')

关键参数解析：

optimization_level=3：启用所有图优化
pre_compile=True：预编译模型加速加载
float_dtype='float16'：在NPU上使用半精度计算

2.2 模型精度验证

# 在开发机上模拟运行
rknn.init_runtime()
outputs = rknn.inference(inputs=[input_data])
np.testing.assert_allclose(outputs, torch_outputs, rtol=1e-2)# 允许1%误差

# 生成可视化报告
rknn.accuracy_analysis(
target='rk3568',
dataset='./val_data.txt',
report='./accuracy_report.html'
)

三、板端部署实战

3.1 系统环境配置

# 在RK3568板端执行
sudo apt update
sudo apt install librknnrt-dev# RKNN运行时库
sudo cp /usr/lib/librknnrt.so /usr/local/lib/
export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH

3.2 C++推理引擎实现

// rknn_inference.cpp
#include <rknn/rknn_runtime.h>

int main() {
// 初始化模型
rknn_context ctx;
rknn_init(&ctx, "yolov5s.rknn", 0, 0);

// 设置输入
rknn_input inputs[1];
inputs[0].index = 0;
inputs[0].type = RKNN_TENSOR_UINT8;
inputs[0].fmt = RKNN_TENSOR_NHWC;
inputs[0].buf = image_data;// 已预处理的数据
rknn_set_input(ctx, inputs);

// 执行推理
rknn_run(ctx);

// 获取输出
rknn_output outputs[3];// YOLOv5有3个输出层
rknn_get_output(ctx, outputs);

// 后处理...
rknn_destroy(ctx);
return 0;
}

编译命令：

arm-linux-gnueabihf-g++ rknn_inference.cpp -lrknnrt -o inference

3.3 Python部署方案

from rknnlite.api import RKNNLite

rknn = RKNNLite()
ret = rknn.load_rknn('yolov5s.rknn')
ret = rknn.init_runtime(core_mask=RKNNLite.NPU_CORE_0)# 指定NPU核心

# 图像预处理
img = cv2.resize(img, (640, 640))
img = np.expand_dims(img, axis=0)

# 异步推理（提升吞吐量）
rknn.inference_async(inputs=[img])
outputs = rknn.get_async_result()

四、性能优化技巧

4.1 内存优化策略

# 共享内存分配（减少拷贝）
rknn.config(
enable_mem_opt=True,# 启用内存优化
shared_memory_policy='zero_copy'# 零拷贝模式
)

# 查看内存占用
rknn.query_mem_info()

输出示例：

Total Memory: 1024MB
Used Memory: 356MB
Shared Memory: 128MB

4.2 多核并行计算

# 绑定到不同NPU核心
rknn1 = RKNNLite()
rknn1.init_runtime(core_mask=RKNNLite.NPU_CORE_0)

rknn2 = RKNNLite()
rknn2.init_runtime(core_mask=RKNNLite.NPU_CORE_1)

# 使用Python多线程
from threading import Thread

def infer(rknn, data):
return rknn.inference(inputs=[data])

t1 = Thread(target=infer, args=(rknn1, img1))
t2 = Thread(target=infer, args=(rknn2, img2))
t1.start(); t2.start()

4.3 功耗控制

# 动态调频（需root权限）
echo "performance" > /sys/devices/system/cpu/cpufreq/policy0/scaling_governor
echo 1608000 > /sys/devices/system/cpu/cpufreq/policy0/scaling_max_freq

五、典型问题解决方案

5.1 模型加载失败

错误现象：

E RKNN: rknn_init, load model failed!

排查步骤：

检查模型路径权限
验证RKNN模型版本与驱动匹配
使用rknn.check_model('model.rknn')验证完整性

5.2 推理结果异常

调试方法：

# 获取中间层输出
rknn.get_layer_output(0, layer_name='conv1')

常见原因：

输入数据未做归一化（YOLO需/255）
量化校准集不具代表性

5.3 性能不达标

优化检查表：

确认pre_compile=True已启用
检查NPU利用率：

cat /sys/kernel/debug/rknpu/load

使用perf工具分析热点：

perf stat -e cycles,instructions,cache-misses ./inference

六、实战案例：YOLOv5s部署

6.1 完整部署流程

6.2 性能基准测试

项目	RK3568(1核)	RK3568(2核)
推理时延	68ms	42ms
功耗	3.2W	4.1W
温度	72℃	85℃

6.3 效果展示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

七、进阶开发资源

官方文档：

性能分析工具：

sudo apt install rknn-benchmark# 基准测试工具
rknn-benchmark --model yolov5s.rknn --threads 4

社区支持：

Rockchip开发者论坛
RKNN-Toolkit2 GitHub Issues

通过本教程，您已掌握从模型转换到部署优化的全流程。建议从YOLOv5等成熟模型入手，逐步尝试更复杂的Transformer类模型部署。遇到问题时，多利用rknn.accuracy_analysis工具进行量化误差分析。

本文章已经生成可运行项目