yolov9 瑞芯微芯片rknn部署、地平线芯片Horizon部署、TensorRT部署

原创已于 2024-03-01 21:51:36 修改 · 3.2k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#YOLO #目标检测 #python

于 2024-02-27 15:16:46 首次发布

部署运行你感兴趣的模型镜像

特别说明：参考官方开源的yolov9代码、瑞芯微官方文档、地平线的官方文档，如有侵权告知删，谢谢。

模型和完整仿真测试代码，放在github上参考链接模型和代码。

之前写过yolov8检测、分割、关键点模型的部署的多篇博文，yolov8还没玩溜，这不yolov9又来了。yolov9刚出来两三天，有朋友就问：yolov9都出来好几天了，怎么没有见到你写一篇部署博客呢。其实yolov9出来两三天，说实话还是通过朋友告知才知道的。一直想抽时间把yolov9部署给盘一下，奈何一拖就又是好几天，这两天抽时间终于把这个yolov9给盘完了。

1 模型和训练

训练代码参考官方开源的yolov9训练代码，考虑到有些板端对SiLU的支持有限，本示例训练前把激活函数SiLU替换成了ReLU，训练使用的模型配置文件是yolov9.yaml，输入分辨率640x640。用 from thop import profile 统计的模型计算量和参数 Flops: 120081612800.0（120G），Params: 55388336.0（55M）

2 导出 yolov9 onnx

导出onnx时需要修改两个地方。

特别说明：只在导出onnx时修改，训练时无需修改，修改以下代码后运行会报错，但是可以生成onnx文件，无需关注报错。

第一个处：增加以下代码（红色框内新增）：
在这里插入图片描述

        reslut = []
        for i in range(self.nl):
            reslut.append(self.cv2[i](x[i]))
            reslut.append(self.cv3[i](x[i]))
        return reslut

第二处修改：增加以下代码（红色框内新增）
在这里插入图片描述

class CBFuse(nn.Module):
    def __init__(self, idx):
        super(CBFuse, self).__init__()
        self.idx = idx

    def forward(self, xs):
        target_size = xs[-1].shape[2:]

        if target_size[0] < 10:
            res = [F.interpolate(x[self.idx[i]], size=target_size, mode='nearest') for i, x in enumerate(xs[:-1])]
            out = torch.sum(torch.stack(res + xs[-1:]), dim=0)
            return out
        j = 0
        for i, x in enumerate(xs[:-1]):
            j = i
            if target_size[0] < 10:
                continue
            if i == 0:
                x0 = F.interpolate(x[self.idx[i]], size=target_size, mode='nearest')
            if i == 1:
                x1 = F.interpolate(x[self.idx[i]], size=target_size, mode='nearest')
            if i == 2:
                x2 = F.interpolate(x[self.idx[i]], size=target_size, mode='nearest')

        if j == 2 and target_size[0] > 10:
            out = x0 + x1 + x2 + xs[-1:][0]
            return out
        if j == 1 and target_size[0] > 10:
            out = x0 + x1 + xs[-1:][0]
            return out
        if j == 0 and target_size[0] > 10:
            out = x0 + xs[-1:][0]
            return out

        res = [F.interpolate(x[self.idx[i]], size=target_size, mode='nearest') for i, x in enumerate(xs[:-1])]
        out = torch.sum(torch.stack(res + xs[-1:]), dim=0)
        return out

最后：增加保存onnx文件代码
在这里插入图片描述

    print(torch.onnx.ir_version)
    print("===========  onnx =========== ")
    dummy_input0 = torch.randn(1, 3, 640, 640)
    input_names = ["data"]
    output_names = ["output1", "output2", "output3", "output4", "output5", "output6"]
    torch.onnx.export(model, (dummy_input0), "./test_onnx/yolov9_relu_80class.onnx", verbose=True, input_names=input_names, output_names=output_names, opset_version=12)
    print("======================== convert onnx Finished! .... ")

3 yolov9 测试效果

pytorhc测试效果
在这里插入图片描述

onnx测试效果（确保修改CBFuse后导出的onnx测试结果和pytorch是一致的）
在这里插入图片描述

4 tensorRT 时耗

模型训练使用的配置文件是yolov9.yaml，输入分辨率是640x640，转trt使用的fp16_mode，显卡Tesla V100，cuda_11.0。
在这里插入图片描述

5 rknn 板端C++部署

模型训练使用的配置文件是yolov9.yaml，输入分辨率是640x640，芯片rk3588.

把在rk3588板子上测试的模特推理时耗，和用C++代码写的后处理时耗，都给贴出来供大家参考。【rk3588的C++代码参考链接】。
在这里插入图片描述

您可能感兴趣的与本文相关的镜像

PyTorch 2.9

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

19 条评论

Per_ad_astra 2024.08.20
请问是否支持自定义图片分辨率?我把10改小了还是会出现输出数目为4（不是6）的问题
- 山水无移-张潜回复Per_ad_astra 2024.08.22
  支持的，不过要适配一下

鑒鉹 2024.06.07
你好，我在导出的时候，出现了以下问题（common.py 和yolo.py都已经按照文章内修改）： /home/hiyan/gjy_workspace/yolov9/yolov9-main/models/common.py:902: TracerWarning: Converting a tensor to a Python boolean might cause the trace to be incorrect. We can't record the data flow of Python values, so this value will be treated as a constant in the future. This means that the trace might not generalize to other inputs! RuntimeError: Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same or input should be a MKLDNN tensor and weight is a dense tensor
- 鑒鉹回复山水无移-张潜 2024.06.07
  我已经修改了命令行，device=cpu 就 ok 了，但是导出的 onnx 再导出 rknn 推理时，有错误，框非常多，具体的我已经在 Github 上提交了。[face]emoji:022.png[/face]
- 山水无移-张潜回复鑒鉹 2024.06.07
  把转onnx的input放到cuda上

wizardcsy 2024.05.24
RKNN转换模型时候好几个模型都有topK算子，提示The input 0 of TopK('/model.23/TopK') need to be constant，转化失败，请问大佬有没有办法通过设置模型绕过呢？还是只能等官方支持？
- 山水无移-张潜回复wizardcsy 2024.05.27
  yolov10 部署已放出，欢迎参考 https://blog.youkuaiyun.com/zhangqian_1/article/details/139239964
- wizardcsy回复山水无移-张潜 2024.05.27
  厉害了大佬，期待您的更新~[face]emoji:062.png[/face]
- 山水无移-张潜回复wizardcsy 2024.05.27
  yolov10部署rknn，我这边已完成，今天应该就会把代码和文档输出。
- wizardcsy回复山水无移-张潜 2024.05.27
  谢谢！另外问一下，有没有用过RK提供的注册自定义算子接口（reg_custom_op），能不能用这个把topK算子注册进去，转换推理呢？
- 山水无移-张潜回复wizardcsy 2024.05.25
  是的
- wizardcsy回复山水无移-张潜 2024.05.25
  比如新出的yolov10，topK在靠后的位置，那把output层设置到topK之前，后面的操作放到后处理流程在外部实现。如果像rtmdet模型，topK在中间，基本就不能绕过。是我理解这个意思吗？
- 山水无移-张潜回复wizardcsy 2024.05.24
  能不能绕过得看topk出现在模型得什么地方

kingrain213 2024.03.25
onnx能转成功了，但是rknn转换的时候提示Meet unsupported dims in reducem, dims 5 已放弃（核心已转储）
- 鑒鉹回复kingrain213 2024.06.07
  你怎么转的 onnx，我转的无法使用，能借鉴一下吗[face]emoji:022.png[/face]

kingrain213 2024.03.25
麻烦问一下，我输入分辨率是640*640的，common中几处10的位置都进行了调整（2/4/6/12/20等）但提示ouput_names还是有问题 RuntimeError number of output names provided (6) exceeded number of outputs (4)

kingrain213 2024.03.22
麻烦问一下几处修改代码中target_size跟10比，10是什么意思啊？我自己用yolov9官方代码训练的5类检测器，按您的修改转onnx的时候，提示只有四个输出，但是给定了六个，应该是output_names指定了output1~output6的缘故，请问哪个地方不对呢？
- 山水无移-张潜回复kingrain213 2024.03.23
  模型输入分辨率如果比较小的话，把这个10改小一点

征途黯然. 2024.03.01
[face]emoji:013.png[/face]This article about yolov9瑞芯微芯片rknn部署地平线芯片Horizon部署TensorRT部署 is inspiring.