Triton Pipeines的实现方式及对比

原创

已于 2023-01-09 09:05:00 修改 · 2.9k 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #计算机视觉 #目标检测 #图像处理

于 2022-11-02 21:01:08 首次发布

本文对比介绍BLS和Ensemble两种实现TritonPipelines的方式，并对高性能部署Yolov5Tritonservice的Benchmark性能测试结果进行解读。BLS通过Python代码调用其他模型服务，适用于动态组合已部署模型；Ensemble则可以并行执行多个模型步骤，减少请求数量，提高整体性能。

Triton Pipeines的实现方式及对比

在部署yolov5 Triton Pipelines中，简单介绍了BLS和Ensemble这两种实现Triton Pipelines的方式，同时在高性能部署Yolov5 Triton service的Benchmark中，对两种Pipelines和All in TensorRT Engine的部署方式进行了性能测试，本文将对比介绍一下BLS和Ensemble, 同时对性能测试的结果进行解读。

相关代码链接

1. Python Backend

1.1 实现方式及结构

BLS是一种特殊的python backend，通过在python backend里调用其他模型服务来完成Pipelines。python backend的结构如下

请添加图片描述

进程间通信IPC

由于GIL的限制，python backend通过对每个model instance起一个单独的进程(python stub process(C++))来支持多实例部署。既然是多进程，那么就需要通过shared memory来完成python model instance和Triton主进程之间的通信，具体为给每个python stub process在shared memory里分配一个shm block, shm block连接python backend agent(C++)来进行通信。
数据流向

shm block通过Request MessageQ 和 Response MessageQ调度和中转Input和Output, 上述两个队列均通过生产者-消费者模型的逻辑实现
1. 发送到Triton server的request被python backend agent(C++)放到Request MessageQ
2. python stub process从Request MessageQ取出Input, 给到python model instance执行完推理后，将Output放到Response MessageQ
3. python backend agent(C++)再从Response MessageQ中取出Output，打包成response返回给Triton server主进程
示例如下:
```
responses = [
```

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。