triton inference server入门1

最新推荐文章于 2025-09-09 01:33:55 发布

原创

最新推荐文章于 2025-09-09 01:33:55 发布 · 773 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#大模型

开新坑！准备开始聊triton。

老潘用triton有两年多了，一直想写个教程给大家。顺便自己学习学习，拖了又拖，趁着这次换版本的机会，终于有机会了写了。

triton作为一个NVIDIA开源的商用级别的服务框架，个人认为很好用而且很稳定，API接口的变化也不大，我从2020年的20.06切换到2022年的22.06，两个大版本切换，一些涉及到代码的工程变动很少，稍微修改修改就可以直接复用，很方便。

本系列讲解的版本也是基于22.06。

本系列讲解重点是结合实际的应用场景以及源码分析，以及写一些triton周边的插件、集成等。非速成，适合同样喜欢深入的小伙伴。

什么是triton inference server？

肯定很多人想知道triton干啥的，学习这个有啥用？这里简单解释一下：

triton可以充当服务框架去部署你的深度学习模型，其他用户可以通过http或者grpc去请求，相当于你用flask搭了个服务供别人请求，当然相比flask的性能高很多了
triton也可以摘出C-API充当多线程推理服务框架，去除http和grpc部分，适合本地部署多模型，比如你有很多模型要部署，然后分时段调用，或者有pipeline，有了triton就省去你处理显存、内存和线程的麻烦

注意，还有一个同名的triton是GPU编程语言，类似于TVM的TVMscript，需要区分，这篇文章中的triton指的是triton inference server

借用官方的图，triton的使用场景结构如下：

涉及到运维部分，我也不是很懂，抛去K8S后，结构清爽了些：

triton的一些优点

通过上述的两个结构图，可以大概知道triton的一些功能和特点：

支持HTTP/GRPC
支持多backend，TensorRT、libtorch、onnx、paddle、tvm啥的都支持，也可以自己custom，所以理论上所有backend都可以支持
单GPU、多GPU都可以支持，CPU也支持
模型可以在CPU层面并行执行
很多基本的服务框架的功能都有，模型管理比如热加载、模型版本切换、动态batch，类似于之前的tensorflow server
开源，可以自定义修改，很多问题可以直接issue，官方回复及时
NVIDIA官方出品，对NVIDIA系列GPU比较友好，也是大厂购买NVIDIA云服务器推荐使用的框架
很多公司都在用triton，真的很多，不管是互联网大厂还是NVIDIA的竞品都在用，用户多代表啥不用我多说了吧

如何学习triton

两年前开始学习的时候，官方资料比较匮乏，只能通过看源码来熟悉triton的使用方式，所幸知乎上有个关于TensorRT serving不错的教程，跟着看了几篇大致了解了triton的框架结构。那会triton叫做TensorRT serving，专门针对TensorRT设计的服务器框架，后来才变为triton，支持其他推理后端的。

现在triton的教程比较多了，官方的docs写着比较详细，还有issue中各种用例可以参考，B站上也有视频教程，比两年前的生态要好了不少。

当然，最重要的，还是上手使用，然后看源码，然后客制化。

源码学习

从triton的源码中可以学到：

C++各种高级语法
设计模式
不同backend（libtorch、TensorRT、onnxruntime等）如何正确创建推理端，如何多线程推理
C++多线程编程/互斥/队列
API接口暴露/SDK设计
CMAKE高级用法

等等等等，不列举了，对于程序员来说，好的源码就是好的学习资料。当然，也可以看老潘的文章哈。

triton系列教程计划

triton相关系列也会写一些文章，目前大概规划是这些：

什么是triton以及triton入门、triton编译、triton运行
triton管理模型、调度模型的方式
triton的backend介绍、自定义backend
自定义客户端，python和c++
高级特性、优先级、rate limiter等等

编译和安装

一般来说，如果想快速使用triton，直接使用官方的镜像最快。但是官方镜像有个尴尬点，那就是编译好的镜像需要的环境一般都是最新的，和你的不一定一致 !

比如22.09版本的镜像需要的显卡驱动为520及以上，如果想满足自己的显卡驱动，就需要自行编译了。官方也提供了使用镜像的快速使用方法：

# 第一步，创建 model repository 
git clone -b r22.09 https://github.com/triton-inference-server/server.git
cd server/docs/examples
./fetch_models.sh

# 第二步，从 NGC Triton container 中拉取最新的镜像并启动
docker run --gpus=1 --rm --net=host -v ${PWD}/model_repository:/models nvcr.io/nvidia/tritonserver:22.09-py3 tritonserver --model-repository=/models

# 第三步，发送
# In a separate console, launch the image_client example from the NGC Triton SDK container
docker run -it --rm --net=host nvcr.io/nvidia/tritonserver:22.09-py3-sdk
/workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION /workspace/images/mug.jpg

# Inference should return the following
Image '/workspace/images/mug.jpg':
    15.346230 (504) = COFFEE MUG
    13.224326 (968) = CUP
    10.422965 (505) = COFFEEPOT

triton官方仓库

两年前的triton只有一个大仓库，tensorrt_backend也默认在triton主仓库中，但是现在tensorrt_backend被拆分出来了，很显然triton除了支持tensorrt还支持很多其他的后端，我们可以自定义使用很多后端。

现在是目前的triton包含的一些仓库：

[server] triton服务外层框架，包含了http收发请求，服务内存分配等一些功能代码
[core] triton主框架，如果处理请求、后端管理、模型调度啥的全在这里
[common] 通用工具，没啥好说的，打日志的代码在这里
[backend] backend后端框架代码，存放了一些后端通用父类，自定义后端可以集成这些类仿写新的后端
[third_party] triton使用的第三方库的汇总，主要是cmake里头会包含
[tensorrt_backend] tensorrt后端代码
[pytorch_backend] libtorch后端代码

最开始的时候，server、core、common、backend这些代码仓库都是合在一起的，后来都拆分出来了，增加了triton的灵活性。

比如，上述的core仓库可以单独暴露出cAPI作为动态链接库供其他程序调用，去掉http、grpc的外层请求接口，直接一步到位调用。

一般来说，我们都是从最主要的server开始编，编译的时候会链接core、common、backend中的代码，其他自定义backend（比如tensorrt_backend）在编译的时候也需要带上common、core、backend这三个仓库，这些关系我们可以从相应的CMakeList中找到。

自行编译

如果想要研究源码，修改源码实现客制化，那么自行编译是必须的。

triton的编译和安装其实很简单，唯一的难点就是需要加速，因为triton在编译的时候会clone很多第三方库，第三方库也会克隆它们需要的第三方库，这些库当然都是国外的，所以有个好的网络环境很重要。

比如在编译triton的时候需要下载grpc这个库，grpc又依赖很多第三方其他库，网络不好的话，会经常遇到下面的问题：

Failed to recurse into submodule path 'third_party/bloaty'
CMake Error at /tmp/tritonbuild/tritonserver/build/_deps/repo-third-party-build/grpc-repo/tmp/grpc-repo-gitclone.cmake:52 (message):
  Failed to update submodules in:
  '/tmp/tritonbuild/tritonserver/build/_deps/repo-third-party-build/grpc-repo/src/grpc'


make[3]: *** [_deps/repo-third-party-build/CMakeFiles/grpc-repo.dir/build.make:99: _deps/repo-third-party-build/grpc-repo/src/grpc-repo-stamp/grpc-repo-download] Error 1
make[3]: Leaving directory '/tmp/tritonbuild/tritonserver/build'
make[2]: *** [CMakeFiles/Makefile2:590: _deps/repo-third-party-build/CMakeFiles/grpc-repo.dir/all] Error 2
make[2]: Leaving directory '/tmp/tritonbuild/tritonserver/build'
make[1]: *** [CMakeFiles/Makefile2:145: CMakeFiles/server.dir/rule] Error 2
make[1]: Leaving directory '/t

最低0.47元/天解锁文章