Triton推理服务器加速模型推理! |
文章目录
一. Triton简要介绍
- NVIDIA Triton(英伟达官网)推理服务器在生产中提供快速且可扩展的 AI。开源推理服务软件 Triton Inference Server 通过使团队能够从任何框架 (TensorFlow、NVIDIA TensorRT、PyTorch、ONNX、XGBoost、Python、自定义等) 在任何基于 GPU 或 CPU 的基础设施上部署经过训练的 AI 模型,从而简化 AI 推理(云、数据中心或边缘)。
- Triton如下特点:
- ① 支持多个框架: Triton 推理服务器支持所有主要框架,例如 TensorFlow、TensorR