GPU推理服务性能优化之路｜得物技术

原创

于 2023-03-22 15:20:59 发布 · 1.9k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #运维

本文介绍了如何通过Python的CPU与GPU进程分离及使用TensorRT对模型进行优化，提升线上推理服务的QPS，减少了成本。自研的框架实现了CPU与GPU的自动隔离，并提供了TensorRT模型转换的调试工具。通过这些方法，部分模型服务的QPS提升了5-10倍。文章还分享了优化技巧，如开启半精度优化和同模型混合部署等。

1背景

随着CV算法在业务场景中使用越来越多，给我们带来了新的挑战，需要提升Python推理服务的性能以降低生产环境成本。为此我们深入去研究Python GPU推理服务的工作原理，推理模型优化的方法。最终通过两项关键的技术: 1.Python的GPU与CPU进程分离，2.使用TensorRT对模型进行加速，使得线上大部分模型服务QPS提升5-10倍左右，大量节约了线上GPU推理服务的成本。

针对上面的两项关键技术，我们还自研了相关框架与工具进行沉淀。包括基于Python的CPU与GPU进程自动隔离的推理服务框架，以及对推理模型进行转TensorRT优化的调试工具。

此外针对不同的推理服务性能瓶颈，我们还梳理了各种实战优化技巧，比如CPU与GPU分离，TensorRT开启半精度优化，同模型混合部署，GPU数据传输与推理并行等。

下面从理论，框架与工具，实战优化技巧三个方面介绍下推理服务性能优化的方法。