大模型推理优化--TensorRT-LLM初体验

原创

已于 2023-11-10 10:13:14 修改 · 3.3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #人工智能 #深度学习

于 2023-10-20 15:16:27 首次发布

本文介绍了TensorRT-LLM，一个结合了TensorRT和FastTransformer的工具，专注于大模型推理优化。它包含多种优化技术，如Multi-headAttention等，并支持多种开源大模型。文章详细说明了如何编译和使用TensorRT-LLM，并提供了性能对比实例。

TensorRT-LLM初体验

千呼万唤始出来，备受期待的Tensorrt-LLM终于发布，发布版本0.5.0。

在这里插入图片描述

github:
https://github.com/NVIDIA/TensorRT-LLM/tree/main

1.介绍

TensorRT-LLM可以视为TensorRT和FastTransformer的结合体，旨为大模型推理加速而生。

1.1丰富的优化特性

除了FastTransformer对Transformer做的attention优化、softmax优化、算子融合等方式之外，还引入了众多的大模型推理优化特性：

Multi-head Attention(MHA)
Multi-query Attention (MQA)
Group-query Attention(GQA)
In-flight Batching
Paged KV Cache for the Attention
Tensor Parallelism
Pipeline Parallelism

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

有来有去9527

关注关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大模型部署指南：TensorRT-LLM 框架

举世誉之而不加劝，举世非之而不加沮，定乎内外之分，辩乎荣辱之境，斯已矣。

09-24

1262

本文介绍TensorRT-LLM大模型部署框架的使用

LLM推理部署（二）：英伟达LLM推理部署工具TensorRT-LLM

wshzd的博客

11-03

2350

在大模型时代，各大公司在陆续推出和优化各自的底座大模型，不断刷新榜单，然而大模型的超大参数给生产部署带来了很大的困难，由此也带来大模型部署框架的蓬勃发展（可以参考之前写的。

2 条评论您还未登录，请先登录后发表或查看评论

NVIDIA大模型推理框架：TensorRT-LLM软件流程（一）

最新发布

chinamaoge的博客

10-19

819

通过trtllm-serve启动部署大模型推理框架Server端作为切入点，对整个TensorRT-LLM推理引擎的启动、加载模型文件、接收推理请求并且给出推理结构的整个流程，给出代码层面的详细梳理！

用TensorRT-LLM跑通chatGLM3_6B模型

weixin_51954774的博客

02-24

2907

用TensorRT-LLM跑通chatGLM3_6B模型

TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理

吃果冻不吐果冻皮

12-04

3719

接下来以Bloom模型为例，进行 TensorRT-LLM 开发实践。build.py：用于构建 TensorRT 引擎来运行Bloom模型。run.py：模型推理。：使用模型来总结 CNN Dailymail 数据集中的文章。：将HF格式的模型进行转换。支持 FP16支持 INT8 & INT4 仅权重量化支持 INT8 KV CACHE 量化支持SmoothQuant 量化支持张量并行大模型量化概述进行过简要概述，后续有时间更详细的梳理常见的一些大模型量化技术。

【nvidia】TensorRT-LLM

静谧、淡雅

04-16

1536

TensorRT-LLM

大模型部署-使用Triton+TensorRT-LLM部署ChatGLM3-6B大模型-附项目源码+流程教程-优质项目实战

10-15

它能够提供高性能、高可用性的模型推理服务，尤其适合于生产环境。Triton通过统一接口与模型仓库的概念，使得模型部署变得更加简便和标准化。在大模型部署方面，Triton能够有效管理多个模型的生命周期，支持自动扩...

大模型推理框架解析（vLLM、TensorRT-LLM、TGI 等）

技术引领业务创新

08-07

2622

大模型推理框架全面解析（摘要）当前大模型推理面临显存墙、计算密度低等核心挑战，主流框架通过技术创新实现性能突破。vLLM采用PagedAttention和连续批处理，显存利用率超95%；TensorRT-LLM通过定制内核和量化流水线，延迟优化显著；SGLang的RadixAttention技术使多轮对话吞吐提升5倍。实测显示，TensorRT-LLM在吞吐量（3880 tokens/s）和首Token延迟（85ms）上表现最优，而SGLang在长上下文支持（256K）和显存占用（410GB）更具优势。未

大模型部署-基于TensorRT-LLM部署Qwen1.5大语言模型-附项目源码+流程教程-优质项目实战.zip

10-15

TensorRT是NVIDIA推出的一个深度学习推理优化器，它旨在提升深度学习模型在NVIDIA硬件上的性能和推理速度。TensorRT针对GPU架构进行了深度优化，能够将训练好的深度学习模型转换成高效的运行时引擎，从而在保持精度...

TensorRT-LLM——优化大型语言模型推理以实现最大性能的综合指南

知来者逆的博客

09-17

3531

TensorRT-LLM 允许您使用简单的 Python API 定义 LLM。该 API 构建一个图形表示模型，使其更容易管理 GPT 或 BERT 等 LLM 架构中涉及的复杂层。

大模型推理框架（四）TensorRT-LLM

深数研究院

01-04

1223

TensorRT-LLM是 NVIDIA 提供的一个用于优化大型语言模型（LLMs）在 NVIDIA GPU 上的推理性能的开源库。它通过一系列先进的优化技术，如量化、内核融合、动态批处理和多 GPU 支持，显著提高了 LLMs 的推理速度，与传统的基于 CPU 的方法相比，推理速度可提高多达 8 倍；

TensorRT-llm入门

weixin_40777649的博客

05-13

2904

3. int8-kv-cache量化: KV Cache 量化是指将逐 Token（Decoding）生成过程中的上下文 K 和 V 中间结果进行 INT8 量化（计算时再反量化），以降低生成过程中的显存占用。最先进的量化方法，如SmoothQuant和AWQ，在量化造成的性能损失适中时，可以有效提升性能。1. 模型量化参考：https://github.com/NVIDIA/TensorRT-LLM/tree/main/examples/qwen。对于伦理任务，小型模型对量化的敏感性更高。

（一）TensorRT-LLM | 初探（v0.20.0rc3）

Skies_的博客

05-30

1373

TensorRT-LLM 大模型推理后端快速使用

TensorRT-LLM | 大模型部署专用框架

CV_Autobot的博客

10-21

672

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『大模型部署』技术交流群编辑 | 自动驾驶之心TensorRT-LLM是NVIDIA推出的一款高性能深度学习推理优化库，专注于提升大型语言模型（LLM）在NVIDIA GPU上的推理速度和效率。如果您绕不开Nvidia的芯片，那么一定要好好了解这款推理库。项目链接：http...

TensorRT与LLM完美结合：保姆级教程带你飞

2401_84204413的博客

12-09

2131

接下来以Bloom模型为例，进行 TensorRT-LLM 开发实践。Bloom 示例中主要文件：build.py：用于构建 TensorRT 引擎来运行Bloom模型。run.py：模型推理。summarize.py：使用模型来总结 CNN Dailymail 数据集中的文章。hf_bloom_convert.py：将HF格式的模型进行转换。TensorRT-LLM 中，目前针对 Bloom 模型支持的特性如下：支持 FP16支持 INT8 & INT4 仅权重量化。

TensorRT-LLM保姆级教程（一）-快速入门

吃果冻不吐果冻皮

12-04

3131

Protobuf是一种轻量级的、高效的数据交换格式，但它在序列化和反序列化大型数据时有一个默认的大小限制。同时，它的接口和文档相对较少，用户可能需要更深入地了解其底层实现和使用方式，这对于初学者来说可能会增加学习和使用的难度。并且 FastTransformer 的生态较小，可用的资源和支持较少，这也会增加使用者在理解和应用 FastTransformer 上的困难。随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。

TensorRT-LLM 深度解析：解锁大模型极致推理性能

小钻风的博客

08-25

1431

TensorRT-LLM：NVIDIA的大模型推理加速利器摘要：TensorRT-LLM是NVIDIA推出的高性能大语言模型推理框架，通过三级架构设计实现极致优化：1）Pythonic模型定义层保持开发灵活性；2）AOT编译层实现算子融合与内核调优；3）运行时系统支持动态批处理。核心优势包括：支持H100专属FP8量化，吞吐量达6000+tokens/s；分页KV缓存将显存碎片率从35%降至5%；相比vLLM等框架，在NVIDIA硬件上性能提升50%以上。

让我们一起走进TensorRT-LLM

helloworldchina的博客

07-02

1242

TensorRT-LLM 是 NVIDIA 开发的一款高性能大语言模型（LLM）推理优化工具，专为加速 Transformer 架构设计，可显著提升各类大语言模型（如 GPT、Llama、BERT 等）的推理速度和吞吐量。

1. Tensorrt-llm 基础

yangyu222的专栏

06-27

2477

修改/usr/local/lib/python3.10/dist-packages/tensorrt_llm/quantization/quantize.py。其中exclusive 为不想量化的decode block。转换huggince face 模型为checkpoint。同样exclusive_modules 为不想量化的层。注意： cuda 版本不必和宿主机cuda 版本一致。可以看出放弃最后几层的量化是对模型精度有略微提升的。注意：截至2024年6月建议安装0.10.0。

AI大模型Qwen-7B应用与TensorRT-LLM模型优化实践

资源摘要信息:"《AI大模型应用》--2023复赛选题：通义千问Qwen-7B用TensorRT-LLM模型搭建及优化.zip" 本文档是关于AI大模型应用领域的专业成果分享，特别是在使用通义千问Qwen-7B模型，并结合TensorRT-LLM进行模型...