TensorRT-LLM Best Practices

原创

已于 2024-12-28 11:35:22 修改 · 558 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

于 2024-11-03 11:32:19 首次发布

原文链接

开启inflight-batching, client侧需要使用inflight_batcher_llm_client.py：

python3 inflight_batcher_llm/client/inflight_batcher_llm_client.py --request-output-len 200 --tokenizer-dir ${HF_LLAMA_MODEL}

bad_words: output中不允许出现的词语；

stop_words: output生成到这些词，则停止；

build engine常用参数：

--gpt_attention_plugin float16

--gemm_plugin float16

--context_fmha enable

--kv_cache_type paged：Paged KV Cache?

Best Practices for Tuning the Performance of TensorRT-LLM — tensorrt_llm documentation

`max_batch_size`, `max_seq_len` and `max_num_tokens`

--multiple_profiles: 允许trtllm多次尝试，其自动选取性能最好的；

1. 默认打开：--gpt_attention_plugin：in-place update on KV cache；减少了显存占用，减少了显存copy;

2. 默认打开：--context_fmha：attention计算这里，是否采用fused kernel；短句子，用vanilla；长句子，用FlashAttention和FlashAttention2;

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

smartcat2010

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

GQA，MLA之外的另一种KV Cache压缩方式：动态内存压缩（DMC）

I good vegetable a!

06-08

1764

Transformer 已经成为大型语言模型 (LLM) 的核心。然而，由于需要在内存中存储过去token的key value的缓存（KV Cache），而缓存的大小与输入序列长度和batch大小线性相关，因此生成仍然效率低下。为了解决这个问题，paper提出了动态内存压缩 (DMC)，一种在推理时对KV Cache进行在线压缩的方法。最重要的是，模型学习在不同的注意力头和layer中应用不同的压缩率。

全面解析 LLM 推理性能的关键因素

安静的软件工程师

02-12

5443

全面解析 LLM 推理性能的关键因素

参与评论您还未登录，请先登录后发表或查看评论

TensorRT-LLM 性能调优指南：关键运行时参数详解

gitblog_00378的博客

06-04

482

在大型语言模型(LLM)推理部署过程中，合理的运行时参数配置对性能优化至关重要。本文将深入解析 TensorRT-LLM 中影响推理性能的关键运行时参数，帮助开发者根据实际需求进行精细调优。 ## 批处理调度策略 TensorRT-LLM 提供了三种批处理调度策略，适用于不同的应用场景： 1. **GUARANTEED_NO_EVICT（默认策略）** - 保证已开始的请求不会被中断 ...

ChatGLM3模型基于TensorRT-LLM的高性能部署指南

gitblog_00863的博客

06-03

260

随着大语言模型(LLM)的快速发展，如何高效部署这些模型成为工程实践中的关键挑战。本文将详细介绍如何利用NVIDIA TensorRT-LLM框架来部署ChatGLM3系列模型，实现高性能推理。 ## TensorRT-LLM简介 TensorRT-LLM是NVIDIA推出的专为大语言模型优化的推理框架，具有以下核心优势： 1. **高性能推理**：通过内核融合、算子优化等技术显著提升推理速...

TensorRT-LLM保姆级教程（三）-使用Triton推理服务框架部署模型

吃果冻不吐果冻皮

09-25

3553

TensorRT-LLM 是一个用于定义大语言模型并构建 TensorRT 引擎的 Python API，以高效地在 NVIDIA GPU 上执行推理。TensorRT-LLM 包含用于创建 Python 和 C++ 运行时以及执行这些 TensorRT 引擎的组件。它还包括一个用于与NVIDIA Triton 推理服务集成的后端（tensorrtllm_backend）；使用 TensorRT-LLM 构建的模型可以在单个 GPU或在具有多个 GPU 的多个节点上执行（（使用张量并行或流水线并行））。

用TensorRT-LLM进行LLama的推理和部署

smartcat2010的博客

06-17

1743

再用TensorRT-LLM将其compile为TensorRT engine；然后可用TensorRT-LLM的C++ runtime来跑推理（或者模型放到Triton Repo上，并指定TensorRT-LLM为backend）Input的Tokenizing和Output的De-Tokenizing，视作前处理、后处理，创建"Python Model"；整个流程用一个"Ensemble Model"来表示，包含以上两个"Model"以及真正的GPT-Model;

大模型部署TensorRT-LLM保姆级教程（三）- 使用Triton推理服务框架部署模型

奇华资料的博客

03-05

1391

TensorRT-LLM低延迟推理：毫秒级响应的实现方案

gitblog_00283的博客

09-06

689

你是否还在为大语言模型（LLM）推理的高延迟问题困扰？当用户期待实时交互时，即使是数百毫秒的延迟也可能显著影响体验。TensorRT-LLM作为NVIDIA推出的高性能LLM推理优化库，通过一系列创新技术将推理延迟降至毫秒级，为生产环境中的实时对话、智能客服等场景提供了强大支持。本文将系统介绍TensorRT-LLM实现低延迟推理的核心技术方案，包括量化优化、注意力机制创新、批处理策略、KV缓...

tensorrt llm

01-14

1. What are some best practices for optimizing LLMs specifically tailored for edge devices? 2. How does quantization impact the accuracy versus speed trade-off in LLM deployments? 3. Can you provide ...

AI原生应用性能监控：LLM运行时优化策略

AI算力网络与通信的博客

07-29

957

随着大语言模型（LLMs）如GPT系列、Claude、LLaMA、Gemini等的飞速发展，AI原生应用（AI-Native Applications）正以前所未有的速度渗透到各行各业，从智能客服、内容创作、代码辅助、教育培训到科学研究、医疗诊断，LLMs正成为驱动创新的核心引擎。然而，与LLMs强大能力相伴而生的，是其对计算资源的巨大需求和复杂的运行时行为。LLM推理通常涉及数十亿甚至数千亿参数的矩阵运算，对内存带宽、计算能力和存储都有极高要求。响应延迟（Latency）过高。

TensorRT-Best-Practices.pdf

03-17

TensorRT-Best-Practices.pdf

前沿论文 | LLM推理性能优化最佳实践

张伟的专栏

04-19

2799

当batch size为1时，4xA100-40GB GPU对应的MBU为55%，而2xH100- 80GB GPU上可以实现更高的MBU，达到60%（如图2所示）。曲线上的每一条线都是通过将batch size从1增加到256得到的，有助于确定在不同的延迟限制条件下，我们可以使用的batch size。有些服务器在所有GPU之间都是高带宽连接，而有些服务器的GPU是成对的，之间的通信带宽较低。此外，在下一次token生成的迭代过程中，新的KV项会被添加到现有的缓存中，使缓存随着新token的生成而增大。

Javaweb 学习笔记——html+css

hssfscv的博客

12-18

511

以上是Javaweb中关于前端html和css的相关内容，主要制作了两个页面，了解了如何使用AI生成我们需要的内容，有利于了解前端知识，接下来将进行剩余前端知识的学习

【算法笔记】AC自动机

最新发布

u012559967的专栏

12-19

504

AC自动机: AC自动机是一种高效的多模式字符串匹配算法，它巧妙地将 Trie树的字典结构与 KMP算法的失配指针思想相结合，能同时在一段文本中查找多个模式串的所有出现位置，广泛应用于敏感词过滤、生物信息学序列分析等领域。在字符串匹配领域，我们会遇到两类问题：单模式匹配：给定一个文本字符串和一个模式字符串，判断模式字符串是否出现在文本字符串中。《【算法笔记】KMP算法》多模式匹配：给定一个文本字符串和多个模式字符串，判断所有模式字符串是否出现在文本字符串中。解决方案：AC自动机算法。

Android学Dart学习笔记第十四节库和导库

weixin_44656996的博客

12-15

796

其他语言中的访问修饰符关键字提供了更细粒度的控制，而Dart使用下划线和基于库的隐私提供了直接的配置机制，有助于高效实现动态访问，并改进了树抖动（死代码消除）。库不仅提供api，还是隐私的单位：以下划线（_）开头的标识符只在库内部可见。当你导入的多个库中，使用了相同的类名时，可以为库起个别名，使用别名.类名明确指定所引用的类。使用import来指定如何在另一个库的作用域中使用来自一个库的命名空间。带有通配符_的导入前缀是不绑定的，但可以访问该库中的非私有扩展。

【大模型】happy-llm笔记

weixin_45207619的博客

12-16

155

今天看了这套课程的第二章到第四章的内容，对自己一直以来好奇的一些llm相关的问题有了解答。将我遇到的问题整理到下面，部分可能没有回答，感兴趣的同学可以去原课程查找。happy-llm是datawhale发布的一套关于llm的教程，链接。

北京大学国家发展研究院经济学辅修经济学原理课程笔记（第七课国际贸易）

hanmo22357的博客

12-16

686

核心差异：大国可以通过关税影响世界价格，从而产生贸易条件改善的收益。这是小国做不到的。福利影响的复杂性：正因为贸易条件效应的存在，大国征收关税是否对自身有利，需要根据具体情况进行详细讨论，不再是一个简单的必然受损的结论。配额的影响：在大国情景下，配额同样会因为限制贸易量而影响世界价格。其作用与关税类似，但主要的区别仍然在于，由国内外价差和世界价格变动所产生的超额利润（即“配额租金”或“贸易条件收益”），会流入拥有配额许可的企业手中，而不是进入政府国库。

算法笔记19 - 图和通用结构 | 图的两种遍历 | 三种拓扑排序 | 两种最小生成树算法Kruskal, Prim | 最短路径算法Dijkstra

zyw4259的博客

12-16

755

本文提出了一种通用的图结构设计方案，包含节点(Node)、边(Edge)和图(Graph)三个核心类，能够将不同输入格式的图统一转换为标准结构。基于该结构实现了两种图遍历算法：BFS采用"进队时标记"策略避免重复访问，DFS通过"curr回压+break"技巧模拟递归调用栈。此外还介绍了三种拓扑排序方法，重点分析了基于入度的Kahn算法(BFS思想)，通过维护入度表和零入度队列实现。这种"通用结构+标准算法"的设计模式可以有效降低不同图算法题目间的

网络安全中级阶段学习笔记（七）：Web 安全之文件上传漏洞笔记1（包含upload-labs-master靶场前三关实战）

2501_91976946的博客

12-15

868

摘要：本文系统梳理文件上传漏洞攻防要点，包含漏洞定义、危害（如Webshell控制服务器）、检测流程及多种绕过技巧（JS验证、MIME-Type、黑名单等）。重点提出"白名单+多环节验证"防御方案，包括严格后缀验证、文件类型检测、权限控制等。补充靶场实践案例，演示通过修改后缀、利用解析特性实现漏洞利用。强调防御需结合前端限制、服务端校验与安全监控，构建纵深防护体系。

TensorRT-LLM安装使用全流程解读

资源摘要信息:"TensorRT-LLM的安装与使用" TensorRT（Tensor Runtime）是NVIDIA推出的一个深度学习推理加速器，旨在优化深度学习模型在NVIDIA GPU上的运行效率，尤其在推理（Inference）阶段，即模型对新的输入数据...

TensorRT-LLM Best Practices

max_batch_size, max_seq_len and max_num_tokens

`max_batch_size`, `max_seq_len` and `max_num_tokens`