TensorRT-LLM 性能调优指南:关键运行时参数详解
引言
在大型语言模型(LLM)推理部署过程中,合理的运行时参数配置对性能优化至关重要。本文将深入解析 TensorRT-LLM 中影响推理性能的关键运行时参数,帮助开发者根据实际需求进行精细调优。
批处理调度策略
TensorRT-LLM 提供了三种批处理调度策略,适用于不同的应用场景:
-
GUARANTEED_NO_EVICT(默认策略)
- 保证已开始的请求不会被中断
- 保守的内存管理方式,确保KV缓存不会溢出
- 适合对延迟敏感的稳定场景
-
MAX_UTILIZATION
- 最大化GPU利用率
- 尽可能多地并行处理请求
- 可能因KV缓存限制而暂停部分请求
- 适合追求高吞吐量的场景
-
STATIC_BATCH(遗留模式)
- 静态批处理方式
- 不推荐在生产环境中使用
配置示例
from tensorrt_llm.bindings.executor import SchedulerConfig, CapacitySchedulerPolicy
scheduler_config = SchedulerConfig(
capacity_scheduler_policy=CapacitySchedulerPolicy.MAX_UTILIZATION
)
llm = LLM(
model="meta-llama/Llama-3.3-70B-Instruct",
tensor_parallel_size=4,
scheduler_config=scheduler_config
)
上下文分块策略
上下文分块技术通过将长上下文分割处理,平衡计算负载,提高吞吐量。TensorRT-LLM 提供两种策略:
-
FIRST_COME_FIRST_SERVED(默认策略)
- 优先处理先到请求的所有分块
- 通常能获得更好的整体性能
-
EQUAL_PROGRESS
- 均衡处理所有请求的分块
- 使各请求的首令牌时间(TTFT)更接近
- 适合需要公平性的场景
配置示例
from tensorrt_llm.bindings.executor import SchedulerConfig, ContextChunkingPolicy
scheduler_config = SchedulerConfig(
context_chunking_policy=ContextChunkingPolicy.EQUAL_PROGRESS
)
KV缓存管理
KV缓存是影响推理性能的关键因素,TensorRT-LLM 提供两种控制方式:
-
max_tokens_in_paged_kv_cache
- 直接设置KV缓存管理的最大token数
- 适用于明确知道模型所需KV缓存大小的场景
-
kv_cache_free_gpu_mem_fraction
- 设置用于KV缓存的GPU内存比例(0.0-1.0)
- 默认值0.90,即90%的可用GPU内存用于KV缓存
- 推荐值0.95(当GPU无其他任务时)
配置建议
- 除非明确需求,建议不设置max_tokens_in_paged_kv_cache
- kv_cache_free_gpu_mem_fraction不能设为1.0,需保留部分内存给输入输出
配置示例
from tensorrt_llm.bindings.executor import KvCacheConfig
# 方式一:设置内存比例
kv_cache_config = KvCacheConfig(free_gpu_memory_fraction=0.95)
# 方式二:直接设置token数
kv_cache_config = KvCacheConfig(max_tokens=10000)
注意力窗口大小
max_attention_window_size参数控制滑动窗口注意力机制中的最大关注范围:
- 默认值为引擎构建时的max_seq_len(即禁用该特性)
- 设置为小于max_seq_len的值时:
- 仅保留最近max_attention_window_size个token的KV缓存
- 可能降低准确性但提升性能
- 适合长序列处理场景
配置示例
kv_cache_config = KvCacheConfig(max_attention_window=2048)
总结
TensorRT-LLM 的运行时参数调优需要根据具体场景权衡:
- 追求高吞吐量:考虑MAX_UTILIZATION策略+高kv_cache_free_gpu_mem_fraction
- 要求低延迟:选择GUARANTEED_NO_EVICT策略
- 处理长序列:适当设置max_attention_window_size
建议开发者通过基准测试找到最适合自己应用场景的参数组合,以获得最佳性能表现。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



