TensorRT-LLM初体验
千呼万唤始出来,备受期待的Tensorrt-LLM终于发布,发布版本0.5.0。

github:
https://github.com/NVIDIA/TensorRT-LLM/tree/main
1.介绍
TensorRT-LLM可以视为TensorRT和FastTransformer的结合体,旨为大模型推理加速而生。
1.1丰富的优化特性
除了FastTransformer对Transformer做的attention优化、softmax优化、算子融合等方式之外,还引入了众多的大模型推理优化特性:
Multi-head Attention(MHA)
Multi-query Attention (MQA)
Group-query Attention(GQA)
In-flight Batching
Paged KV Cache for the Attention
Tensor Parallelism
Pipeline Parallelism

本文介绍了TensorRT-LLM,一个结合了TensorRT和FastTransformer的工具,专注于大模型推理优化。它包含多种优化技术,如Multi-headAttention等,并支持多种开源大模型。文章详细说明了如何编译和使用TensorRT-LLM,并提供了性能对比实例。
最低0.47元/天 解锁文章
1262

被折叠的 条评论
为什么被折叠?



