基于 LightLLM 实战部署 DeepSeek R1/V3 模型

部署运行你感兴趣的模型镜像
观看地址:qingkelabs.github/io/talks

随着ChatGPT的流行,大语言模型(简称LLM)受到越来越多的关注。此类模式的出现,极大地提高了人们的工作效率。 然而,进一步广泛使用LLM的关键在于如何以低成本和高吞吐量地部署数十亿参数的模型。 为了提高大模型服务的吞吐量,让更多感兴趣的研究人员快速参与进来, 一种名为 LightLLM 的轻量级 LLM 推理服务框架应运而生。

图片

LightLLM 引入了一种更细粒度的kvCache管理算法,称为TokenAttention, 并设计了一个与TokenAttention高效配合的Efficient Router调度算法。 通过 TokenAttention 和 Efficient Router 的配合, LightLLM 在大多数场景下实现了比 vLLM 和 Text Generation Inference 更高的吞吐量, 甚至在某些情况下性能提升了 4 倍左右。

图片

重要特性

  • 多进程协同:分词、语言模型推理、视觉模型推理、分词等工作异步进行,大幅提高GPU利用率。

  • 零填充:提供对跨多个模型的 nopad-Attention 计算的支持,以有效处理长度差异较大的请求。

  • 动态批处理:能够对请求进行动态的批处理调度。

  • FlashAttention:结合 FlashAttention 来提高推理过程中的速度并减少 GPU 内存占用。

  • 向量并行:利用多个 GPU 进行张量并行性从而加快推理速度。

  • Token Attention:实现了以token为单位的KV缓存内存管理机制,实现推理过程中内存零浪费。

  • 高性能路由:结合Token Attention,对GPU内存以token为单位进行精致管理,优化系统吞吐量。

  • int8 KV Cache:该功能可以将最大token量提升解决两倍。现在只支持llama架构的模型。

LightLLM v1.0.0 的架构创新

LightLLM 的新框架

LightLLM 的新框架

跨进程请求对象

通过ctypes实现跨进程可访问的请求对象,显著降低高并发场景下的进程间通信开销。采用共享内存存储请求元数据,将必要数据传输量降至最低。

三进程架构演进

保留原有三进程设计,引入折叠式调度与模型推理机制,彻底消除旧版本路由层与模型RPC间的通信开销。

张量缓存管理器

新增CacheTensorManager类,统一管理Torch张量的分配与释放。实现运行时跨层张量共享,以及不同CUDA图之间的内存复用。实测表明,在8×80GB H100集群上,使用DeepSeek-v2模型可同时运行200个CUDA图而不会出现内存不足(OOM)。

DeepSeek 优化

LightLLM 针对 DeepSeek R1 进行了深度优化,在单机 H200 上达到了当前开源框架中的最佳性能。

由于 Prefill(计算密集型)和 Decode(内存密集型)的计算特性不同,LightLLM 对 DeepSeek MLA 进行了不同的优化。在 Prefill 阶段,LightLLM 解压缩 KV 缓存,而在 Decode 阶段,LightLLM 压缩查询(q)以实现最佳性能。此外,LightLLM 利用 OpenAI 的 Triton 实现了高性能 Decode MLA 和融合 MoE 内核。

下图是LightLLM、sglang==0.4.3、vllm==0.7.2、trtllm==0.17.0在单机H200上的性能对比,使用DeepSeek-R1(num_clients = 100),测试数据输入长度为1024,输出服从均值为128的高斯分布,LightLLM取得了更好的性能。

图片

3月8日上午11点,青稞Talk 第40期,商汤科技大模型工具体系团队研究员、LightLLM 核心开发人员白世豪,将直播分享《基于 LightLLM 的 DeepSeek R1/V3 模型部署实战》。

分享嘉宾

白世豪,商汤科技大模型工具体系团队研究员,LightLLM核心开发人员,主要负责大语言模型推理加速,探索更高效的大语言模型服务技术,在ASPLOS, IJCAI、AAAI、ICCV等期刊会议发表论文十篇。

主题提纲

基于 LightLLM 的 DeepSeek R1/V3 模型部署实战

1、LightLLM 框架及特性解读
2、PD 分离原型实现
3、针对 DeepSeek 系列模型的专项优化
4、DeepSeek R1/V3 部署实战

直播时间

3月8日(周六) 11:00 -12:00

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值