自然语言处理:第一百零四章 生产环境vLLM 部署 DeepSeek,如何调优,看这里

本人项目地址大全:Victor94-king/NLP__ManVictor: 优快云 of ManVictor


写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!


之前有小伙伴想让我出一篇,生产环境如何部署deepseek,什么样的配置能生产可用,今天我用双4090,测试几个模型。大家看看。 非常感谢提供环境的朋友。

vLLM 简单介绍

vLLM 是一个快速且易于使用的 LLM 推理和服务库。

vLLM(Very Large Language Model Serving)是由加州大学伯克利分校团队开发的高性能、低延迟的大语言模型(LLM)推理和服务框架。它专为大规模生产级部署设计,尤其擅长处理超长上下文(如8k+ tokens)和高并发请求,同时显著优化显存利用率,是当前开源社区中吞吐量最高的LLM推理引擎之一。

  • 高吞吐量 :采用先进的服务器吞吐量技术。
  • 内存管理 :通过PagedAttention高效管理注意力键和值内存。
  • 请求批处理 :支持连续批处理传入请求。
  • 模型执行 :利用CUDA/HIP图实现快速模型执行。
  • 量化技术 :支持GPTQ、AWQ、INT4、INT8和FP8量化。
  • 优化内核 :包括与FlashAttention和FlashInfer的集成。
  • 其他特性 :支持推测解码、分块预填充。

vLLM 文档:https://docs.vllm.ai/en/latest/index.html

源码地址:https://github.com/vllm-project/vllm

性能测试:https://blog.vllm.ai/2024/09/05/perf-update.html

软硬件信息

我的环境是双4090,内存是192GB。我预想的8k上下文。最好16k。图片

CUDA信息

图片

Driver Version: 550.144.03
CUDA Version: 12.4

环境安装

#下载 miniconda3
 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh && chmod +x Miniconda3-latest-Linux-x86_64.sh

# 安装
sh Miniconda3-latest-Linux-x86_64.sh

# 添加国内镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曼城周杰伦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值