大模型笔记之-Llama-3.1-405B-Instruct-FP8离线部署[8*A800] 基于vLLM 版本v0.5.3.post1

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

感谢:星鸾云提供8卡A800测试环境,本次部署教程均在星鸾云平台完成
邀请链接:https://xl.hzxingzai.cn/register?invitation_code=8707231444

Meta 的新一代开源大语言模型
vllm Blog:https://blog.vllm.ai/2024/07/23/llama31.html

一、硬件环境

GPU:A800 80GB PCIe * 8 卡
CPU:112 核
内存:880 G

二、软件环境

Python:Miniconda
CUDA Version:12.3

三 . 模型下载

  • 使用魔搭下载脚本
#1.安装依赖
pip install modelscope 
#2.新建download.py 填入下面文件
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Meta-Llama-3.1-405B-Instruct-FP8',cache_dir='/user/data/model')
#3.开始下载
python download.py

1.环境准备

新建 conda虚拟环境

conda create -n llama405 python=3.10

conda activate llama405 

安装vLLM

pip install -U vllm
#清华源加速 -i https://pypi.tuna.tsinghua.edu.cn/simple

### 启动脚本

## 环境检查

```bash
pip freeze | grep vllm
vllm==0.5.3.post1
vllm-flash-attn==2.5.9.post1

启动命令

python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.99 --max-model-len=16384 --served-model-name Llama-3.1-405B-Instruct-FP8 --model /root/xinglin-data/Llama-3.1-405B-Instruct-FP8 --kv-cache-dtype fp8_e4m3 --trust-remote-code --tensor-parallel-size 8
python -m vllm.entrypoints.openai.api_server 
--host 0.0.0.0 
--port 8000 
--gpu-memory-utilization 0.99 
--max-model-len=16384 
--served-model-name Llama-3.1-405B-Instruct-FP8 
--model /root/xinglin-data/Llama-3.1-405B-Instruct-FP8 
--kv-cache-dtype fp8_e4m3 
--trust-remote-code 
--tensor-parallel-size 8

启动日志截取

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

FP8 量化损失

在这里插入图片描述

对接到fastgpt在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jun-Howie

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值