大模型部署手记(14)Chinese-LLaMA-Alpaca-2+Ubuntu+vLLM

1.简介:

组织机构:Meta(Facebook)

代码仓:https://github.com/facebookresearch/llama  https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

模型:chinese-alpaca-2-7b-hf

下载:使用百度网盘下载

硬件环境:暗影精灵7Plus

Ubuntu版本:18.04

内存 32G

GPU显卡:Nvidia GTX 3080 Laptop (16G)

2.代码和模型下载

chinese-alpaca-2-7b-hf的模型从官网下载:

百度网盘 请输入提取码

将chinese-alpaca-2-7b-hf的模型传到 ~/models目录下:

3.安装依赖

conda create -n vllm310 python=3.10 -y

conda activate vllm310

pip install chardet

pip install vllm

4.部署验证

准备脚本:

cd ~/vllm

vi test_vllm.py

# 导入 vLLM 所需的库

from vllm import LLM, SamplingParams

# 定义输入提示的列表,这些提示会被用来生成文本

prompts = [

"[INST] <<SYS>>\nYou are a helpful assistant. 你是一个乐于助人的助手。\n<</SYS>>\n\n [/INST] 你好,我叫",

"[INST] <<SYS>>\nYou are a helpful assistant. 你是一个乐于助人的助手。\n<</SYS>>\n\n [/INST] 意大利国的总统是",

"[INST] <<SYS>>\nYou are a helpful assistant. 你是一个乐于助人的助手。\n<</SYS>>\n\n [/INST] 尼日利亚的首都是",

"[INST] <<SYS>>\nYou are a helpful assistant. 你是一个乐于助人的助手。\n<</SYS>>\n\n [/INST] 人工智能的未来是",

]

# 定义采样参数,temperature 控制生成文本的多样性,top_p 控制核心采样的概率
sampling_params = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=512)


# 初始化 vLLM 的离线推理引擎,这里选择的是 "/root/chinese-llama2" 模型
llm = LLM(model="/home/zhanghui/models/chinese-alpaca-2-7b-hf")

# 使用 llm.generate 方法生成输出文本。
# 这会将输入提示加入 vLLM 引擎的等待队列,并执行引擎以高效地生成输出
outputs = llm.generate(prompts, sampling_params)

# 打印生成的文本输出
for output in outputs:
    prompt = output.prompt # 获取原始的输入提示
    generated_text = output.outputs[0].text # 从输出对象中获取生成的文本
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

运行脚本:

python test_vllm.py

运行成功。

<think>好的,用户想在Ubuntu系统上部署和运行Chinese-LLaMA-Alpaca模型。首先,我需要整理已有的引用信息,找到相关的步骤和资源。 根据引用[2]和[4],用户提到了Ollama平台和vLLM部署方法。引用[2]详细描述了在Ollama上运行Llama3-8B-Chinese-Chat的步骤,可能需要类似的步骤来部署Chinese-LLaMA-Alpaca。而引用[4]提到了使用vLLMUbuntu上的部署,这可能也是一个可行的途径。 另外,引用[1]和[3]提到了将模型转换为gguf格式以及使用CPU推理的优化方法,这对于没有GPU的用户可能很重要。需要检查用户是否有GPU,或者是否需要CPU部署。 接下来,我应该分步骤说明不同的部署方式,比如使用OllamavLLM或者GGUF转换。用户可能对不同的方法感兴趣,所以需要覆盖多种可能性。同时,要确保每个步骤都清晰,并且提供相关命令和链接,如GitHub仓库和下载地址。 还要注意环境准备部分,比如Python版本、依赖库的安装,以及硬件要求。例如,引用[2]提到至少需要16GB显存的GPU,而引用[3]提到量化后可以使用CPU,这可能需要不同的配置说明。 最后,生成相关问题时要覆盖用户可能的后续疑问,比如性能优化、CPU部署、微调方法以及与其他模型的对比。这样能帮助用户进一步探索解决方案。</think>以下是在 Ubuntu 系统中部署 Chinese-LLaMA-Alpaca 模型的详细步骤,结合不同部署方案提供指导: ### 一、环境准备 1. **硬件要求** - GPU 方案:建议 NVIDIA 显卡(16GB+ 显存),推荐 RTX 3090/4090 等型号[^2][^4] - CPU 方案:若使用量化模型(如 GGUF 格式),可仅依赖 CPU 和内存(建议 32GB+)[^3] 2. **系统要求** ```bash # 查看系统版本 lsb_release -a ``` 需确保 Ubuntu 20.04 LTS 或更高版本 ### 二、部署方案选择 #### 方案 1:使用 Ollama(推荐 CPU/GPU 混合部署) 1. **安装 Ollama** ```bash # 通过官方脚本安装 curl -fsSL https://ollama.com/install.sh | sh ``` 2. **下载模型文件** 访问 HuggingFace 仓库获取 Chinese-LLaMA-Alpaca 的 GGUF 格式模型[^3] 示例下载命令: ```bash wget https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat-GGUF-8bit/resolve/main/llama3-8b-chinese-chat.Q8_0.gguf ``` 3. **运行模型** ```bash ollama run llama3-8b-chinese-chat -f /path/to/model.gguf ``` #### 方案 2:使用 vLLM(GPU 加速方案) 1. **安装依赖** ```bash # 创建 Python 虚拟环境 python -m venv vllm_env source vllm_env/bin/activate # 安装 vLLM 和依赖 pip install vllm torch ``` 2. **启动 API 服务** ```python from vllm import LLM, SamplingParams # 加载中文模型 llm = LLM(model="ymcui/Chinese-LLaMA-Alpaca-2") # 执行推理 sampling_params = SamplingParams(temperature=0.8, top_p=0.95) outputs = llm.generate("中国的首都在哪里?", sampling_params) ``` #### 方案 3:原生 PyTorch 部署 1. **克隆代码仓库** ```bash git clone https://github.com/ymcui/Chinese-LLaMA-Alpaca-2.git cd Chinese-LLaMA-Alpaca-2 ``` 2. **转换模型格式** ```bash # 将原始模型转换为 GGUF 格式(适用 CPU 推理) python convert.py zh-models/7B/ [^1] ``` 3. **运行对话程序** ```python from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("ymcui/Chinese-LLaMA-Alpaca-2") tokenizer = AutoTokenizer.from_pretrained("ymcui/Chinese-LLaMA-Alpaca-2") inputs = tokenizer("解释量子力学的基本原理", return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0])) ``` ### 三、常见问题排查 1. **CUDA 内存不足**:尝试减小 `max_tokens` 参数或使用量化版本模型 2. **中文乱码问题**:确保终端使用 UTF-8 编码 3. **模型加载失败**:检查文件完整性,使用 `md5sum` 验证下载文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张小白TWO

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值