xinference[Transformers]部署qwen2-7b（最后用的Transformers）

原创

已于 2024-09-08 14:08:09 修改 · 1.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #人工智能

于 2024-09-06 13:19:45 首次发布

机器环境python==3.11

cuda==11.8

#创建环境

conda create -n qwen2 python==3.11

#激活环境

conda activate qwen2

#安装 torch

pip install torch torchvision torchaudio

#查看cuda版本（注意nvidia-smi是查看最高支持版本，查看安装版本是nvcc -V）

nvcc -V

我的cuda版本是11.8

#安装xinference

pip install "xinference[all]"

#部署xinference服务环境

#设置缓存路径

XINFERENCE_TRANSFORMERS_ENABLE_BATCHING=1 XINFERENCE_HOME=<设置xinference缓存的路径>

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

那要不住哥哥家吧

关注关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）

以微薄之力，予他人些许温暖.

06-11

4万+

Qwen2系列模型的新特性及使用方式

开源模型应用落地-qwen2-7b-instruct-LoRA微调-LLaMA-Factory-单机多卡-RTX 4090双卡（五）

热门推荐

以微薄之力，予他人些许温暖.

08-10

4万+

使用LLaMA-Factory高效微调qwen2-7b-instruct

参与评论您还未登录，请先登录后发表或查看评论

安装Xinference手把手教学，以及各种报错解决。

Ultravioletrays的博客

12-30

1万+

Python 3.12 中移除了distutils，导致一些包（如setuptools）无法正常安装或执行。安装或升级setuptools可以解决大部分问题。升级 pip 并安装或重新安装setuptools是解决该问题的主要方法。2.8 重新再安装Xinference解决所有问题！！t=O83A文章提供了在Anaconda虚拟环境中安装GPU版本PyTorch的详细步骤，包括创建环境、确认CUDA版本、从PyTorch官网获取正确的pip安装命令，以及验证安装成功的技巧。

Xinference+Transformers+vLLM 部署qwen2.5-72B

bagepython的博客

01-15

2205

数值越大，占用显存越大，torch.OutOfMemoryError: [address=0.0.0.0:41165, pid=1393874] CUDA out of memory.可以通过界面最下方的vLLM参数设置gpu_memory_utilization，max_model_len。--model-engine vLLM：模型占用显存大小会受到"gpu_memory_utilization"参数影响，默认0.9。在下载模型的时候如果显示上面错误可能是因为huggingface源问题。

Xorbits Inference比Ollama更强大的模型部署与推理框架

weixin_44455388的博客

03-26

3152

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。

使用XINFERENCE快速本地运行LLM

MoyiTech

07-29

1421

【xinference】（8）：在autodl上，使用xinference部署qwen1.5大模型，速度特别快，同时还支持函数调用，测试成功！

freewebsys的专栏

04-02

2207

可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。然后就可以查看全部支持的模型进行启动。启动Xinference服务。

使用Xinference 在mac m2 上部署模型 Qwen 7B

Angus

05-01

4441

23款 mac pro M232G内存注意，花内存比较多一些。参数规模越大，需要的内存越多。我部署了一个7B的qwen就花了16G的内存空间我使用Xinference来部署模型。这里是Xinference的安装文档。

精选资源

qwen2.5-7b 部署

11-15

标题 "qwen2.5-7b 部署" 暗示本文将详细讨论关于名为 "qwen2.5-7b" 的软件或系统部署过程中的必要步骤和技术细节。从给定的文件信息来看，该部署过程涉及到一系列复杂的依赖关系和依赖文件的管理。部署所依赖的文件...

开源模型应用落地-Qwen2-7B-Instruct-GPTQ-Int4与vllm-单机多卡-RTX 4090双卡（十二）

以微薄之力，予他人些许温暖.

08-07

3万+

4090单机双卡部署vllm，并集成qwen2-7b-instruct-gptq-int4

xinference部署Qwen2.5vl-32B

最新发布

m0_60304650的博客

07-03

1225

遇到的错误：如果直接安装肯定基本上会遇到llama-cpp-python这个库安装不下来的问题。

xinference部署qwen模型，跑langchain的工具调用示例时报错

qq_39600166的博客

10-12

1854

dict。

【Xinference】使用之【LLM模型】qwen2-instruct运行步骤及异常问题解决

Andy O`Connor的博客

09-24

914

Xinference使用之【LLM模型】qwen2-instruct运行步骤及异常问题解决

【Xinference】使用之【VLLM模型】qwen2-vl-instruct运行步骤及异常问题解决

Andy O`Connor的博客

09-26

5488

qwen2-vl-instruct模型运行异常处理：cannot import name 'Qwen2VLForConditionalGeneration' from 'transformers'

使用X inference下载部署小模型（qwen1.5）测试效果

Angus

05-03

1644

我的环境是mac m2 32G ，没办法用GPU。这是X inference的安装教程。这里是mac部署2B的教程。还有测试推理的效果，速度

[大模型]Qwen2-7B-Instruct Lora 微调

FL1623863129的博客

06-15

4380

LoraConfig这个类中可以设置很多参数，但主要的参数没多少，简单讲一讲，感兴趣的同学可以直接看源码。task_type：模型类型：需要训练的模型层的名字，主要就是attention部分的层，不同的模型对应的层的名字不同，可以传入数组，也可以字符串，也可以正则表达式。rlora的秩，具体可以看Lora原理lora_alphaLora alaph，具体作用参见Lora原理Lora的缩放是啥嘞？当然不是r（秩），这个缩放就是, 在这个LoraConfig中缩放就是4倍。

推理框架 Xinference和大模型部署（ChatGLM为例）

weixin_52514174的博客

07-04

1万+

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于各种模型的推理。通过 Xinference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xinference 与最前沿的 AI 模型，发掘更多可能。

阿里这次放大招了：Qwen2.5-Omni-7B 是开源多模态的天花板？

努力分享一些人工智能、计算机视觉、影像等相关的知识干货！

03-27

2450

近年来，大模型从单模态文本生成向多模态认知跃迁已成业界共识。OpenAI 发布 GPT-4V 与 Gemini 1.5-Pro，Google DeepMind 推出 Flamingo 和 Gemini 系列，多模态技术逐渐成为 AI 实用化的关键路径。但多模态大模型往往意味着参数暴增、推理开销剧增、无法实时响应等现实问题。如何构建“轻量化、全模态、强泛化、可部署”的 AI 系统，一直是技术团队追求的目标。在这样的背景下，阿里通义团队开源发布的，无疑是一次重量级突破。

大模型笔记之-Xinference自定义注册模型

JunHowie的个人Blog

08-01

6342

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考"en"],"generate"],"4-bit","8-bit","none"],

mac部署qwen2.5-7b

03-28

<think>好的，我现在需要帮助用户在Mac上部署Qwen2.5-7B模型。首先，我应该回顾一下用户提供的引用内容，里面提到了部署条件和安装前的准备，包括硬件和系统要求。用户使用的是Mac，所以需要特别关注MacOS的兼容性。首先，我需要确定Qwen2.5-7B的硬件要求。根据引用[1]和[2]，模型需要足够的RAM和存储空间。Mac的配置是否满足最低要求？比如至少16GB内存，推荐32GB。用户需要检查自己的Mac型号，特别是M1/M2芯片的版本可能更合适，因为苹果芯片对机器学习框架可能有更好的优化。接下来是软件环境。MacOS通常预装Python，但需要确认版本是否符合要求。用户可能需要安装Python 3.8或更高版本，并使用虚拟环境（如venv或conda）来管理依赖。然后安装PyTorch，特别是支持MPS（Metal Performance Shaders）的版本，这样可以利用Mac的GPU加速。需要指导用户如何安装PyTorch with MPS支持，这可能会影响模型推理的速度。然后，模型本体的获取。用户需要从Hugging Face或官方渠道下载Qwen2.5-7B的模型文件。这里要提醒用户注意网络稳定性和存储空间，因为模型文件可能较大，达到几十GB。安装依赖库也是关键步骤。除了PyTorch，还需要transformers、sentencepiece等库。需要生成具体的pip安装命令，并建议使用虚拟环境避免冲突。验证安装部分，用户需要运行一个简单的推理示例，确保模型能正常加载和生成结果。这里可能需要提供示例代码，并检查是否有错误，比如缺少依赖项或路径问题。最后，部署优化方面，可以建议用户使用量化技术减少内存占用，或者使用推理加速框架如llama.cpp来提升性能。同时，提醒用户注意散热和内存管理，尤其是在资源受限的Mac上。在生成回答时，要确保结构清晰，分步骤说明，并引用提供的资料。同时，用户可能需要相关问题，比如如何优化性能，处理依赖问题，或者模型的应用场景，这些都需要提前考虑并列出。检查是否有遗漏的步骤，比如是否需要安装Homebrew来管理某些依赖，或者Xcode命令行工具是否已安装。另外，MacOS的文件权限问题也可能影响安装，需要提醒用户注意。总的来说，需要将整个过程分解为硬件准备、环境配置、模型下载、依赖安装、验证测试和优化建议，每个步骤都要简明扼要，确保用户能够逐步跟随操作。同时，引用提供的参考文献，确保信息准确可靠。</think>以下是在Mac操作系统上部署Qwen2.5-7B大语言模型的详细步骤： ### 一、部署准备 1. **硬件要求** - Mac需配备Apple Silicon芯片（M1/M2/M3系列）以获得最佳性能[^2] - 内存最低16GB（推荐32GB或更高） - 存储空间至少需要30GB可用空间 2. **系统要求** - macOS Monterey（12.0）或更高版本 - 已安装Xcode命令行工具： ```bash xcode-select --install ``` ### 二、环境配置 1. **安装Python环境** ```bash # 推荐使用Miniforge管理Python环境 brew install miniforge conda create -n qwen python=3.10 conda activate qwen ``` 2. **安装PyTorch（支持MPS加速）** ```bash pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu ``` 3. **安装依赖库** ```bash pip install transformers sentencepiece accelerate ``` ### 三、模型部署 1. **下载模型文件** ```bash git lfs install git clone https://huggingface.co/Qwen/Qwen2-7B-Instruct ``` 2. **创建启动脚本`qwen_launch.py`** ```python from transformers import AutoModelForCausalLM, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("./Qwen2-7B-Instruct") model = AutoModelForCausalLM.from_pretrained( "./Qwen2-7B-Instruct", device_map="auto", torch_dtype="auto" ) while True: prompt = input(">> ") inputs = tokenizer(prompt, return_tensors="pt").to(model.device) outputs = model.generate(**inputs, max_new_tokens=100) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` ### 四、运行验证 ```bash python qwen_launch.py ``` 输入测试提示词： ``` >> 解释量子计算的基本原理 ``` ### 五、部署优化建议 1. **使用量化技术**（降低显存占用）： ```python model = AutoModelForCausalLM.from_pretrained( "./Qwen2-7B-Instruct", device_map="auto", load_in_4bit=True # 4位量化 ) ``` 2. **启用缓存优化**： ```bash export TRANSFORMERS_CACHE=/path/to/cache ``` 3. **推荐使用llama.cpp加速**： ```bash make CC=clang CXX=clang++ -j ./main -m qwen2-7b-instruct.gguf -p "你的提示词" ```