Xinference+Transformers+vLLM 部署qwen2.5-72B

bagepython

已于 2025-03-06 10:36:04 修改

阅读量1.5k

点赞数 3

文章标签： transformer 深度学习人工智能

于 2025-01-15 16:15:24 首次发布

本文链接：https://blog.youkuaiyun.com/bagepython/article/details/145161991

版权

在使用Xinference部署qwen2.5-instruct-awq-72B-Int4时遇到的问题

分别使用了Transformer和vLLM两种框架

1.LInux环境安装好Xinference后，可以使用--log-level debug启动xinference并且打开debug模式，方便跟踪问题。

xinference-local --host 0.0.0.0 --port 9998 --log-level debug

通过上述界面可以选择模型下载。

2.RuntimeError: [address=192.168.80.41:40325, pid=4188716] Failed to download model 'qwen-chat' (size: 1_8, format: pytorch) after multiple retries

在下载模型的时候如果显示上面错误可能是因为huggingface源问题

打开debug记录显示是访问huggingface的时候网络连接错误，在xinference启动之前，先运行:

export HF_ENDPOINT="https://hf-mirror.com"

3.下载过程根据模型大小可能长达5个小时。

在启动下载好的模型后cannot import name 'shard_checkpoint'

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bagepython

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【大模型实战】介绍部署框架

m0_47867638的博客

02-13

465

特性：xinference框架在支持模型数量以及各种特性上表现突出，被认为特性最全、支持模型最多。优势：能够提高模型训练和部署的效率，降低模型在部署过程中的时间和成本。链接：https://inference.readthedocs.io/zh-cn/latest/models/builtin/llm/index.html#models-llm-index支持多种部署方式，有的模型不支持。我在部署Deepseek R1满血版的时候报错了。

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

丨汀、的博客

05-27

5357

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

参与评论您还未登录，请先登录后发表或查看评论

Xinference+vllm启动qwen2.5*模型

qq_45383803的博客

10-11

6481

xinference+vllm部署模型

关于 vLLM 和 Xinference 对本地模型的分布式部署支持说明

学亮编程手记

03-28

973

（张量并行）实现多GPU分布式推理，适用于大模型（如 Qwen2-72B）的本地部署。，可通过 Kubernetes 或 Docker Swarm 扩展，适合大规模生产环境。Xinference 支持。

vLLM 和 Xinference、Ollama 对 .safetensors 和 .gguf 格式的支持对比

学亮编程手记

03-28

1424

格式的模型加载（尤其是 Transformer 架构的模型）。文件的目录，例如将 Lora 微调后的适配器与基础模型结合使用。例如，在 CPU 或 Apple M 芯片上运行时，Xinference 可通过内存映射（mmap）高效加载量化后的。例如，在 AMD GPU 上使用 ROCm 后端时，vLLM 能高效运行量化后的。Xinference 通过集成 Hugging Face 生态，默认支持。命令，并指定模型路径。显式指定格式，并搭配对应的量化参数（如。直接加载此类文件，例如在部署时使用。

【总结篇】LLM推理环境安装部署全指南

flymyd的博客

02-25

4393

本文介绍了安装WSL2、Ubuntu、NVIDIA显卡驱动、CUDA 12.4.1、cuDNN的方法及Xinference、vLLM、SGLang等推理框架的部署使用方法。本文适用于NVIDIA显卡用户，建议GPU架构为Turing或更新（对应RTX 20系或以上）。

使用Xinference 在mac m2 上部署模型 Qwen 7B

Angus

05-01

3785

23款 mac pro M232G内存注意，花内存比较多一些。参数规模越大，需要的内存越多。我部署了一个7B的qwen就花了16G的内存空间我使用Xinference来部署模型。这里是Xinference的安装文档。

xinference[Transformers]部署qwen2-7b（最后用的Transformers）

Disturbet_July的博客

09-06

904

git clone https://www.modelscope.cn/qwen/Qwen2-7B-Instruct.git 使用qwen2-7b-instruct模型。#远程机器可以用端口映射 ssh -L:9997:localhost:9997 root@#查看cuda版本（注意nvidia-smi是查看最高支持版本，查看安装版本是nvcc -V）#部署xinference服务环境。#安装xinference。#启动xinference。#如此，便可以访问了。

vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4

qq_41502855的博客

01-19

1717

3卡，tensor_parallel_size=3，tensor并行的数量一定要能被attentionheads整除。4卡，tensor_parallel_size=4，推理速度4s。双卡v10032G部署结果如下，推理时长16s。

【xinference】（8）：在autodl上，使用xinference部署qwen1.5大模型，速度特别快，同时还支持函数调用，测试成功！

freewebsys的专栏

04-02

1992

可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。然后就可以查看全部支持的模型进行启动。启动Xinference服务。

从零开始实践大模型 - 模型推理

LucienShui

12-06

775

本文介绍了如何使用Qwen2.5-0.5B-Instruct模型快速启动一个模型服务，包括下载模型、安装git-lfs、使用git clone下载模型、编写推理代码、使用vLLM加速推理，并通过Docker部署服务。同时也分享了部署时的一些经验。

Xinference实战指南：全面解析LLM大模型部署流程，携手Dify打造高效AI应用实践案例，加速AI项目落地进程

丨汀、的博客

08-16

6816

Xinference实战指南：全面解析LLM大模型部署流程，携手Dify打造高效AI应用实践案例，加速AI项目落地进程

推理框架深度对比：Transformers / vLLM / TGI / FastChat 部署实测 × 适配建议

最新发布

在信息的熵增中，记录结构、重建秩序。技术思想者的笔记，系统构建者的注释。

03-30

1034

从出发，全面对比当前主流大模型推理框架在国产模型中的表现，包括安装复杂度、兼容模型范围、接口标准化程度、性能数据等，帮助你。

FastGPT + Xinference + OneAPI：一站式本地 LLM 私有化部署和应用开发

南七小僧的学海无涯

01-14

3413

上述步骤已经利用 API 的返回拼装出了含有某个城市查询天气情况的所有信息，我们用 “AI对话” 模块来总结回复，记得将对话模型切换为 Qwen。

【vllm】Qwen2.5-VL-72B-AWQ 部署记录

x66ccff

03-10

1757

【代码】【vllm】Qwen2.5-VL-AWQ 部署记录。

vllm多卡部署qwen2.5-72b-instruct

xuebodx0923的博客

02-23

1341

1. 介绍1.1 vllmvLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。vLLM的特点和优势：采用了 PagedAttention，可以有效管理 attention 的 keys、values。vllm多卡部署qwen2.5-72b-instru

xinference部署qwen模型，跑langchain的工具调用示例时报错

qq_39600166的博客

10-12

1216

dict。

使用X inference下载部署小模型（qwen1.5）测试效果

Angus

05-03

1422

我的环境是mac m2 32G ，没办法用GPU。这是X inference的安装教程。这里是mac部署2B的教程。还有测试推理的效果，速度

xinference 分布式

02-21

### Xinference 分布式部署与应用 #### 安装与配置为了在分布式环境下使用 Xinference，首先需要确保所有节点上都已正确安装了该框架。Xinference 支持多种操作系统平台上的安装方式，其中最简便的方式是利用 `pip` 工具来完成安装工作[^3]。 ```bash pip install xorbits-inference ``` 由于 Xinference 的依赖项较多，在初次安装过程中可能会消耗一定的时间。对于生产环境中大规模集群的部署，则建议预先准备好离线包并优化网络环境以加速下载速度。 #### 部署架构概述 Xinference 设计之初便考虑到了分布式的应用场景需求，其核心特性之一就是能够快速搭建起高效的分布式推理服务。具体来说： - **多节点协同**：支持跨多个计算资源（如 CPU/GPU）执行复杂的机器学习任务； - **灵活调度机制**：可根据实际负载情况动态调整各组件间的工作分配策略； - **高可用性保障**：即使部分节点发生故障也不会影响整体系统的正常运行；这些特点使得 Xinference 成为构建稳定可靠的在线预测服务平台的理想选择[^1]。 #### 实现细节说明当涉及到具体的分布式实现时，主要关注以下几个方面： ##### 资源规划与初始化设置启动之前要仔细评估目标硬件设施的能力范围，并据此合理划分各个子系统所占用的比例。比如可以指定某些服务器专门用于存储中间结果或是作为前端请求入口等角色定位。 ##### 数据分片处理逻辑针对大型数据集的操作往往难以一次性加载入内存中完成运算，因此引入了分区的概念——即将原始输入按照特定规则拆分成若干个小批次分别交给不同实例去独立加工后再汇总输出最终答案。这一过程既提高了吞吐量又降低了单点压力。 ##### 并发控制算法设计考虑到并发访问可能导致的竞争条件问题，内部实现了细粒度锁以及其他同步原语用来协调竞争关系，从而保证事务的一致性和隔离级别达到预期标准。 ##### 故障转移预案制定任何时刻都有可能出现意外状况致使个别成员掉线失效，为此建立了一套完善的灾备恢复方案，能够在第一时间感知异常信号并将对应的任务重新指派给其他健康单元继续承担下去直至恢复正常状态为止。通过上述措施共同作用下，Xinference 不仅能在本地计算机上流畅运作也能无缝扩展到云端乃至混合云这样的复杂拓扑结构之上提供一致性的用户体验和服务质量承诺[^2]。 #### 应用案例展示假设现在有一个基于 Transformer 架构的语言理解模型想要迁移到 Xinference 上面做实时响应的话，那么只需要编写少量 Python 代码就可以轻松搞定整个迁移流程： ```python from xorbits.inference import load_model, predict model_path = "path/to/transformer/model" loaded_model = load_model(model_path) input_text = ["你好世界", "今天天气真好"] predictions = predict(loaded_model, input_texts=input_text) print(predictions) ``` 这段脚本展示了如何加载预训练好的模型文件以及调用 API 接口来进行批量文本分类操作。当然这仅仅是冰山一角而已，更多高级特性和最佳实践指南可参阅官方文档获取更多信息。