Xinference+Transformers+vLLM 部署qwen2.5-72B

在使用Xinference部署qwen2.5-instruct-awq-72B-Int4时遇到的问题

分别使用了Transformer和vLLM两种框架

1.LInux环境安装好Xinference后,可以使用--log-level debug启动xinference并且打开debug模式,方便跟踪问题。

xinference-local --host 0.0.0.0 --port 9998 --log-level debug

通过上述界面可以选择模型下载。

2.RuntimeError: [address=192.168.80.41:40325, pid=4188716] Failed to download model 'qwen-chat' (size: 1_8, format: pytorch) after multiple retries

在下载模型的时候如果显示上面错误可能是因为huggingface源问题

打开debug记录显示是访问huggingface的时候网络连接错误,在xinference启动之前,先运行:

export HF_ENDPOINT="https://hf-mirror.com"

3.下载过程根据模型大小可能长达5个小时。

在启动下载好的模型后cannot import name 'shard_checkpoint'

### Xinference 分布式部署与应用 #### 安装与配置 为了在分布式环境下使用 Xinference,首先需要确保所有节点上都已正确安装了该框架。Xinference 支持多种操作系统平台上的安装方式,其中最简便的方式是利用 `pip` 工具来完成安装工作[^3]。 ```bash pip install xorbits-inference ``` 由于 Xinference 的依赖项较多,在初次安装过程中可能会消耗一定的时间。对于生产环境中大规模集群的部署,则建议预先准备好离线包并优化网络环境以加速下载速度。 #### 部署架构概述 Xinference 设计之初便考虑到了分布式的应用场景需求,其核心特性之一就是能够快速搭建起高效的分布式推理服务。具体来说: - **多节点协同**:支持跨多个计算资源(如 CPU/GPU)执行复杂的机器学习任务; - **灵活调度机制**:可根据实际负载情况动态调整各组件间的工作分配策略; - **高可用性保障**:即使部分节点发生故障也不会影响整体系统的正常运行; 这些特点使得 Xinference 成为构建稳定可靠的在线预测服务平台的理想选择[^1]。 #### 实现细节说明 当涉及到具体的分布式实现时,主要关注以下几个方面: ##### 资源规划与初始化设置 启动之前要仔细评估目标硬件设施的能力范围,并据此合理划分各个子系统所占用的比例。比如可以指定某些服务器专门用于存储中间结果或是作为前端请求入口等角色定位。 ##### 数据分片处理逻辑 针对大型数据集的操作往往难以一次性加载入内存中完成运算,因此引入了分区的概念——即将原始输入按照特定规则拆分成若干个小批次分别交给不同实例去独立加工后再汇总输出最终答案。这一过程既提高了吞吐量又降低了单点压力。 ##### 并发控制算法设计 考虑到并发访问可能导致的竞争条件问题,内部实现了细粒度锁以及其他同步原语用来协调竞争关系,从而保证事务的一致性和隔离级别达到预期标准。 ##### 故障转移预案制定 任何时刻都有可能出现意外状况致使个别成员掉线失效,为此建立了一套完善的灾备恢复方案,能够在第一时间感知异常信号并将对应的任务重新指派给其他健康单元继续承担下去直至恢复正常状态为止。 通过上述措施共同作用下,Xinference 不仅能在本地计算机上流畅运作也能无缝扩展到云端乃至混合云这样的复杂拓扑结构之上提供一致性的用户体验和服务质量承诺[^2]。 #### 应用案例展示 假设现在有一个基于 Transformer 架构的语言理解模型想要迁移到 Xinference 上面做实时响应的话,那么只需要编写少量 Python 代码就可以轻松搞定整个迁移流程: ```python from xorbits.inference import load_model, predict model_path = "path/to/transformer/model" loaded_model = load_model(model_path) input_text = ["你好世界", "今天天气真好"] predictions = predict(loaded_model, input_texts=input_text) print(predictions) ``` 这段脚本展示了如何加载预训练好的模型文件以及调用 API 接口来进行批量文本分类操作。当然这仅仅是冰山一角而已,更多高级特性和最佳实践指南可参阅官方文档获取更多信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值