Xinference+Transformers+vLLM 部署qwen2.5-72B

在使用Xinference部署qwen2.5-instruct-awq-72B-Int4时遇到的问题

分别使用了Transformer和vLLM两种框架

1.LInux环境安装好Xinference后,可以使用--log-level debug启动xinference并且打开debug模式,方便跟踪问题。

xinference-local --host 0.0.0.0 --port 9998 --log-level debug

通过上述界面可以选择模型下载。

2.RuntimeError: [address=192.168.80.41:40325, pid=4188716] Failed to download model 'qwen-chat' (size: 1_8, format: pytorch) after multiple retries

在下载模型的时候如果显示上面错误可能是因为huggingface源问题

打开debug记录显示是访问huggingface的时候网络连接错误,在xinference启动之前,先运行:

export HF_ENDPOINT="https://hf-mirror.com"

3.下载过程根据模型大小可能长达5个小时。

在启动下载好的模型后cannot import name 'shard_checkpoint' from 'transformers.modeling_utils' (/root/miniconda3/envs/xinferen

### 使用 Docker 和 vLLM 部署 Qwen2.5-72B-Instruct 模型 为了实现通过 Docker 和 vLLM部署 Qwen2.5-72B-Instruct 多模态视觉大模型,以下是详细的说明: #### 准备工作 在开始之前,请确保已安装并配置好以下工具和环境: 1. **Docker**:用于容器化运行模型服务。 2. **NVIDIA GPU 及驱动程序**:Qwen2.5 是基于 CUDA 的深度学习框架,因此需要支持 NVIDIA GPU 加速[^1]。 3. **Python 环境 (推荐 Python 3.9 或以上)**。 --- #### 安装依赖项 首先,在主机上创建一个新的目录作为项目根路径,并初始化必要的文件结构。接着下载或克隆 `vLLM` 库到本地机器中。可以通过以下命令完成操作: ```bash git clone https://github.com/vllm-project/vllm.git cd vllm pip install -r requirements.txt ``` 由于 Qwen2.5-72B-Instruct 属于超大规模参数量的多模态预训练模型,其推理过程可能涉及大量的显存占用以及计算资源需求。所以建议使用至少具备 A100 或 V100 类似性能级别的硬件设备来执行此任务。 --- #### 构建自定义镜像 编写一份适合当前场景使用的 Dockerfile 文件内容如下所示: ```dockerfile FROM nvidia/cuda:12.1.1-cudnn8-devel-ubuntu22.04 # 设置工作目录 WORKDIR /app # 安装基础包 RUN apt-get update && \ DEBIAN_FRONTEND=noninteractive apt-get install -y --no-install-recommends \ python3-pip git build-essential libjpeg-dev zlib1g-dev ffmpeg && \ rm -rf /var/lib/apt/lists/* # 升级 pip 并安装依赖库 COPY . . RUN pip install --upgrade pip && pip install -e . # 将权重加载至指定位置 ENV MODEL_PATH=/models/qwen_2_5_vl/ VOLUME ${MODEL_PATH} CMD ["python", "-m", "vllm.entrypoints.api_server"] ``` 上述脚本会构建一个基于 Ubuntu 22.04 LTS 的开发环境,并集成最新版本的 PyTorch 和 Transformers SDKs 支持。 --- #### 启动容器实例 当成功建立定制化的 docker image 后,则可以利用下面给出的一系列指令快速启动关联的服务端口映射关系: ```bash docker run -it --rm \ --name qwen-vllm-server \ --gpus all \ -e MODEL_NAME="qwen/Qwen2.5-VL" \ -v $(pwd)/weights:/models/qwen_2_5_vl/ \ -p 8000:8000 your_docker_image_name ``` 这里需要注意的是 `-v` 参数指定了宿主机上的实际存储路径与容器内部相对应的目标地址之间的绑定方式;而 `your_docker_image_name` 则替换为你自己所生成的具体镜像名称标签。 --- #### 测试 API 接口功能 最后一步就是验证整个系统的正常运作状态了。打开浏览器或者 Postman 工具访问 http://localhost:8000/docs 地址查看 Swagger UI 文档界面,按照提示输入相应的 JSON 数据格式请求即可获得预期的结果反馈信息。 ```json { "prompt": "描述一张图片的内容。", "max_tokens": 50, "temperature": 0.7 } ``` --- ### 注意事项 尽管本文提供了关于如何借助 Docker 技术配合 vLLM 开源项目高效部署 Qwen2.5-72B-Instruct 模型的方法论指导,但在实践过程中仍需密切关注以下几个方面的问题: - 显卡内存容量是否充足; - 是否正确设置了环境变量以匹配目标架构特性; - 对外部网络连接是否有额外的安全防护措施加以限制等等。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值