自然语言处理: 第十四章Xinference部署

原创

已于 2024-03-04 16:26:13 修改 · 4.3k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能 #nlp #aigc

于 2024-02-27 17:48:10 首次发布

项目地址: Xorbitsai/inference

理论基础

正如同Xorbits Inference（Xinference）官网介绍是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。

介绍这个项目主要是为了后面在dify能够快速部署接入API。

在这里插入图片描述

下图是xinference的与其他开源集成大模型框架的对比，可以看到xinference相比于其他开源框架还是有很多有点的。而且本人使用下来发现确实上手简单，

在这里插入图片描述

本地搭建

本人使用的是autodl上，所以相对应的无论是在linxu还是windows系统都差不多

1 安装

安装的时候由于xinference直接安装的时候会装pytorch的cpu版本，所以装完之后还需要重新装一下GPU版本的torch

# 新建环境
conda create -n xinference python=3.10

# 激活环境
conda activate xinference

# 安装xinference所有包
pip3 in

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

曼城周杰伦

关注关注

8
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

使用 Xinference 部署本地模型

洛阳泰山的博客

04-24

9417

是一款开源模型推理平台，除了支持 LLM，它还可以部署 Embedding 和 ReRank 模型，这在企业级 RAG 构建中非常关键。同时，Xinference 还提供 Function Calling 等高级功能。还支持分布式部署，也就是说，随着未来应用调用量的增长，它可以进行水平扩展。

Xinference实战指南：全面解析LLM大模型部署流程，携手Dify打造高效AI应用实践案例，加速AI项目落地进程

丨汀、的博客

08-16

9167

Xinference实战指南：全面解析LLM大模型部署流程，携手Dify打造高效AI应用实践案例，加速AI项目落地进程

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

BC-AGIOne 2024.05.23
大佬，我外接端口为什么连不通呢？
- 曼城周杰伦回复BC-AGIOne 2024.05.24
  是windows部署的么

Xinference 分布式推理框架的部署

OFFTime_we的博客

01-12

1981

例如：随着AI模型的不断发展，AI模型的应用也越来越重要，Xinference部署则是学习的基石，本文就介绍了Xinference的模型部署与管理。

离线部署纯离线部署大模型终极指南：Xinference 内网部署全攻略，支持vLLM（零基础也能学会）

热门推荐

qq_46094651的博客

08-13

2万+

除了使用LLM模型的Web界面进行操作外，Xinference还提供了API接口，通过调用API接口来使用LLM模型。在API文档中，存在大量API接口，不仅有LLM模型的接口，还有其他模型(如Embedding)的接口，并且这些接口都是兼容OpenAI API的接口。通过访问来查看API文档。Xinference提供了管理模型整个生命周期的能力。

本地部署知识库——大模型框架xinference的本地架设

lxszyj的博客

06-27

6153

断断续续也研究了1个来月了，期间还遭遇了docker被ban的惨剧，导致我一个新手要开始学习这种繁琐的本地开发步骤，目前还未感受到这样做的优点，但是看很多技术大佬都是这样做的，相信有它的道理吧。这一系列陆续会涉及以下内容：1.大模型框架xinference的本地架设2.知识库管理软件fastgpt、dify、maxkb、langchain chatchat、ragflow的架设和使用3.各类大模型的尝试（主要是笔记本性能有限，只能不断尝试最适合自己的）

Xinference 大模型推理框架部署与应用

weixin_42684822的博客

07-30

2666

linux部署Xinference 大模型推理框架，及应用，涉及两种方式部署。。。

AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署

人工智能领域博客

05-07

8447

本文简要讲述了一行代码完成Xinference本地部署以及两行代码完成Xinference分布式部署以及webui和接口调用，其中快捷部署、极为友好的webui、可配modelscope以及提供兼容OpenAI的API等诸多优点，实属良心之作。真诚的希望通过写博客的方式将自己涉猎过的大模型开源项目分享给大家，由于个人经历有限，不能保证每篇文章都写的特别深入，但尽量保证内容自己实际操作过，避免大家重复踩坑。

【LLM】-13-部署Xinference平台

宣晨光

07-31

2777

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。聊天 & 生成工具视觉嵌入重排序图像（实验性质）音频（实验性质）内置模型大语言模型嵌入模型 Image Models 音频模型重排序模型自定义模型模型来源集成LoRA 模型显存使用量计算

1-6 Dify本地私有化部署—Xinference部署和模型启动

ai8086的博客

07-07

4084

本文介绍了Xinference分布式推理框架的介绍、准备工作、镜像和单机部署、模型部署方法等方面。Xinference是一款性能强大且功能全面的分布式推理框架，专门为大规模模型推理任务设计。它通过简化模型部署流程和优化推理性能，帮助开发者在个人电脑或分布式集群中高效运行各类AI模型。文章还提供了详细的部署步骤和模型部署方法，包括使用Docker Hub拉取镜像、挂载模型目录、访问Web UI、使用UI操作启动模型等。此外，还介绍了启动模型的命令行方法，以及通过API动态加载模型的方法。

xinference搭建

liuzhenghua66的博客

04-09

6577

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。帮助文档：https://inference.readthedocs.io/zh-cn/latest/models/index.html 运维部署内置模型以及调用示例：https://inference.readthedocs.io/zh-cn/latest

Xinference内网环境离线部署并上传模型集成到dify

2301_79182232的博客

04-23

3668

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。

推理框架 Xinference和大模型部署（ChatGLM为例）

weixin_52514174的博客

07-04

1万+

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于各种模型的推理。通过 Xinference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xinference 与最前沿的 AI 模型，发掘更多可能。

基于 docker 的 Xinference 全流程部署指南

黎明鱼儿

04-04

2875

【大模型】Xinference的安装和部署

magic_ll的博客

12-29

1万+

Xinference通过提供简单API和强大的功能，使得私有化模型的大规模部署成为可能，无论是在个人电脑还是分布式集群中，都能够发挥异构硬件的全部潜力，达到最极致的吞吐量与最低的推理延迟。：Xinference简化了包括大语言模型、多模态模型、语音识别模型等模型部署的过程，允许用户轻松一键部署自己的模型或内置的前沿开源模型。：Xinference专注于优化模型的推理性能，并支持多种类型的模型，包括深度学习模型。如下图，待参数设置OK后，点击小火箭，则下载模型和加载模型，模型下载到默认路径。

LLM | Xinference 安装使用（支持CPU、Metal、CUDA推理和分布式部署）

宇宙有只 AGI 的博客

09-30

5230

也支持多卡模型并行推理

docker run -d --name xinference --gpus all -v E:/docker/xinference/models:/root/models -v E:/docker/xinference/.xinference:/root/.xinference -v E:/docker/xinference/.cache/huggingface:/root/.cache/huggingface -e XINFERENCE_HOME=/root/models -p 9997:9997 xprobe/xinference:latest xinference-local -H 0.0.0.0 转换成docker-compose

03-26

<think>嗯，用户之前已经问过如何用docker-compose部署Xinference并使用多GPU，现在他们给了一个docker run命令，想把它转换成docker-compose文件。首先，我需要仔细分析用户提供的docker run命令中的各个参数，然后对应到docker-compose的语法里。用户提供的命令是： docker run -d --name xinference --gpus all -v E:/docker/xinference/models:/root/models -v E:/docker/xinference/.xinference:/root/.xinference -v E:/docker/xinference/.cache/huggingface:/root/.cache/huggingface -e XINFERENCE_HOME=/root/models -p 9997:9997 xprobe/xinference:latest xinference-local -H 0.0.0.0 首先，分解每个参数： - -d：后台运行，对应docker-compose中的restart策略或者直接detached模式。 - --name：服务名称，在docker-compose中就是service的名字。 - --gpus all：使用所有GPU，这在docker-compose中需要指定runtime为nvidia，并且在deploy.reservations下配置。 - -v 挂载卷：三个卷挂载，分别对应模型目录、配置目录和缓存目录。需要注意路径是否正确，尤其是用户使用的是E盘，可能是在Windows系统，但docker-compose通常用于Linux，可能需要检查路径格式是否正确，或者用户是否实际在WSL环境下运行。 - -e 环境变量：设置XINFERENCE_HOME为/root/models。 - -p 端口映射：将宿主机的9997映射到容器的9997。 - 镜像和命令：使用xprobe/xinference:latest，并运行xinference-local -H 0.0.0.0。接下来，转换这些参数到docker-compose.yml的结构中。需要确保语法正确，特别是GPU的配置部分，因为在docker-compose中，GPU的设置不同于docker run的--gpus all。根据之前的回答，用户可能已经安装了NVIDIA Container Toolkit，所以需要确认runtime: nvidia，并在deploy部分配置devices。另外，注意到用户提供的挂载路径是Windows风格的E:/docker...，这可能存在问题，因为在Linux环境下，路径应该为/mnt/e/docker...之类的。不过用户可能在WSL中使用Docker，或者在Windows Docker Desktop中配置了卷挂载。需要提醒用户注意路径的正确性，尤其是在不同操作系统下的路径转换。环境变量XINFERENCE_HOME的设置是否正确，是否应该指向挂载的模型目录？用户可能希望将模型存储在宿主机上，所以挂载到容器内的/root/models，并且设置该环境变量，这样Xinference会使用该目录作为模型存储位置。需要确认这个环境变量的作用是否与挂载点一致。端口映射部分比较简单，直接映射9997:9997即可，但需要确保宿主机的端口未被占用。最后，命令部分在docker-compose中使用command字段，传递xinference-local -H 0.0.0.0，确保服务监听所有接口。可能需要检查用户是否在Windows上使用Docker，如果是的话，路径中的E盘可能需要转换为适用于Docker的路径，比如在Docker Desktop中设置卷挂载时可能需要使用Linux风格的路径或者配置共享驱动器。这时候可能需要提醒用户注意路径的问题，避免挂载失败。总结步骤： 1. 创建docker-compose.yml文件，版本至少3.8以支持deploy配置。 2. 定义服务xinference，设置镜像、容器名称、运行时、部署资源、卷挂载、环境变量、端口和命令。 3. 确保GPU配置正确，使用nvidia运行时，并暴露所有GPU。 4. 检查卷挂载路径是否正确，特别是Windows路径可能需要转换。 5. 确认环境变量和命令参数正确无误。 6. 提供启动和验证步骤，帮助用户测试转换后的配置是否有效。</think>以下是将您的 `docker run` 命令转换为 `docker-compose.yml` 的完整实现及详细说明： --- ### **一、转换后的 docker-compose.yml** ```yaml version: "3.8" services: xinference: image: xprobe/xinference:latest container_name: xinference runtime: nvidia # 启用NVIDIA GPU支持 deploy: resources: reservations: devices: - driver: nvidia count: all # 使用全部GPU capabilities: [gpu] volumes: - "E:/docker/xinference/models:/root/models" # 模型存储目录 - "E:/docker/xinference/.xinference:/root/.xinference" # 配置目录 - "E:/docker/xinference/.cache/huggingface:/root/.cache/huggingface" # HuggingFace缓存 environment: XINFERENCE_HOME: "/root/models" # 指定模型根目录 ports: - "9997:9997" # 端口映射 command: xinference-local -H 0.0.0.0 # 启动命令 ``` --- ### **二、关键配置解析** #### 1. **GPU支持** - `runtime: nvidia`：启用 NVIDIA 容器运行时（需提前安装 [NVIDIA Container Toolkit](https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html)）。 - `count: all`：容器可使用所有 GPU，等同于 `--gpus all`。 #### 2. **卷挂载** - **模型目录**： `E:/docker/xinference/models`（宿主机） → `/root/models`（容器）通过 `XINFERENCE_HOME` 环境变量指定模型存储位置。 - **配置目录**： `E:/docker/xinference/.xinference` → `/root/.xinference` 持久化 Xinference 配置（如日志、临时文件）。 - **HuggingFace缓存**： `E:/docker/xinference/.cache/huggingface` → `/root/.cache/huggingface` 避免重复下载模型。 #### 3. **网络与端口** - `ports: "9997:9997"`：将容器端口 9997 映射到宿主机 9997。 #### 4. **启动命令** - `command: xinference-local -H 0.0.0.0`：启动服务并监听所有网络接口。 --- ### **三、操作步骤** 1. **创建配置文件**：将上述内容保存为 `docker-compose.yml`，注意检查路径是否符合实际环境（Windows路径需确保 Docker Desktop 已启用共享驱动器）。 2. **启动服务**： ```bash docker-compose up -d ``` 3. **验证部署**： - 检查容器状态： ```bash docker ps | grep xinference ``` - 查看 GPU 是否生效： ```bash docker exec xinference nvidia-smi ``` - 访问 API： ```bash curl http://localhost:9997/v1/models ``` --- ### **四、注意事项** 1. **Windows路径问题**：若使用 Docker Desktop，需在设置中共享 `E` 盘（Settings → Resources → File Sharing）。 2. **权限问题**：若出现权限错误，尝试赋予宿主机目录写入权限： ```bash icacls "E:\docker\xinference" /grant "Everyone:(OI)(CI)F" # Windows # 或 Linux/WSL： chmod -R 777 /mnt/e/docker/xinference ``` 3. **GPU限制**：若需指定部分 GPU，修改配置： ```yaml deploy: resources: reservations: devices: - driver: nvidia device_ids: ["0", "1"] # 使用 GPU 0 和 1 capabilities: [gpu] ``` --- ### **五、与原命令对比** | Docker Run 参数 | Docker Compose 等效配置 | |--------------------------|----------------------------------| | `--name xinference` | `container_name: xinference` | | `--gpus all` | `runtime: nvidia` + `deploy.reservations.devices` | | `-v E:/...` | `volumes` 映射 | | `-e XINFERENCE_HOME=...` | `environment` 字段 | | `-p 9997:9997` | `ports` 映射 | | `xinference-local -H ...`| `command` 字段 | 通过此配置，您可以直接使用 `docker-compose` 管理服务启停，无需记忆复杂命令行参数。