Xinference 分布式推理框架的部署

原创已于 2025-01-15 15:31:24 修改 · 1.6k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#windows #语言模型

于 2025-01-12 11:12:26 首次发布

模型实战专栏收录该内容

3 篇文章

订阅专栏

系列文章目录

第一章 Xinference 分布式推理框架的部署
 第二章 LLaMA Factory 微调框架的部署
 第三章 LLaMA Factory 微调框架数据预处理加载

文章目录

系列文章目录
前言
一、Xinference是什么？
二、部署步骤

前言

随着AI模型的不断发展，AI模型的应用也越来越重要，Xinference部署则是学习的基石，本文就介绍了Xinference的模型部署与管理。

一、Xinference是什么？

Xinference 是一个专为生产环境设计的高效推理平台，致力于将机器学习模型的部署和推理过程简化并加速。它的多框架支持、性能优化、易于集成和自动化管理功能，使得开发者可以更专注于 AI 应用的业务逻辑，而无需过多关注底层细节。通过 Xinference，AI 推理服务能够更加高效、可扩展地运行，帮助企业快速实现 AI 应用的落地。

二、部署步骤

1. 安装Anaconda

1.1 Aanaconda是什么？

Anaconda 是一个开源的跨平台数据科学和机器学习开发平台，集成了 Python 和 R 的运行环境、包管理器（Conda）、环境管理工具，以及包含数百个热门的科学计算、数据分析和机器学习库（如 NumPy、Pandas、TensorFlow 等）。它提供了一个一站式解决方案，支持快速搭建虚拟环境、简化依赖管理，并预装了像 Jupyter Notebook 和 Spyder 等常用 IDE，使开发者能高效进行数据分析、建模和可视化工作。此处主要是用于各种虚拟环境和包版本的管理。

1.2 Anaconda安装步骤

1、下载安装包：https://www.anaconda.com/download/success/
2、运行下载的安装程序（.exe文件），按照提示完成安装。建议勾选“将Anaconda添加到系统环境变量中”以简化后续操作。

2. 安装Xinference

使用Anaconda创建虚拟环境，输入虚拟环境的名称和python版本。

在这里插入图片描述

打开虚拟环境的命令行窗口，以下命令均在命令行窗口执行

在这里插入图片描述
Xinference 在 Linux, Windows, MacOS 上都可以通过 pip 来安装。如果需要使用 Xinference 进行模型推理，可以根据不同的模型指定不同的引擎。如果希望能够推理所有支持的模型，可以用以下命令安装所有需要的依赖：

`pip install "xinference[all]"`

PyTorch(transformers) 引擎支持几乎有所的最新模型，此处安装的为PyTorch引擎。

pip install "xinference[transformers]"

因要用到Pytorch，所以需要在虚拟环境中安装pytorch的model。同时为了让Xinference的模型可以选择GPU运行，需要额外安装pytorch和cuda，需要使机器显卡和其版本对应，例如：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

安装完成后，即可使用如下命令启动：

##1、设置模型下载存储路径
set XINFERENCE_HOME=D:\anaconda3\envs\Xinference\models
##2.1、设置Hugging Face缓存目录，该参数已被HF_HOME替代，但是不设置，启动会有警告。
set TRANSFORMERS_CACHE=
##2.2、设置Hugging Face的全局配置目录
set HF_HOME=D:\anaconda3\envs\Xinference\models_cache
##3、启动运行xinference，ip为机器的真实ip，不可用127.0.0.1或者localhost,，否则影响后续模型对接。
xinference-local --host xxx.xxx.x.x --port 9997