系列文章目录
第一章 Xinference 分布式推理框架的部署
第二章 LLaMA Factory 微调框架的部署
第三章 LLaMA Factory 微调框架数据预处理加载
文章目录
前言
随着AI模型的不断发展,AI模型的应用也越来越重要,Xinference部署则是学习的基石,本文就介绍了Xinference的模型部署与管理。
一、Xinference是什么?
Xinference 是一个专为生产环境设计的高效推理平台,致力于将机器学习模型的部署和推理过程简化并加速。它的多框架支持、性能优化、易于集成和自动化管理功能,使得开发者可以更专注于 AI 应用的业务逻辑,而无需过多关注底层细节。通过 Xinference,AI 推理服务能够更加高效、可扩展地运行,帮助企业快速实现 AI 应用的落地。
二、部署步骤
1. 安装Anaconda
1.1 Aanaconda是什么?
Anaconda 是一个开源的跨平台数据科学和机器学习开发平台,集成了 Python 和 R 的运行环境、包管理器(Conda)、环境管理工具,以及包含数百个热门的科学计算、数据分析和机器学习库(如 NumPy、Pandas、TensorFlow 等)。它提供了一个一站式解决方案,支持快速搭建虚拟环境、简化依赖管理,并预装了像 Jupyter Notebook 和 Spyder 等常用 IDE,使开发者能高效进行数据分析、建模和可视化工作。此处主要是用于各种虚拟环境和包版本的管理。
1.2 Anaconda安装步骤
1、下载安装包:https://www.anaconda.com/download/success/
2、运行下载的安装程序(.exe文件),按照提示完成安装。建议勾选“将Anaconda添加到系统环境变量中”以简化后续操作。
2. 安装Xinference
- 使用Anaconda创建虚拟环境,输入虚拟环境的名称和python版本。
- 打开虚拟环境的命令行窗口,以下命令均在命令行窗口执行
Xinference 在 Linux, Windows, MacOS 上都可以通过 pip 来安装。如果需要使用 Xinference 进行模型推理,可以根据不同的模型指定不同的引擎。如果希望能够推理所有支持的模型,可以用以下命令安装所有需要的依赖:
`pip install "xinference[all]"`
PyTorch(transformers) 引擎支持几乎有所的最新模型,此处安装的为PyTorch引擎。
pip install "xinference[transformers]"
因要用到Pytorch,所以需要在虚拟环境中安装pytorch的model。同时为了让Xinference的模型可以选择GPU运行,需要额外安装pytorch和cuda,需要使机器显卡和其版本对应,例如:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
安装完成后,即可使用如下命令启动:
##1、设置模型下载存储路径
set XINFERENCE_HOME=D:\anaconda3\envs\Xinference\models
##2.1、设置Hugging Face缓存目录,该参数已被HF_HOME替代,但是不设置,启动会有警告。
set TRANSFORMERS_CACHE=
##2.2、设置Hugging Face的全局配置目录
set HF_HOME=D:\anaconda3\envs\Xinference\models_cache
##3、启动运行xinference,ip为机器的真实ip,不可用127.0.0.1或者localhost,,否则影响后续模型对接。
xinference-local --host xxx.xxx.x.x --port 9997
3. 模型下载和运行
安装完成后,打开ip:端口,即可打开xinference的页面,如:http://xxx.xxx.x.x:9997。页面打开后,点击Launch Model,选择需要的模型类型,点击所需模型,设置相应的参数,即可下载并启动对应的模型。
启动完成之后的模型可以在Running Models中看到。
此时就完成了使用Xinference对本地模型的部署和管理。