Windows下安装部署Xinference
1. 安装conda
选择对应的版本进行下载。
下载地址:https://www.anaconda.com/download/success
下载完成之后双击运行.exe文件,然后无脑下一步就行。
安装完成之后,进行系统环境变量配置。
编辑path
系统变量,新建以下几条:(根据实际安装路径进行配置)
D:\ProgramFiles\anaconda3
D:\ProgramFiles\anaconda3\Scripts
D:\ProgramFiles\anaconda3\Library\mingw-w64\bin
D:\ProgramFiles\anaconda3\Library\bin
打开cmd命令窗口,输入 conda --version
命令,验证是否配置成功。若成功则会显示具体的版本号。
修改Anaconda默认环境保存路径和镜像源:
在C盘-用户-用户名,找到.condarc,如果找不到打开anaconda prompt输入以下命令, 即可找到:
conda config --set show_channel_urls yes
删除原先内容,进行以下配置。(注意修改为自己想保存的路径,我这里是D盘)
envs_dirs:
- D:\VM\Anaconda_envs\envs
pkgs_dirs:
- D:\VM\Anaconda_envs\pkgs
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- defaults
保存即可。
在命令窗口中执行conda info
命令,我们就可以看到修改后的配置。
2.安装配置Xinference
下载Xinference:https://github.com/xorbitsai/inference/releases
将下载后的zip文件解压,并打开刚装好的conda。以下两个,打开哪个都可以。
使用Conda创建运行环境
注意:xinf可替换为自定义的Conda环境名。
conda create -n xinf
conda activate xinf
环境创建成功后,需要在新建的xinf环境下安装python
和nodejs
。
conda install python=3.10
conda install nodejs
Conda环境使用pip
源码安装
# 进入inference源码根目录
cd /d D:\xinference\inference-1.4.0
# 查看cuda版本
nvidia-smi
# 在命令行窗口查看cuda版本,然后进入到pytorch官网https://pytorch.org/,选择对应的cuda版本
conda install pytorch=2.5.0 pytorch-cuda=12.1 -c pytorch -c nvidia
# 如果上述命令失败,可以尝试以下命令
pip install torch
# 检查安装是否成功
python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"
# 如果报错(环境变量问题),可以尝试
set CUDA_HOME=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1
set PATH=%CUDA_HOME%\bin;%PATH%
# 执行安装命令
pip install "xinference[all]"
若是下载比较慢可以换成国内镜像:
pip install "xinference[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple
启动
xinference-local --host 0.0.0.0 --port 9997
可能会报以下错误,原因是启动命令使用的是linux
的启动方式,Windows 上不支持用 0.0.0.0
启动,应使用 IP。(xinference-local --host 127.0.0.1 --port 9997 )
访问
可以通过访问 http://127.0.0.1:9997/ui
来使用 UI,访问 http://127.0.0.1:9997/docs
来查看 API 文档。
FAQ
chatglm-cpp下载失败
如果chatglm-cpp下载失败,可以手动下载安装。
(D:\tool\chatglm_cpp-0.4.2.tar.gz
为实际安装包所在路径)
pip install D:\tool\chatglm_cpp-0.4.2.tar.gz
若还是不行:
# 1.确认安装 CMake(chatglm_cpp 的安装依赖于 CMake 编译工具。确保你已经在 conda 环境中安装了 CMake:)
conda install -c conda-forge cmake
2.安装 Visual Studio Build Tools
chatglm_cpp 可能需要一些 C++ 编译工具,特别是 Windows 系统上。你需要安装 Visual Studio Build Tools。你可以从 Visual Studio 官网 下载并安装这些工具。
重启系统。
# 3.置 CMake 编译选项
set CMAKE_GENERATOR=NMake Makefiles
set CMAKE_CXX_COMPILER=cl
# 4.清理并重新尝试安装
pip uninstall chatglm-cpp
pip install D:\tool\chatglm_cpp-0.4.2.tar.gz -i https://pypi.tuna.tsinghua.edu.cn/simple
# 5.确保你的虚拟环境中已经安装了 setuptools、wheel 和 pybind11
pip install setuptools wheel pybind11
然后再执行:
pip install "xinference[all]"
若上述方法不行,请尝试:
# 安装llama_cpp_python 和 chatglm-cpp
pip install https://github.com/abetlen/llama-cpp-python/releases/download/v0.3.2/llama_cpp_python-0.3.2-cp310-cp310-win_amd64.whl
pip install https://github.com/li-plus/chatglm.cpp/releases/download/v0.4.2/chatglm_cpp-0.4.2-cp310-cp310-win_amd64.whl
注意pytorch安装版本
pytorch官网:https://pytorch.org/get-started/locally/
如果Windows中cuda版本安装的是12.8,请使用以下命令:
pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
启动rerank模型失败
TypeError: [address=0.0.0.0:41427, pid=10312] cannot assign 'xinference.model.rerank.core._ModelWrapper' as child module 'model' (torch.nn.Module or None expected)
pip install sentence-transformers==3.4.1