以下是在本地使用 Docker 部署和运行 Xinference 的详细步骤,涵盖单机部署、模型加载、API 调用及常见问题解决方案:
一、部署前准备
1. 环境要求
- 操作系统:Linux / macOS / Windows(WSL2)
- Docker:版本 ≥ 20.10
- GPU 支持(可选):需安装 NVIDIA Container Toolkit
2. 验证 Docker 环境
# 检查 Docker 是否正常运行
docker --version
docker run hello-world
二、单机部署 Xinference
1. 拉取 Xinference 镜像
docker pull xprobe/xinference:latest
2. 启动容器(根据硬件选择命令)
- 仅 CPU 模式:
docker run -d -p 9998:9998 --name xinference xprobe/xinference:latest
- 启用 GPU 加速(需 NVIDIA 驱动):
docker run -d --gpus all -p 9998:9998 --name xinference xprobe/xinference:latest
3. 验证部署状态
访问 Web UI:[http://localhost:9998](http://localhost:9998),若看到管理界面则部署成功。
三、部署与使用模型
1. 通过命令行启动模型
进入容器内部操作:
docker exec -it xinference bash
启动常用模型:
# 启动 Rerank 模型(如 bge-reranker-large)
xinference launch --model-name bge-reranker-large --model-type rerank
# 启动 Embedding 模型(如 bge-large-en)
xinference launch --model-name bge-large-en --model-type embedding
# 启动 LLM(如 Llama3-8B)
xinference launch --model-name llama-3-8b-instruct --model-type LLM --size-in-billions 8

最低0.47元/天 解锁文章
9341





