本地如何使用docker部署和使用Xinference

最新推荐文章于 2025-11-11 15:35:22 发布

原创

最新推荐文章于 2025-11-11 15:35:22 发布 · 1.3w 阅读

60 ·

CC 4.0 BY-SA版权

文章标签：

#docker #大模型

以下是在本地使用 Docker 部署和运行 Xinference 的详细步骤，涵盖单机部署、模型加载、API 调用及常见问题解决方案：

一、部署前准备

1. 环境要求

操作系统：Linux / macOS / Windows（WSL2）
Docker：版本 ≥ 20.10
GPU 支持（可选）：需安装 NVIDIA Container Toolkit

2. 验证 Docker 环境

# 检查 Docker 是否正常运行
docker --version
docker run hello-world

二、单机部署 Xinference

1. 拉取 Xinference 镜像

docker pull xprobe/xinference:latest

2. 启动容器（根据硬件选择命令）

仅 CPU 模式：

  docker run -d -p 9998:9998 --name xinference xprobe/xinference:latest

启用 GPU 加速（需 NVIDIA 驱动）：

  docker run -d --gpus all -p 9998:9998 --name xinference xprobe/xinference:latest

3. 验证部署状态

访问 Web UI：[http://localhost:9998](http://localhost:9998)，若看到管理界面则部署成功。

三、部署与使用模型

1. 通过命令行启动模型

进入容器内部操作：

docker exec -it xinference bash

启动常用模型：

# 启动 Rerank 模型（如 bge-reranker-large）
xinference launch --model-name bge-reranker-large --model-type rerank

# 启动 Embedding 模型（如 bge-large-en）
xinference launch --model-name bge-large-en --model-type embedding

# 启动 LLM（如 Llama3-8B）
xinference launch --model-name llama-3-8b-instruct --model-type LLM --size-in-billions 8

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

飘逸高铁侠

关注关注

14
点赞
踩
60

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

使用 Xinference 部署本地模型

洛阳泰山的博客

04-24

9341

是一款开源模型推理平台，除了支持 LLM，它还可以部署 Embedding 和 ReRank 模型，这在企业级 RAG 构建中非常关键。同时，Xinference 还提供 Function Calling 等高级功能。还支持分布式部署，也就是说，随着未来应用调用量的增长，它可以进行水平扩展。

docker-compose Install (dify扩展)Xinference GPU 模式

极致，细节

03-04

934

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。

3 条评论您还未登录，请先登录后发表或查看评论

4 条评论

supreme_LiHua 2025.06.30
docker run -d --gpus all -p 9998:9998 --name xinference \ xprobe/xinference:latest \ xinference-local -H 0.0.0.0 -p 9998 这是最新启动容器的命令
- X_taiyang18回复supreme_LiHua 2025.10.14
  我就说默认不应该是9997吗，