Linux安装Xinference

原创

已于 2025-08-04 16:07:08 修改 · 1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#linux #运维 #服务器

于 2025-08-04 14:21:04 首次发布

Ollama 不支持 Rerank 模型，而且对Embedding支持的一般，所以需要使用 Xinference 这款产品。

简介

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，我们可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。

Xorbits Inference 和 Ollama 有以下区别：

核心定位与目标用户

Xorbits Inference：由 Xorbits 开源团队维护，目标是提供企业级分布式模型服务，支持多模态推理，主要面向企业开发者以及需要进行多模型混合编排的场景。
Ollama：由社区驱动，核心团队专注于 LLM 优化，专注于本地 LLM 的轻量化运行与调试，适合个人开发者、快速实验 LLM 的小型团队。

模型支持范围

Xorbits Inference：支持多模态，包括文本生成（LLM）、Embedding、Rerank、语音合成等多种模型类型。兼容 PyTorch、Hugging Face Transformers、GGUF 等格式，内置 100 + 预训练模型，如 Llama3、bge - reranker、Whisper 等，可直接通过名称调用。
Ollama：仅支持大型语言模型，如 Llama3、Mistral、Phi - 3 等。基于 Modelfile 定制模型，依赖社区提供的预量化版本，以 GGUF 格式为主，提供精选的 50 + 主流 LLM，但需手动下载。

部署与扩展性

Xorbits Inference：原生支持 Kubernetes 部署，可横向扩展多节点集群。支持 GPU 显存动态分配和多卡并行推理。提供 OpenAI 兼容的 API 接口，能无缝对接 LangChain、Dify 等框架。
Ollama：采用轻量化设计，单机部署，通过 “ollama run” 命令直接启动模型。针对 Mac M1/M2 芯片优化，有 Metal GPU 加速，在 Windows/Linux 上也支持 CPU 或 CUDA。默认模型存储在 “~/.ollama”，适合离线环境开发。

使用复杂度

Xorbits Inference：需通过 YAML 文件定义模型参数、资源限制等，配置较灵活，支持模型监控、流量限制、A/B 测试等企业级特性，学习曲线相对较陡，适合有一定 DevOps 经验的团队。
Ollama：具有开箱即用的特点，一行命令即可启动模型，如 “ollama run llama3”。内置聊天界面，支持实时调整温度、最大 token 数等参数，便于交互式调试，适合快速验证模型效果，无需复杂配置。

性能与资源消耗

Xorbits Inference：支持多卡负载均衡，显存占用优化，采用动态批处理，适合高并发请求，在 GPU 集群上典型延迟（Llama3 - 7B）为 50 - 100ms/request。
Ollama：单卡运行，在 Mac 设备上 Metal 加速效果佳，单次推理内存占用更低，在 M2 Max 上典型延迟（Llama3 - 7B）为 200 - 300ms/request。

集成生态对比

Xorbits Inference：原生支持 Dify，可直接配置为模型供应商，通过 XinferenceEmbeddings 类可直接调用 LangChain，支持 LoRA 微调并部署为独立服务。
Ollama：需通过 OpenAI 兼容 API 转接 Dify，使用 OllamaLLM 或 ChatOllama 模块对接 LangChain，需手动编写 Modelfile 合并适配器来进行私有数据微调。