Ollama 不支持 Rerank 模型 ,而且对Embedding支持的一般, 所以需要使用 Xinference 这款产品。
简介
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,我们可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。
Xorbits Inference 和 Ollama 有以下区别:
核心定位与目标用户
Xorbits Inference:由 Xorbits 开源团队维护,目标是提供企业级分布式模型服务,支持多模态推理,主要面向企业开发者以及需要进行多模型混合编排的场景。
Ollama:由社区驱动,核心团队专注于 LLM 优化,专注于本地 LLM 的轻量化运行与调试,适合个人开发者、快速实验 LLM 的小型团队。
模型支持范围
Xorbits Inference:支持多模态,包括文本生成(LLM)、Embedding、Rerank、语音合成等多种模型类型。兼容 PyTorch、Hugging Face Transformers、GGUF 等格式,内置 100 + 预训练模型,如 Llama3、bge - reranker、Whisper 等,可直接通过名称调用。
Ollama:仅支持大型语言模型,如 Llama3、Mistral、Phi - 3 等。基于 Modelfile 定制模型,依赖社区提供的预量化版本,以 GGUF 格式为主,提供精选的 50 + 主流 LLM,但需手动下载。
部署与扩展性
Xorbits Inference:原生支持 Kubernetes 部署,可横向扩展多节点集群。支持 GPU 显存动态分配和多卡并行推理。提供 OpenAI 兼容的 API 接口,能无缝对接 LangChain、Dify 等框架。
Ollama:采用轻量化设计,单机部署,通过 “ollama run” 命令直接启动模型。针对 Mac M1/M2 芯片优化,有 Metal GPU 加速,在 Windows/Linux 上也支持 CPU 或 CUDA。默认模型存储在 “~/.ollama”,适合离线环境开发。
使用复杂度
Xorbits Inference:需通过 YAML 文件定义模型参数、资源限制等,配置较灵活,支持模型监控、流量限制、A/B 测试等企业级特性,学习曲线相对较陡,适合有一定 DevOps 经验的团队。
Ollama:具有开箱即用的特点,一行命令即可启动模型,如 “ollama run llama3”。内置聊天界面,支持实时调整温度、最大 token 数等参数,便于交互式调试,适合快速验证模型效果,无需复杂配置。
性能与资源消耗
Xorbits Inference:支持多卡负载均衡,显存占用优化,采用动态批处理,适合高并发请求,在 GPU 集群上典型延迟(Llama3 - 7B)为 50 - 100ms/request。
Ollama:单卡运行,在 Mac 设备上 Metal 加速效果佳,单次推理内存占用更低,在 M2 Max 上典型延迟(Llama3 - 7B)为 200 - 300ms/request。
集成生态对比
Xorbits Inference:原生支持 Dify,可直接配置为模型供应商,通过 XinferenceEmbeddings 类可直接调用 LangChain,支持 LoRA 微调并部署为独立服务。
Ollama:需通过 OpenAI 兼容 API 转接 Dify,使用 OllamaLLM 或 ChatOllama 模块对接 LangChain,需手动编写 Modelfile 合并适配器来进行私有数据微调。
Docker方式部署
Linux安装Docker:

最低0.47元/天 解锁文章
3590

被折叠的 条评论
为什么被折叠?



