Linux安装Xinference

Ollama 不支持 Rerank 模型 ,而且对Embedding支持的一般, 所以需要使用 Xinference 这款产品。

简介

Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,我们可以使用任何开源 LLM嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。

Xorbits InferenceOllama 有以下区别:

核心定位与目标用户

Xorbits Inference:由 Xorbits 开源团队维护,目标是提供企业级分布式模型服务,支持多模态推理,主要面向企业开发者以及需要进行多模型混合编排的场景。
Ollama:由社区驱动,核心团队专注于 LLM 优化,专注于本地 LLM 的轻量化运行与调试,适合个人开发者、快速实验 LLM 的小型团队。

模型支持范围

Xorbits Inference:支持多模态,包括文本生成(LLM)、Embedding、Rerank、语音合成等多种模型类型。兼容 PyTorch、Hugging Face Transformers、GGUF 等格式,内置 100 + 预训练模型,如 Llama3、bge - reranker、Whisper 等,可直接通过名称调用。
Ollama:仅支持大型语言模型,如 Llama3、Mistral、Phi - 3 等。基于 Modelfile 定制模型,依赖社区提供的预量化版本,以 GGUF 格式为主,提供精选的 50 + 主流 LLM,但需手动下载。

部署与扩展性

Xorbits Inference:原生支持 Kubernetes 部署,可横向扩展多节点集群。支持 GPU 显存动态分配和多卡并行推理。提供 OpenAI 兼容的 API 接口,能无缝对接 LangChain、Dify 等框架。
Ollama:采用轻量化设计,单机部署,通过 “ollama run” 命令直接启动模型。针对 Mac M1/M2 芯片优化,有 Metal GPU 加速,在 Windows/Linux 上也支持 CPU 或 CUDA。默认模型存储在 “~/.ollama”,适合离线环境开发。

使用复杂度

Xorbits Inference:需通过 YAML 文件定义模型参数、资源限制等,配置较灵活,支持模型监控、流量限制、A/B 测试等企业级特性,学习曲线相对较陡,适合有一定 DevOps 经验的团队。
Ollama:具有开箱即用的特点,一行命令即可启动模型,如 “ollama run llama3”。内置聊天界面,支持实时调整温度、最大 token 数等参数,便于交互式调试,适合快速验证模型效果,无需复杂配置。

性能与资源消耗

Xorbits Inference:支持多卡负载均衡,显存占用优化,采用动态批处理,适合高并发请求,在 GPU 集群上典型延迟(Llama3 - 7B)为 50 - 100ms/request。
Ollama:单卡运行,在 Mac 设备上 Metal 加速效果佳,单次推理内存占用更低,在 M2 Max 上典型延迟(Llama3 - 7B)为 200 - 300ms/request。

集成生态对比

Xorbits Inference:原生支持 Dify,可直接配置为模型供应商,通过 XinferenceEmbeddings 类可直接调用 LangChain,支持 LoRA 微调并部署为独立服务。
Ollama:需通过 OpenAI 兼容 API 转接 Dify,使用 OllamaLLM 或 ChatOllama 模块对接 LangChain,需手动编写 Modelfile 合并适配器来进行私有数据微调。

Docker方式部署

Linux安装Docker:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值