使用Xorbits Inference (Xinference)与LangChain集成进行LLM推理

最新推荐文章于 2025-06-19 13:35:23 发布

原创

最新推荐文章于 2025-06-19 13:35:23 发布 · 480 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #python

技术背景介绍

在人工智能领域，大规模语言模型（LLM）和语音识别模型的应用变得越来越广泛。Xorbits Inference (Xinference) 是一个强大且多功能的库，旨在轻松部署和服务这些模型。无论是在本地机器还是分布式集群上，它都可以高效地提供模型服务。本文将介绍如何安装和配置Xinference，并展示如何结合LangChain进行模型推理。

核心原理解析

Xinference 支持多种兼容GGML的模型，包括ChatGLM、Baichuan、Whisper、Vicuna和Orca。用户可以通过简单的命令查看内置模型，并启动本地或分布式的Xinference实例。启动后的Xinference实例可以通过CLI或Xinference客户端进行模型管理。这使得我们可以方便地在LangChain中调用这些模型进行推理。

代码实现演示

1. 安装与设置

首先，我们需要安装Xinference。可以使用pip从PyPI安装：

pip install "xinference[all]"

2. 启动Xinference实例

本地启动Xinference实例非常简单，只需运行以下命令：

xinference

如果需要在分布式集群中部署，首先在想要运行Xinference Supervisor的服务器上运行：

xinference-supervisor

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qahaj

关注关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

langchain连接xinference并输出数据

weixin_43654613的博客

10-25

576

结合langchain、xinference、chainlit

使用Xinference和LangChain轻松部署本地大模型

adfyvatbia的博客

10-06

941

Xinference提供了一种灵活且高效的方式来本地运行复杂的模型，与LangChain的结合则提供了强大的工具链支持。Xinference官方文档LangChain文档。

参与评论您还未登录，请先登录后发表或查看评论

xinference部署qwen模型，跑langchain的工具调用示例时报错

qq_39600166的博客

10-12

1803

dict。

LangChain之模型调用

积跬步，至千里。

04-22

2057

LangChain的模型是框架中的核心，基于语言模型构建，用于开发LangChain应用。通过API调用大模型来解决问题是LangChain应用开发的关键过程。

xinference - 大模型分布式推理框架

AI工程化、开源分享、文档翻译、代码笔记

03-19

5374

Xinference 也允许从其他模型托管平台下载模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。如果你的第1个cuda 被占用，又设置 N-GPU 为 auto，可能会报如下错误。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。模型缓存地址，我使用 modelscope 下载模型，被缓存到。

【大模型系列篇】Xinference：让模型推理轻而易举

木亦汐丫

12-16

3338

上篇我们通过Ollama和Dify复刻一套私有化部署的智能问答系统《构建企业级智能问答系统：Ollama + Dify + RAG 的完美组合》，我们在优化知识库需要配置Rerank模型时，发现了一个性能强大且功能全面的分布式推理框架Xorbits Inference（Xinference）。Xinference由国人开发的推理框架，可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xinference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。

一文读懂Xinference

强化学习曾小健

12-23

1598

随着AI技术的快速发展，各种AI模型如雨后春笋般涌现。然而，如何高效地运行和集成这些模型成为一个挑战。Xinference应运而生，提供了一个统一的平台，帮助开发者轻松地管理和部署不同类型的AI模型。

[如何使用Xorbits Inference与LangChain实现强大的AI模型服务]

sjufgwgfhoia的博客

11-28

588

在现代AI应用中，模型的部署和服务化变得至关重要。Xorbits Inference (Xinference) 提供了一种简便而强大的方式来运行语言模型（LLMs）、语音识别模型及多模态模型，即便是仅使用一台笔记本电脑。本文将带您深入了解如何使用Xinference与LangChain结合，实现AI模型的高效服务化。Xinference是一款针对LLM、语音识别及多模态模型的强大库。它的设计目标是让开发者可以轻松地部署和管理这些模型。本文将指导您完成Xinference的安装、模型的部署以及如何通过Lang

Xorbits Inference（Xinference）：一款性能强大且功能全面的大模型部署与分布式推理框架

积跬步，至千里。

09-13

4906

Xinference是一个性能强大且功能全面的分布式推理框架。可用于大语言模型，语音识别模型，多模态模型等各种模型的推理。通过Xinference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。

Xorbits Inference比Ollama更强大的模型部署与推理框架

weixin_44455388的博客

03-26

3110

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。

Xorbits inference操作实战

NLP工程化

07-02

3691

Xorbits inference 是一个强大且通用的分布式推理框架，旨在为大型语言模型、语音识别模型和多模态模型提供服务，甚至可以在笔记本电脑上使用。它支持多种与 GGML 兼容的模型，如 ChatGLM、Baichuan、Whisper、Vicuna、Orca 等。Dify 支持以本地部署的方式接入 Xinference 部署的大型语言模型推理和 Embedding 能力。

探索Xorbits Inference：在LangChain中使用Xinference的完整指南

mmlihaio的博客

11-16

641

Xinference为开发者提供了一个强大且灵活的平台，可以轻松部署和管理复杂的语言模型和多模态模型。通过这篇文章，你应该能掌握基本的安装、设置和使用技巧。LangChain官方文档Xinference GitHub页。

YWGGWY的博客

07-13

3696

DeepSeek+Xinference搭建本地知识库应用

xiangzhihong8的专栏

02-13

5043

Xinference (Xorbits Inference) 是一个通用的推理平台，旨在为各种模型（可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理）提供统一的接口和服务。模型多样性: 支持多种模型类型，包括语言模型 (LLMs)、 embedding 模型、图像模型、音频模型等。硬件加速: 支持 CPU、GPU (NVIDIA, AMD, Intel) 和 Apple Silicon 等多种硬件加速。易于部署: 提供简单的命令行界面和 Python API，方便本地和云端部署。

本地大模型6：在conda环境中安装Langchain-Chatchat、xinference及简单使用

weixin_74825941的博客

11-11

1874

下载Langchain-Chatchat解压后用vscode打开conda是一个开源的包管理器和环境管理器，主要用于管理 Python 和其他编程语言的软件包和依赖项。conda环境指的是一个隔离的环境，其中包含特定版本的 Python 解释器及其依赖的库和工具。通过使用conda环境，可以避免不同项目间的依赖冲突，并且每个项目都可以使用不同版本的库，而不影响其他项目。简而言之，conda 环境是一个虚拟环境，允许你在其中安装特定版本的软件包，确保不同的项目不会互相干扰。

解锁本地AI推理的潜力：使用Xinference和LangChain整合大语言模型

nseejrukjhad的博客

09-20

615

Xinference与LangChain的结合，提供了一种高效的方式在本地或集群中运行复杂模型。LangChain官方文档。

【亲测】Windows 11通过Docker安装Xinference 平台