使用 Qwen3 嵌入和 Qwen3 重排器的 RAG

原创已于 2025-07-04 10:18:14 修改 · 1.6k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-06-30 16:38:14 首次发布

LLM 专栏收录该内容

80 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

如何利用嵌入和重排序模型高效检索与用户查询最相关的文本片段或文档

检索增强生成（RAG）是一种强大的范式，通过检索机制增强大型语言模型（LLM）的能力，使其在生成响应前能够访问相关背景信息（如文档或段落）。

RAG 流程的核心通常包含两个组件：嵌入模型和重排序器。

嵌入模型将文本转化为稠密数值向量（嵌入表示），使语义相似的文本在向量空间中彼此靠近。这通过相似性搜索实现了候选文档的高效检索。

重排序模型随后会接收这些候选文档，评估每个查询-文档对的相关性，并重新排序，使最相关的文档排在顶部。

换句话说，高质量的嵌入能够捕捉文本片段之间的语义关系，而强大的重排序器则确保检索结果在上下文中最相关。

为了支持高性能的 RAG 工作流程，Qwen 团队开源了基于 Qwen3 的嵌入和重排序模型。

本文将介绍如何使用并结合 Qwen3 嵌入和 Qwen3 重排序器来检索相关文档，并为您的 LLM 提供针对用户查询的有意义上下文。我们将首先详细探讨嵌入和重排序模型各自的工作原理及组合效果。通过一个示例，展示如何结合 sentence-transformers 和 vLLM 使用它们。

Qwen3 嵌入模型：专用文本嵌入</

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

runner000001

关注关注

29
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

Chainlit集成LlamaIndex和Chromadb实现RAG增强生成对话AI应用

洛阳泰山的博客

10-23

1977

Chroma 是一个开源的向量数据库，专门设计用于处理大规模的向量数据，如文本嵌入、图像特征等。它提供了高效的向量搜索能力，使得应用程序能够在海量数据中快速找到与查询向量最相似的数据点。

Qwen集成clickhouse实现RAG

fengchengwu2012的博客

05-14

628

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合信息检索与语言生成的人工智能技术，旨在通过检索相关文档来增强大模型的生成能力，提高预测的质量和准确性。RAG模型在生成文本或回答问题时，会先从一个庞大的文档集合中检索相关信息，然后利用这些信息来指导文本的生成。RAG的作用在于解决通用大模型的知识局限性、幻觉问题和数据安全性问题。RAG的工作原理分为索引和检索两个阶段，索引阶段包括数据提取、文本分割、向量化和数据入库，检索阶段则包括用户提问、数据检索、注入Promp

参与评论您还未登录，请先登录后发表或查看评论

震惊！LangChain+Qwen3竟能如此简单搭建RAG问答系统，从入门到精通一篇文章足矣！

m0_65555479的博客

09-22

610

在大模型这个时期，“私有化部署”以及“个性化问答”成了企业和开发者的关键需求。要是想让AI根据特定的文档（像公司手册、技术文档、学术论文等）来回答问题，并且还担忧数据隐私会被泄漏出去，那检索增强生成（RAG就是最棒的解决办法。

RAG - QA + Qwen + dashscope

AI工程化、开源分享、文档翻译、代码笔记

03-24

1084

一、关于项目二、准备 1、安装依赖包 2、准备数据集 3、准备 API-Key 三、代码实现准备数据生成 embeddings 检索方法问答

Qwen3-14B 是否适合做RAG检索增强生成？

最新发布

weixin_32312889的博客

11-28

340

Qwen3-14B 凭借140亿参数、32K上下文窗口和Function Calling能力，在RAG场景中表现出色。它支持高效检索增强生成，兼具强语义理解与工具调用功能，适合企业级知识库、智能客服等应用，兼顾性能、成本与部署可行性。

Msty一键搞定：让Qwen3带着知识库在你的电脑上奔跑

2401_84204413的博客

05-03

2146

Msty为我们提供了一种简便的方式，让任何人都能在自己电脑上运行强大的AI大模型，同时轻松开启联网搜索、访问本地文件，以及创建私有知识库——所有这些都无需编写一行代码。本文简单演示了如何下载运行最新的Qwen3模型，以及如何启用本地知识库功能。对于想要在保护隐私的同时享受先进AI功能的用户来说，Msty无疑是一个值得尝试的工具。有兴趣的朋友们不妨立即动手体验，探索自己的专属AI吧！

RAG - LlamaIndex + modelscope + Qwen1.5 构建本地知识库

AI工程化、开源分享、文档翻译、代码笔记

03-20

3215

1、安装依赖库 2、准备数据文件 3、引用 4、下载、加载LLM 5、构建Embedding类 6、建设索引 7、查询和问答

RAGFlow+构建知识图谱+私有化部署实战：star高达55k+，大模型入门到精通，收藏这篇就足够了！

pythonhy的博客

08-22

1272

RAGFlow+构建知识图谱+私有化部署实战：star高达55k+，大模型入门到精通，收藏这篇就足够了！

使用 ollama 部署本地模型，零基础入门到精通，非常详细收藏我这一篇就够了

m0_65555479的博客

08-15

3207

在本地启动并运行大型语言模型。运行Llama 2，Code Llama和其他模型。自定义并创建您自己的。

Qwen3 Embedding：多语言文本表示与重排序模型详解

qq128252的博客

08-21

1155

本文详细介绍了Qwen3 Embedding系列模型——构建多语言文本表示与重排序的强大模型体系。该系列模型代表了文本嵌入和重排序技术的最新突破，在多个国际基准测试中取得了SOTA（State-of-the-Art）性能。文档涵盖了从基础概念到高级实现的全方位内容，包括模型背景、架构设计、训练方法、性能评估、源码实现分析以及实际应用案例等。

Qwen3-Embedding-8B-f16（Ollama 镜像）

weixin_38650077的博客

10-03

411

Qwen3-Embedding-8B-f16是一款多语种高精度文本向量模型，支持100+语言和32K长文本处理，适用于检索、聚类、跨语匹配和代码搜索等场景。该模型提供32-4096维度的可调参数，支持GGUF F16格式，兼容主流向量库和框架（如Milvus、LangChain等）。通过Ollama可快速部署，支持命令行和HTTP接口调用，默认4096维度下精度优先，也可裁剪至低维度以适应生产需求。模型采用Apache-2.0开源协议，已集成至Ollama镜像库，用户可通过简单命令完成安装和使用。典型应用包

阿里开源Qwen3-Embedding模型支持多语言高效检索

首先从标题“阿里开源Qwen3模型[代码]”可以看出，本次发布的核心是**源码级别的全面开放**，这意味着开发者不仅可以免费下载和使用预训练模型权重，还能深入研究其内部架构设计、训练流程及推理优化策略。...

LangChain RAG 系统实战(Qwen3 Embedding&Reranker)

欢迎来到云逸的博客频道

06-22

2703

LangChain 框架，并结合了业界领先的 Qwen3 Embedding 和 Reranker 模型，构建了一个功能完善、性能RAG优异的知识库问答系统

使用Qwen千问大模型和LangChain打造RAG应用

m0_59235699的博客

10-15

1603

在这部分代码中，指定了用于生成嵌入向量的预训练模型路径，即sentence-transformers/all-mpnet-base-v2。同时，还设置了计算设备，优先选择GPU以加速计算过程，如果GPU不可用，则回退到CPU。

拒绝等待！阿里云瑶池数据库 x Qwen3，构建增强式RAG

Bbbbei_的博客

05-08

1106

阿里巴巴发布的通义千问Qwen3在性能上超越多个国际顶尖模型，阿里云瑶池数据库已适配该模型，支持私域部署并与Dify无缝集成。传统RAG方案在处理复杂关系和多跳推理时存在局限，而GraphRAG通过图结构存储知识，结合Qwen3和AnalyticDB PostgreSQL，可有效解决这些问题，提升知识关联检索与分析能力。某新零售客户案例表明，GraphRAG能更好地满足高复杂度业务需求，提供直观的知识图谱可视化服务。阿里云提供Qwen3全系列模型的私域部署解决方案，确保数据安全和服务稳定性。

使用Qwen2进行RAG代码实践

weixin_42479327的博客

06-14

8568

前几天qwen2发布, 看与其他模型对比，效果挺棒的。用这个新模型写点东西, 测试下效果, 就测试下rag效果吧。RAG是大模型的补充, 可归类为提示词工程范畴(prompt),旨在扩展大模型中没有的知识. 具有可解释性,难度低的特点.RAG逻辑其实很简单，也不需要微调模型，就是个外挂知识库，但要想达到好的效果，还是需要花心思深究的。: 向量数据库的建设,提取向量的模型的挑选,信息检索方法等允许模型在生成文本时，从外部知识库中检索相关信息，从而提高生成内容的准确性、相关性和时效性。

小学生也能听得懂的大模型 - Transformer 1

2401_85325557的博客

07-29

1581

参考 [小学生也能听得懂的大模型 Transformer 1]

开源AI新协议！AI Agent与前端交互的轻量级协议，轻松构建交互式AI应用！

bugyinyin的博客

06-04

1429

AI Agent 的兴起让前端交互需求激增，但传统开发中，连接Agent后端与前端需大量定制代码，效率低下。在 MCP（模型上下文协议）、A2A（Agent-to-Agent 通信协议）之后，AI Agent 的生态正在走向一个更完整的方向：AG-UI 协议横空出世，专为 Agent 与前端应用的通信交互而设计。

手把手教：LangChain+Qwen3搭建本地RAG问答系统，从0到1全流程

2301_81888214的博客

09-11

1092

本文将带大家从零开始，用LangChain框架整合Qwen3大模型与BGE-M3嵌入模型，手戳一个可本地运行的端到端RAG系统。