【知识库特性增量】 DeepSeek-R1 模板支持 bge-m3 embedding model

最新推荐文章于 2025-10-08 15:39:26 发布

原创

最新推荐文章于 2025-10-08 15:39:26 发布 · 2.6k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#embedding

为什么知识库需要

Embedding Model？

通过询问 DeepSeek-R1 得到如下回答：

Embedding 模型的核心价值在于将非结构化文本转化为数值向量，解决语义理解与计算效率问题：

语义编码：通过向量空间捕捉上下文关联，区分多义词、同义词；如：

问题：用户搜索“苹果”，需区分“水果”还是“品牌”。

Embedding 作用：

-“苹果手机”的向量会接近“iPhone”“智能手机”；

-而“红苹果”的向量会接近“水果”“香蕉”“维生素”。

结果：搜索“苹果”时，优先展示手机或水果，取决于用户历史行为（如点击电子产品）。

高效检索：支持近似最近邻（ANN）算法，降低海量数据匹配复杂度；

场景：某电商平台有 1 亿商品描述，需实时匹配用户查询“适合露营的轻便帐篷”。

传统方法：关键词匹配“露营+轻便+帐篷”，可能漏掉“户外超薄遮阳篷”。

Embedding 方案：

-将查询和商品描述转为向量；

-使用 ANN 库（如 FAISS ）在毫秒级返回

Top100 相关商品，覆盖语义相似但关键词不匹配的结果。

AI 基础设施：支撑 RAG 、多模态搜索、迁移学习等任务，替代传统关键词匹配与人工规则。

场景：客服机器人回答“如何清洁帐篷上的污渍？”

流程：用 BGE-M3 将问题编码为向量；

-从向量数据库检索《户外用品保养指南》中相关段落；

-将检索结果输入大模型（如

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CloudStudio

关注关注

19
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

基于DeepSeek-R1、bge-m3、bge-reranker-v2-m3、dify技术框架实现中文本地知识库，依托

08-25

基于DeepSeek-R1、bge-m3、bge-reranker-v2-m3、dify技术框架实现中文本地知识库，依托项目搭建，搭建中文大模型知识库LLM支持多模态、侧端.zip

精选资源

Win11 使用 Ollama 本地部署 DeepSeek - R1 详细指南.pdf

02-05

DeepSeek - R1 作为一款强大的语言模型，能够为用户提供丰富的知识和智能交互体验。Ollama 是一个方便在本地运行大型语言模型的工具，它允许用户在本地设备上部署和使用模型，无需依赖云端服务，这不仅增强了数据...

参与评论您还未登录，请先登录后发表或查看评论

BGE M3-Embedding 模型介绍

asd8705的专栏

06-30

4744

BGE M3-Embedding来自BAAI和中国科学技术大学，是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216，论文提出了一种新的embedding模型，称为M3-Embedding，它在多语言性（Multi-Linguality）、多功能性（Multi-Functionality）和多粒度性（Multi-Granularity）方面表现出色。

保姆级教程｜LangChain+Qwen3+BGE-M3 搭建本地 RAG 系统，4 位量化 8GB 显存就能跑，私有文档精准问答

热门推荐

发现问题，并解决问题，批判性思维

02-16

1万+

M3-Embedding联合了3种常用的检索方式，对应三种不同的文本相似度计算方法。可以基于这三种检索方式进行多路召回相关文档，然后基于三种相似度得分平均求和对召回结果做进一步重排。多阶段训练过程：在这里插入图片描述第一阶段：第一阶段的自动编码预训练采用的是RetroMAE，在105种语言的网页跟wiki数据上进行，从而获得一个基底模型第二阶段：在第一个数据源的弱监督数据进行预训练，这阶段的损失损失只考虑基于稠密检索的对比学习损失。最后第三阶段会在第二，三个数据源的监督数据进行训练，这阶段

BGE-M3论文《BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings 》翻译

qq_38001481的博客

01-31

1352

利用GPT-Academic Report生成的，效果还不错。 ## # Title: BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation ## # Abstract: In this paper, we present a new embedding model, called M3-Embeddi

BGE M3：论文解读与代码实践，检索增强RAG实践新策略，BGE M3-Embedding方法实践与解读；检索增强生成

L_goodboy的博客

04-10

6120

BGE M3：论文解读与代码实践，检索增强RAG实践新策略，BGE M3-Embedding方法实践与解读；检索增强生成

LLM - BGE M3-Embedding 一种高效可靠的向量模型

BITDDD小栈

04-15

4842

M3-Embedding 论文细节阅读与分析。

1.DeepSeek-R1+Dify+Bge-m3+CentOS7.9搭建本地专属知识库

web326的专栏

02-26

3086

CentOS7.9虚拟机无显卡，离线部署ollama，下载deepseek-r1:7b和bge-m3模型，docker 部署dify，构建本地deepseek+dify专属测试领域助手

【DeepSeek R1构建本地RAG知识库】Embedding模型原理详解

少说，多做

04-04

786

当我们利用检索增强生成（RAG）技术构建本地知识库时，Embedding模型就像是这个知识宝库的智能化导航系统，它能够帮助我们迅速且精准地定位到所需的信息。对于刚刚涉足这一领域的初学者而言，可能会对Embedding模型的本质及其在本地知识库中的功能感到困惑。近期关于本地知识库的课程中，不少学习者也表达了相似的疑问。接下来，我们将采用简单明了的语言，并结合实际案例，深入讨论这些问题，同时也会介绍如何整理本地的知识素材，以便让基于本地RAG的问题回答变得更加精确和全面。

文献分享: BGE-M3——打通三种方式的嵌入模型

qq_64091900的博客

01-05

7390

ACL'24

BGE-M3 一个多功能、多语言、多粒度的语言向量模型

weixin_41046245的博客

09-13

8964

密集检索: 通过将文本映射到单一嵌入向量进行检索，例如 DPR、BGE-v1.5。稀疏检索（词汇匹配）: 通过计算文本中出现的词元权重，常用模型如 BM25、unicoil、splade。多向量检索: 使用多个向量来表示文本，例如 ColBERT。

大模型 RAG 基础：信息检索、文本向量化及 BGE-M3 embedding 实践

hao_wujing的专栏

12-30

4752

本文整理了一些 BGE-M3 相关的 RAG 知识。

【DeepSeek R1构建本地RAG知识库】向量(Embedding)模型选型

少说，多做

02-12

4338

检索增强生成（RAG）是生成式 AI 中的一类应用，支持使用自己的数据来增强 LLM 模型的知识。RAG 通常会用到三种不同的AI模型，即 Embedding 模型、Rerankear模型以及大语言模型。本文将介绍如何根据您的数据类型以及语言或特定领域选择合适的 Embedding 模型。用一句话解释Embedding的本质“Embedding是将文本（词、句、段落）映射到高维稠密向量的技术，其核心是将语义信息编码为计算机可计算的数学表示。

使用deepseek和bge-m3搭建本地知识库

2401_85390073的博客

02-25

9748

想要在本地搭建知识库，需要提供一个本地运行大模型的环境，选择合适的推理大模型和Embedding模型，其次需要配置向量数据库用于知识的存储和检索，最后安装可视化交互工具方便使用。当然很多可视化交互工具本身也提供了默认的向量数据库配置，如anythingLLM。为了简化本地部署，这里就通过anythingLLM来完成模型和向量数据库的配置。集成步骤如下：安装Ollama→下载DeepSeek和Embedding模型→安装anythingLLM→配置DeepSeek和Embedding模型。

《向量数据库指南》——BGE-M3：引领多模态RAG系统新风尚！

实战AI智能体

11-03

1375

这个 Embedding 模型还能够输出两种不同的向量类型：稠密向量（Dense embedding）和稀疏向量（Sparse embedding）。如上所示，我们可以基于同一个输入获取两种不同类型的向量：稠密向量和稀疏向量。因为 Milvus 支持混合搜索（Hybrid Search），我们可以在向量搜索中同时使用这两种向量类型，从而增强 RAG 系统中检索到的上下文的准确性和质量。在下面的 RAG 应用中，我们将使用 BGE-M3 作为 Embedding 模型，将文本输入转换为向量。

本地部署DeepSeek-R1大模型，非常详细收藏我这一篇就够了！

2401_84204413的博客

02-10

1587

最近，一家叫做深度求索的公司发布了DeepSeek-V3以及DeepSeek- R1模型，其中DeepSeek-R1模型免费开源。DeepSeek-R1的各项性能指标和ChatGPT-o1不相上下，而且可以直接部署到本地。本地部署后，可以在无网络的环境下使用，同时不用担心DeepSeek服务器崩溃无法使用的问题。–下面是本地部署的方法–1.安装OllamaOllama下载网站：https://ollama.com/download/

【embedding 模型】大模型 RAG 模型：bge-m3

Zack的博客

10-29

4490

【embedding 模型】大模型 RAG 模型：bge-m3

BGE-M3：一个能“三头六臂”的文本嵌入模型，让AI检索不再“偏科”

夜夜夜夜

02-08

1万+

想象一下，你家的工具箱里同时装着螺丝刀、锤子、扳手和万用表——BGE-M3就是这样一个“全能工具箱”。它不仅能处理100+种语言（包括你的家乡话），还能一口气搞定短句、长文档甚至整本书的语义分析，最高支持的输入长度（相当于《哈利波特》前两章的篇幅）:cite[2]:cite[5]。

基于DeepSeek-R1搭建本地知识库的完整指南

“DeepSeek搭建本地知识库[可运行源码]”这一主题围绕着如何利用开源大模型框架DeepSeek-R1构建一个功能完整、可实际部署的本地化知识检索与问答系统，涵盖了从环境配置到前端交互的全流程实现。该方案的核心价值...