银河麒麟v10（arm架构）部署Embedding模型bge-m3【简单版本】

最新推荐文章于 2025-06-17 17:12:50 发布

原创最新推荐文章于 2025-06-17 17:12:50 发布 · 1.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #银河麒麟 #linux #bge-m3

银河麒麟专栏收录该内容

5 篇文章

订阅专栏

硬件

服务器配置：鲲鹏2 * 920（32c）+ 4 * Atlas300I duo卡

参考文章

https://www.hiascend.com/developer/ascendhub/detail/07a016975cc341f3a5ae131f2b52399d
鲲鹏+昇腾Atlas300Iduo部署Embedding模型和Rerank模型并连接Dify（自用详细版）

下载准备

1.bge-m3模型：https://www.modelscope.cn/models/BAAI/bge-m3
2.封装好的docker容器：mis-tei:6.0.RC3-300I-Duo-aarch64（自己去昇腾社区申请）
3.安装好docker

部署bge-m3

（1）创建容器运行

docker run -u root -e ASCEND_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -itd --name=tei-m3 --net=host \
-e HOME=/home/HwHiAiUser \  
--privileged=true  \
-v /home/BAAI/:/home/HwHiAiUser/model \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
--entrypoint /home/HwHiAiUser/start.sh \
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:6.0.RC3-300I-Duo-aarch64 \
BAAI/bge-m3  127.0.0.1 8068

（2）查看是否启动成功

docker logs tei-m3

在这里插入图片描述
最后出现Ready成功

测试bge-m3

curl 127.0.0.1:8068/embed \
    -X POST \
    -d '{"inputs":"What is Deep Learning?"}' \
    -H 'Content-Type: application/json'

在这里插入图片描述
这样就成功了

API

http://127.0.0.1:8068/embed   #这个就是创建的bge-m3的API，TEI格式

水一篇文章哈

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mzak

关注关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

文本嵌入技术Text Embedding模型详解：text2vec、OpenAI ada-002到M3E及BGE-M3的演变

丨汀、的博客

09-03

2009

文本嵌入技术Text Embedding模型详解：text2vec、OpenAI ada-002到M3E及BGE-M3的演变

text-embedding-ada-002；BGE模型；M3E模型是Moka Massive Mixed Embedding；BERT

ZJQ的博客

11-06

821

text-embedding-ada-002属于OpenAI大型语言模型系列的一部分，这个嵌入模型是为了将文本（如单词、短语或整段文本）转换为数值形式的向量，使得计算机能够处理和理解自然语言。

1 条评论您还未登录，请先登录后发表或查看评论

vllm本地部署bge-m3模型API服务实战教程

2401_85252837的博客

05-19

1764

本文详细介绍了在Ubuntu 24.04系统上，使用CUDA 12.8和Python 3.12环境，本地部署bge-m3模型API服务的实战教程。首先，通过Miniconda创建并激活虚拟环境，随后安装vllm、对应版本的PyTorch以及flash_attn（安装过程可能耗时较长）。接着，从魔搭社区下载bge-m3模型，并通过命令行启动API服务。最后，提供了调用API服务的示例代码，并展示了运行结果。整个过程涵盖了环境配置、模型下载、服务启动及验证等关键步骤，适合需要在本地部署bge-m3模型的开发者参

Didy知识库：ollama bge-m3 部署，并实现与dify平台对接

xiezhipu的博客

11-29

9848

这几天为了写技术博客，各种组件可谓是装了卸，卸了装，只想复现一些东西，确保你们看到的东西都是可以复现的。（看在我这么认真的份上，求个关注啊，拜托各位观众老爷了。这不，为了实验在windows上docker里运行pytorch，把docker重装了。dify也得重装：Dify基础：Dify平台的本地化部署（含windows部署中，常见问题及解决方案）结果发现，这个模型注册这里，有了一些新东西：那咱可得好好玩一玩。

BGE-M3部署使用（1024维）

weixin_49103875的博客

04-01

1185

Ubuntu下BGE-M3部署使用

ai之嵌入模型bge-m3:latest的本地部署

最新发布

nalanxiaoxiao2011的博客

06-17

1201

ai之嵌入模型bge-m3:latest的本地部署

使用deepseek和bge-m3搭建本地知识库

2401_85390073的博客

02-25

8515

想要在本地搭建知识库，需要提供一个本地运行大模型的环境，选择合适的推理大模型和Embedding模型，其次需要配置向量数据库用于知识的存储和检索，最后安装可视化交互工具方便使用。当然很多可视化交互工具本身也提供了默认的向量数据库配置，如anythingLLM。为了简化本地部署，这里就通过anythingLLM来完成模型和向量数据库的配置。集成步骤如下：安装Ollama→下载DeepSeek和Embedding模型→安装anythingLLM→配置DeepSeek和Embedding模型。

安装Embendding模型（bge-m3）并且关联Dify

欲买桂花同载酒的博客

02-20

4461

在使用Dify进行知识库创建的时候，我们可以设置它的索引方式是高质量还是经济模式。如果想使用高质量的索引方式，就必须安装Embendding模型。下面我们来介绍下如何安装Embendding模型（bge-m3）并且将其关联到Dify平台。

【LLM论文日更】｜ BGE-M3E embedding模型

qq_59084968的博客

10-10

1365

这篇论文提出的M3-Embedding模型在多语言检索、跨语言检索和多语言长文档检索任务中表现出色，展现了前所未有的多功能性和高效性。稀疏检索和多向量检索进一步提升了性能，最终的综合检索方法（All）表现最佳。：在MLDR和NarrativeQA数据集上的实验结果表明，M3-Embedding在长文档检索任务中表现出色，尤其是稀疏检索方法（Sparse）和多向量检索方法（Multi-vec）。：自知识蒸馏和多阶段训练的消融实验表明，自知识蒸馏显著提高了稀疏检索的性能，多阶段训练则进一步提升了整体检索质量。

Deepseek+Ollama+Cherrystudio+beg-m3部署私人知识库

hongyan0921的博客

02-20

1698

Deepseek+Ollama+Cherrystudio+beg-m3部署私人知识库

【大模型-知识库之本地安装Embendding模型（BGE-M3）】

高克莱的博客

03-20

1832

通过python进行文档内容的解析、分片、并调用Embendding模型（BGE-M3）将分片内容进行向量化，存入向量数据库中，其中向量转化可以使用开源的模型进行处理。

详解 BGE-M3 与 Splade 模型

stephen147的博客

07-16

1639

详解 BGE-M3 与 Splade 模型本文将探索两种先进的 Embedding 模型——BGE-M3 和 Splade，深入解析它们的设计理念和工作原理。 01. 快速回顾Embedding向量的概念 Embedding 向量或者向量表示，是指在高维向量空间中以数值描述表示对象、概念或实体（Entity）。每个 Entity 由一个向量表示，此向量通常长度固定，每个维度反映了Entity 的一个特定属性或特征。Embedding 向量类型主要分为三种：传统的稀疏向量、稠密向量以及“学习到的”（lear

BGE-M3 一个多功能、多语言、多粒度的语言向量模型

weixin_41046245的博客

09-13

6855

密集检索: 通过将文本映射到单一嵌入向量进行检索，例如 DPR、BGE-v1.5。稀疏检索（词汇匹配）: 通过计算文本中出现的词元权重，常用模型如 BM25、unicoil、splade。多向量检索: 使用多个向量来表示文本，例如 ColBERT。

Dify+Ollama+Deepseek+BGE-M3来搭建本地知识库实操

2401_85325726的博客

04-07

1152

如果你真的想学习大模型，请不要去网上找那些零零碎碎的教程，真的很难学懂！你可以根据我这个学习路线和系统资料，制定一套学习计划，只要你肯花时间沉下心去学习，它们一定能帮到你！

零基础实战：用 Docker 和 vLLM 本地部署 BGE-M3 文本嵌入模型

静心编程，禅意生活。

06-13

1568

BGE-M3是北京智源推出的多功能文本嵌入模型，支持跨语言语义匹配。利用Docker容器化和vLLM框架可高效部署该模型，实现本地运行的优势包括隐私保护、定制化和成本控制。通过配置Docker环境，使用vLLM官方镜像加载模型，并进行文本嵌入测试验证效果。该方案适合开发者快速验证模型能力，或集成到本地NLP流程中。

AI菜鸟向前飞 — LLM简介

2401_82469710的博客

05-11

1650

AI菜鸟向前飞 — LLM简介

1.DeepSeek-R1+Dify+Bge-m3+CentOS7.9搭建本地专属知识库

web326的专栏

02-26

2695

CentOS7.9虚拟机无显卡，离线部署ollama，下载deepseek-r1:7b和bge-m3模型，docker 部署dify，构建本地deepseek+dify专属测试领域助手

私有化部署dify + DeepSeek-R1-Distill-Qwen-32B + bge-m3

xuebodx0923的博客

03-29

1567

Dify是一款开源的大语言模型(LLM)应用开发平台。对数百个模型的支持、直观的Prompt编排界面、高质量的RAG引擎、稳健的Agent框架、灵活的流程编排。在linux环境中使用docker部署dify，vllm部署DeepSeek-R1，ollama部署bge-m3。unexpected character "%" in variable name near "%H:%M:%S\n。Not supported URL scheme http+docker。

bge-m3模型部署

06-04

<think>我们正在处理两个独立的任务：在Dify中连接已部署的vLLM模型，以及部署bge-m3模型（作为Embedding模型）并与Dify关联。根据引用[4]，我们可以知道：-vLLM模型（例如DeepSeek-R1-Distill-Qwen-32B）和bge-m3模型可以通过不同的方式部署，然后在Dify的模型供应商中分别配置。-引用[4]提到，在模型供应商中安装vllm和ollama，然后分别配置这两个模型。但注意，引用[1][2][3]指出，bge-m3模型是通过ollama部署的。因此，我们分两部分：第一部分：在Dify中连接vLLM模型第二部分：部署bge-m3（使用ollama）并连接到Dify然而，用户的问题中特别提到了“vll部署的模型”，这里可能是指vLLM。注意引用[4]中同时提到了vllm和ollama，它们是两种不同的服务。因此，我们分别说明：第一部分：连接vLLM模型到Dify引用[4]提到在模型供应商中安装vllm，然后在vllm中配置部署的模型（如DeepSeek）。步骤可参考之前的回答，但这里根据引用[4]再整理：1.确保vLLM服务已经在服务器上运行（例如，运行了一个API服务在8000端口）2.在Dify的模型供应商设置中，选择添加vLLM类型的供应商。3.填写配置，包括APIendpoint（如http://vllm_server_ip:8000/v1）、模型名称等。第二部分：部署bge-m3模型（使用ollama）并连接到Dify根据引用[1][2][3]，bge-m3模型是通过ollama部署的。注意引用[1]中提到在ollama中部署bge-m3时遇到了一些问题，最后是通过重新下载模型解决的。部署bge-m3的步骤（在ollama中）：1.下载bge-m3模型的GGUF文件（如从魔塔社区）。2.创建Modelfile，内容例如：```FROM./bge-m3.Q5_K_M.ggufPARAMETERnum_ctx512```3.使用ollama创建模型：`ollamacreatebge-m3-fModelfile`4.运行模型：`ollamarunbge-m3`（或者作为服务运行：`ollamaserve`）注意：引用[3]提到，在Dify中配置ollama的Embedding模型时，选择ollama供应商，然后填写模型名称为'bge-m3'。然后，在Dify中连接ollama（运行bge-m3）：1.在Dify的模型供应商设置中，选择添加Ollama类型的供应商。2.填写配置：-模型类型：Embedding-模型名称：bge-m3-基础URL：运行ollama服务的地址（如http://ollama_server_ip:11434）注意：引用[1]中提到，之前出现连接问题可能是因为模型本身的问题，所以确保模型下载正确并成功创建。因此，总结回答：步骤1：连接vLLM模型到Dify-启动vLLM服务（例如DeepSeek模型）-在Dify中添加vLLM供应商，填写APIendpoint（如http://vllm_server:8000/v1）和模型名称。步骤2：部署bge-m3（使用ollama）并连接到Dify-下载bge-m3的GGUF文件-通过ollama创建并运行模型-在Dify中添加Ollama供应商（类型为Embedding），模型名称填写'bge-m3'，URL填写ollama服务地址。注意：两个服务（vLLM和ollama）可能运行在同一台机器或不同机器，只要网络互通即可。根据引用[1][3]，ollama服务的默认端口是11434，vLLM服务端口（如8000）需要确保防火墙允许。最后，引用[4]提到在模型供应商中分别配置vllm和ollama，所以Dify可以同时使用这两种服务。</think> ### 在 Dify 中连接 vLLM 模型并部署 bge-m3 模型 #### 一、连接 vLLM 模型到 Dify 1. **启动 vLLM 服务** ```bash python -m vllm.entrypoints.openai.api_server \ --model /path/to/model \ --tensor-parallel-size 2 \ --served-model-name your-model \ --port 8000 ``` 2. **在 Dify 中配置 vLLM** ```yaml 模型供应商：Vllm 模型名称：your-model API endpoint：http://<服务器IP>:8000/v1 最大Token：4096 温度：0.7 ``` 3. **验证连接** ```bash curl http://<服务器IP>:8000/v1/models # 预期返回：{"object":"list","data":[{"id":"your-model"}]} ``` #### 二、部署 bge-m3 模型 1. **下载模型** ```bash git clone https://www.modelscope.cn/<bge-m3路径>.git ``` 或通过魔塔社区下载 GGUF 格式模型[^1] 2. **创建 Modelfile** ```text FROM ./bge-m3.Q5_K_M.gguf PARAMETER num_ctx 512 ``` 3. **通过 Ollama 部署** ```bash ollama create bge-m3 -f Modelfile ollama run bge-m3 ``` #### 三、在 Dify 中连接 bge-m3 1. **配置 Embedding 供应商** ```yaml 供应商：Ollama 模型类型：Embedding 模型名称：bge-m3 端点：http://<服务器IP>:11434 ``` 2. **知识库设置** - 选择“高质量”索引模式 - 选用 bge-m3 作为嵌入模型 - 调整块大小：256-512 Token[^2] #### 四、验证联合部署 ```mermaid graph LR A[Dify应用] -->|生成请求| V(vLLM:8000) A -->|知识库检索| B(bge-m3:11434) V --> G[GPU集群] B --> M[模型参数] ``` > **关键提示** > 1. vLLM 和 Ollama 可共享 11434 端口但需不同容器 > 2. bge-m3 部署后需执行 `ollama embed` 验证[^3] > 3. 显存不足时使用 GGUF 量化版本（如 Q4_K_M） #### 常见问题解决 1. **连接断开错误** ```bash # 检查防火墙 sudo ufw allow 11434 sudo ufw allow 8000 # 测试端口连通性 telnet <IP> 11434 ``` 2. **模型加载失败** ```bash # 重建模型索引 ollama rm bge-m3 ollama create bge-m3 -f Modelfile ``` 3. **性能优化** ```bash # vLLM 启动参数 --max-num-batched-tokens 4096 --gpu-memory-utilization 0.85 # Ollama 配置 OLLAMA_NUM_PARALLEL=4 ``` --- ### 🔍相关问题 1. 如何验证 vLLM 和 Ollama 的协同工作性能？ 2. bge-m3 不同量化版本(Q4/Q5/Q8)对知识库效果的影响？ 3. 如何实现多个 vLLM 实例的负载均衡？ 4. 知识库索引更新后如何刷新 bge-m3 的向量缓存？