银河麒麟v10(arm架构)部署Embedding模型bge-m3【简单版本】

硬件

服务器配置:鲲鹏2 * 920(32c)+ 4 * Atlas300I duo卡

参考文章

https://www.hiascend.com/developer/ascendhub/detail/07a016975cc341f3a5ae131f2b52399d
鲲鹏+昇腾Atlas300Iduo部署Embedding模型和Rerank模型并连接Dify(自用详细版)

下载准备

1.bge-m3模型:https://www.modelscope.cn/models/BAAI/bge-m3
2.封装好的docker容器:mis-tei:6.0.RC3-300I-Duo-aarch64(自己去昇腾社区申请)
3.安装好docker

部署bge-m3

(1)创建容器运行

docker run -u root -e ASCEND_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -itd --name=tei-m3 --net=host \
-e HOME=/home/HwHiAiUser \  
--privileged=true  \
-v /home/BAAI/:/home/HwHiAiUser/model \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
--entrypoint /home/HwHiAiUser/start.sh \
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:6.0.RC3-300I-Duo-aarch64 \
BAAI/bge-m3  127.0.0.1 8068

(2)查看是否启动成功

docker logs tei-m3 

在这里插入图片描述
最后出现Ready成功

测试bge-m3

curl 127.0.0.1:8068/embed \
    -X POST \
    -d '{"inputs":"What is Deep Learning?"}' \
    -H 'Content-Type: application/json'

在这里插入图片描述
这样就成功了

API

http://127.0.0.1:8068/embed   #这个就是创建的bge-m3的API,TEI格式

水一篇文章哈

<think>我们正在处理两个独立的任务:在Dify中连接已部署的vLLM模型,以及部署bge-m3模型(作为Embedding模型)并与Dify关联。根据引用[4],我们可以知道:-vLLM模型(例如DeepSeek-R1-Distill-Qwen-32B)和bge-m3模型可以通过不同的方式部署,然后在Dify的模型供应商中分别配置。-引用[4]提到,在模型供应商中安装vllm和ollama,然后分别配置这两个模型。但注意,引用[1][2][3]指出,bge-m3模型是通过ollama部署的。因此,我们分两部分:第一部分:在Dify中连接vLLM模型第二部分:部署bge-m3(使用ollama)并连接到Dify然而,用户的问题中特别提到了“vll部署模型”,这里可能是指vLLM。注意引用[4]中同时提到了vllm和ollama,它们是两种不同的服务。因此,我们分别说明:第一部分:连接vLLM模型到Dify引用[4]提到在模型供应商中安装vllm,然后在vllm中配置部署模型(如DeepSeek)。步骤可参考之前的回答,但这里根据引用[4]再整理:1.确保vLLM服务已经在服务器上运行(例如,运行了一个API服务在8000端口)2.在Dify的模型供应商设置中,选择添加vLLM类型的供应商。3.填写配置,包括APIendpoint(如http://vllm_server_ip:8000/v1)、模型名称等。第二部分:部署bge-m3模型(使用ollama)并连接到Dify根据引用[1][2][3],bge-m3模型是通过ollama部署的。注意引用[1]中提到在ollama中部署bge-m3时遇到了一些问题,最后是通过重新下载模型解决的。部署bge-m3的步骤(在ollama中):1.下载bge-m3模型的GGUF文件(如从魔塔社区)。2.创建Modelfile,内容例如:```FROM./bge-m3.Q5_K_M.ggufPARAMETERnum_ctx512```3.使用ollama创建模型:`ollamacreatebge-m3-fModelfile`4.运行模型:`ollamarunbge-m3`(或者作为服务运行:`ollamaserve`)注意:引用[3]提到,在Dify中配置ollama的Embedding模型时,选择ollama供应商,然后填写模型名称为&#39;bge-m3&#39;。然后,在Dify中连接ollama(运行bge-m3):1.在Dify的模型供应商设置中,选择添加Ollama类型的供应商。2.填写配置:-模型类型:Embedding-模型名称:bge-m3-基础URL:运行ollama服务的地址(如http://ollama_server_ip:11434)注意:引用[1]中提到,之前出现连接问题可能是因为模型本身的问题,所以确保模型下载正确并成功创建。因此,总结回答:步骤1:连接vLLM模型到Dify-启动vLLM服务(例如DeepSeek模型-在Dify中添加vLLM供应商,填写APIendpoint(如http://vllm_server:8000/v1)和模型名称。步骤2:部署bge-m3(使用ollama)并连接到Dify-下载bge-m3的GGUF文件-通过ollama创建并运行模型-在Dify中添加Ollama供应商(类型为Embedding),模型名称填写&#39;bge-m3&#39;,URL填写ollama服务地址。注意:两个服务(vLLM和ollama)可能运行在同一台机器或不同机器,只要网络互通即可。根据引用[1][3],ollama服务的默认端口是11434,vLLM服务端口(如8000)需要确保防火墙允许。最后,引用[4]提到在模型供应商中分别配置vllm和ollama,所以Dify可以同时使用这两种服务。</think> ### 在 Dify 中连接 vLLM 模型部署 bge-m3 模型 #### 一、连接 vLLM 模型到 Dify 1. **启动 vLLM 服务** ```bash python -m vllm.entrypoints.openai.api_server \ --model /path/to/model \ --tensor-parallel-size 2 \ --served-model-name your-model \ --port 8000 ``` 2. **在 Dify 中配置 vLLM** ```yaml 模型供应商:Vllm 模型名称:your-model API endpoint:http://<服务器IP>:8000/v1 最大Token:4096 温度:0.7 ``` 3. **验证连接** ```bash curl http://<服务器IP>:8000/v1/models # 预期返回:{"object":"list","data":[{"id":"your-model"}]} ``` #### 二、部署 bge-m3 模型 1. **下载模型** ```bash git clone https://www.modelscope.cn/<bge-m3路径>.git ``` 或通过魔塔社区下载 GGUF 格式模型[^1] 2. **创建 Modelfile** ```text FROM ./bge-m3.Q5_K_M.gguf PARAMETER num_ctx 512 ``` 3. **通过 Ollama 部署** ```bash ollama create bge-m3 -f Modelfile ollama run bge-m3 ``` #### 三、在 Dify 中连接 bge-m3 1. **配置 Embedding 供应商** ```yaml 供应商:Ollama 模型类型:Embedding 模型名称:bge-m3 端点:http://<服务器IP>:11434 ``` 2. **知识库设置** - 选择“高质量”索引模式 - 选用 bge-m3 作为嵌入模型 - 调整块大小:256-512 Token[^2] #### 四、验证联合部署 ```mermaid graph LR A[Dify应用] -->|生成请求| V(vLLM:8000) A -->|知识库检索| B(bge-m3:11434) V --> G[GPU集群] B --> M[模型参数] ``` > **关键提示** > 1. vLLM 和 Ollama 可共享 11434 端口但需不同容器 > 2. bge-m3 部署后需执行 `ollama embed` 验证[^3] > 3. 显存不足时使用 GGUF 量化版本(如 Q4_K_M) #### 常见问题解决 1. **连接断开错误** ```bash # 检查防火墙 sudo ufw allow 11434 sudo ufw allow 8000 # 测试端口连通性 telnet <IP> 11434 ``` 2. **模型加载失败** ```bash # 重建模型索引 ollama rm bge-m3 ollama create bge-m3 -f Modelfile ``` 3. **性能优化** ```bash # vLLM 启动参数 --max-num-batched-tokens 4096 --gpu-memory-utilization 0.85 # Ollama 配置 OLLAMA_NUM_PARALLEL=4 ``` --- ### 🔍相关问题 1. 如何验证 vLLM 和 Ollama 的协同工作性能? 2. bge-m3 不同量化版本(Q4/Q5/Q8)对知识库效果的影响? 3. 如何实现多个 vLLM 实例的负载均衡? 4. 知识库索引更新后如何刷新 bge-m3 的向量缓存?
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值