银河麒麟v10(arm架构)部署Embedding模型bge-m3【简单版本】

硬件

服务器配置:鲲鹏2 * 920(32c)+ 4 * Atlas300I duo卡

参考文章

https://www.hiascend.com/developer/ascendhub/detail/07a016975cc341f3a5ae131f2b52399d
鲲鹏+昇腾Atlas300Iduo部署Embedding模型和Rerank模型并连接Dify(自用详细版)

下载准备

1.bge-m3模型:https://www.modelscope.cn/models/BAAI/bge-m3
2.封装好的docker容器:mis-tei:6.0.RC3-300I-Duo-aarch64(自己去昇腾社区申请)
3.安装好docker

部署bge-m3

(1)创建容器运行

docker run -u root -e ASCEND_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -itd --name=tei-m3 --net=host \
-e HOME=/home/HwHiAiUser \  
--privileged=true  \
-v /home/BAAI/:/home/HwHiAiUser/model \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
--entrypoint /home/HwHiAiUser/start.sh \
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:6.0.RC3-300I-Duo-aarch64 \
BAAI/bge-m3  127.0.0.1 8068

(2)查看是否启动成功

docker logs tei-m3 

在这里插入图片描述
最后出现Ready成功

测试bge-m3

curl 127.0.0.1:8068/embed \
    -X POST \
    -d '{"inputs":"What is Deep Learning?"}' \
    -H 'Content-Type: application/json'

在这里插入图片描述
这样就成功了

API

http://127.0.0.1:8068/embed   #这个就是创建的bge-m3的API,TEI格式

水一篇文章哈

### 部署 bge-m3 模型Docker 容器中的步骤 要在 Docker 容器中安装并配置 BGE-M3 Embedding 模型,可以按照以下流程进行操作。以下是详细的部署步骤和注意事项。 #### 1. 准备环境 确保本地系统已经安装了以下组件: - **Docker**:用于构建和运行容器。 - **NVIDIA Container Toolkit(如果使用 GPU)**:用于支持 GPU 加速推理。 - **Git(可选)**:用于从 ModelScope 或 Hugging Face 下载模型。 #### 2. 获取 bge-m3 模型 可以从 [ModelScope](https://www.modelscope.cn/models/BAAI/bge-m3) 下载模型文件。也可以使用 `git` 命令克隆模型仓库[^2]: ```bash git clone https://modelscope.cn/models/BAAI/bge-m3-CSLM-zh-cn summary -revision=summary ``` 下载完成后,将模型文件放置在服务器上的指定目录,例如 `/models/bge-m3`。 #### 3. 构建或拉取 Docker 镜像 可以选择官方的 vLLM 镜像来运行 BGE-M3 模型。执行以下命令拉取镜像: ```bash docker pull vllm/vllm-openai:latest ``` #### 4. 运行 Docker 容器 使用以下命令启动一个 Docker 容器,并挂载本地模型路径到容器内[^3]: ```bash docker run --name bge-m3 -d \ --runtime nvidia \ --gpus all \ -v /models:/root/.cache/modelscope \ --env "VLLM_USE_MODELSCOPE=True" \ -p 8000:8000 \ --ipc=host \ vllm/vllm-openai:latest \ --model BAAI/bge-m3 \ --host 0.0.0.0 \ --port 8000 \ --gpu_memory_utilization 0.9 ``` 其中: - `-v /models:/root/.cache/modelscope` 将本地模型路径挂载到容器内的缓存目录。 - `--env "VLLM_USE_MODELSCOPE=True"` 启用对 ModelScope 的支持。 - `--model BAAI/bge-m3` 指定使用的模型名称。 - `--gpu_memory_utilization 0.9` 设置 GPU 内存利用率。 #### 5. 测试模型服务 启动容器后,可以通过访问 `http://localhost:8000/v1/embeddings` 接口测试模型服务是否正常运行。例如,使用 `curl` 发送请求: ```bash curl http://localhost:8000/v1/embeddings \ -H "Content-Type: application/json" \ -d '{ "input": ["这是一个测试句子"], "model": "BAAI/bge-m3" }' ``` 如果返回正常的向量数据,则表示模型部署成功。 #### 6. 在 Dify 中调用 在 Dify 中配置嵌入模型时,选择自定义模型并填写服务地址为 `http://localhost:8000`。这样就可以在 Dify 中使用 BGE-M3 模型进行文本嵌入处理。 --- ### 常见问题排查 - **端口冲突**:检查是否有其他服务占用 8000 端口。 - **模型路径错误**:确认模型文件是否正确挂载到容器内。 - **GPU 驱动问题**:确保 NVIDIA 驱动和 CUDA 版本兼容。 - **网络连接失败**:如果遇到 `RemoteDisconnected` 错误,检查模型是否加载成功,并确认服务端日志输出。 --- ###
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值