Qwen3-Embedding-Reranker本地部署教程：8B 参数登顶 MTEB 多语言榜首，100 + 语言跨模态检索无压力！

Qwen3-Embedding-Reranker本地部署教程

原创于 2025-06-16 19:25:21 发布 · 2.8k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #Qwen3 #Qwen3-Reranker #模型部署教程 #智能检索 #算家云 #镜像社区

模型构建专栏收录该内容

243 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

一、简介

Qwen3-Embedding与Qwen3-Reranker是阿里巴巴通义实验室于今年6月开源的双模型系列，专为文本表征、检索与排序任务设计。基于Qwen3基础模型构建，二者通过协同工作显著提升语义理解与信息检索效率，在多语言场景和工业部署中表现卓越。

基于 Qwen3 系列的密集基础模型，提供了各种大小（0.6B、4B 和 8B）的全面文本嵌入和重新排序模型。该系列继承了其基础模型出色的多语言能力、长文本理解和推理技能。

Qwen3 嵌入系列在多个文本嵌入和排名任务中代表了显著的进步，包括文本检索、代码检索、文本分类、文本聚类和双语文本挖掘。8B 大小的嵌入模型在 MTEB 多语言排行榜上排名 第 1 （截至 2025 年 6 月 5 日，得分为 70.58 ），而重新排序模型在各种文本检索场景中表现出色。

二、基础环境

系统：ubuntu22.04
cuda：12.4
显卡：4090*2（两张显卡）
python：3.12

三、安装

1. 需要从github中克隆源码的vllm（版本：0.9.2.dev55+ge6aab5de2）

需要使用较新vllm，它添加了对Qwen3-Embeddin和Qwen3-Reranker的支持

git clone https://github.com/vllm-project/vllm.git
cd vllm
VLLM_USE_PRECOMPILED=1 pip install --editable .
vllm -v

2. 下载模型

pip install modelscope
mkdir models
modelscope download --model Qwen/Qwen3-Embedding-8B --local_dir /models/Qwen3-Embedding-8B
modelscope download --model Qwen/Qwen3-Reranker-8B --local_dir /models/Qwen3-Reranker-8B

这里的模型下载到了网盘，通过 ln -s创建链接到根目录。模型的目录链接：算家云-AI-数据社区

3. vllm 启动模型

使用了两张显卡0，1；0 运行Qwen3-Embedding-8B模型；1 运行Qwen3-Reranker-8B

CUDA_VISIBLE_DEVICES=0 vllm serve /Qwen3-Embedding-8B --trust-remote-code --port 8000 --host 0.0.0.0 --max-model-len 32768 --block-size 16 --dtype auto --task embed --served-model-name Qwen3-Embedding-8B
CUDA_VISIBLE_DEVICES=1 vllm serve /Qwen3-Reranker-8B --trust-remote-code --port 8001 --host 0.0.0.0 --max-model-len 32768 --block-size 16 --dtype auto --served-model-name Qwen3-Reranker-8B --hf_overrides '{"architectures":["Qwen3ForSequenceClassification"],"classifier_from_token": ["no", "yes"],"is_original_qwen3_reranker": true}'

测试部署情况

Qwen3-Embedding-8B 调用端口

curl http://127.0.0.1:8000/v1/embeddings \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "input": "Follow the white rabbit.",
    "model": "Qwen3-Embedding-8B",
    "encoding_format": "float"
  }'

Qwen3-Reranker-8B 调用/score和rerank端口

curl http://127.0.0.1:8001/score \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "text_1": "ping",
    "text_2": "pong",
    "model": "Qwen3-Reranker-8B"
  }'

curl http://127.0.0.1:8001/rerank \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "query": "ping",
    "documents": ["pong"],
    "model": "Qwen3-Reranker-8B"
  }'

四、Nginx 代理共享 8080 端口

1.安装Nginx

apt update && apt-get install nginx -y
nginx -v
sudo nginx

2.创建配置文件

/etc/nginx/conf.d/vllm_proxy.conf

# 定义上游服务器组
upstream embedding_server {
    server 127.0.0.1:8000;
}

upstream reranker_server {
    server 127.0.0.1:8001;
}

server {
    listen 8080;
    server_name localhost;  # 或者您的域名
  
    # 代理到8000端口（embedding模型）的所有端点
    location /embedding/ {
        proxy_pass http://embedding_server/;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;
  
        # 支持HTTP/1.1和WebSocket
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
  
        # 关闭缓冲以支持流式响应
        proxy_buffering off;
        proxy_request_buffering off;
    }
  
    # 代理到8001端口（reranker模型）的所有端点
    location /reranker/ {
        proxy_pass http://reranker_server/;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;
  
        # 支持HTTP/1.1和WebSocket
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
  
        # 关闭缓冲以支持流式响应
        proxy_buffering off;
        proxy_request_buffering off;
    }
  
    # 健康检查端点
    location /health {
        add_header Content-Type application/json;
        return 200 '{"status":"OK","embedding":"http://localhost:8080/embedding/","reranker":"http://localhost:8080/reranker/"}';
    }
  
    # 错误页面
    error_page 502 503 504 /50x.html;
    location = /50x.html {
        root /usr/share/nginx/html;
    }
  
    # 访问日志
    access_log /var/log/nginx/vllm_access.log;
    error_log /var/log/nginx/vllm_error.log;
}

3.重新加载Nginx 配置

sudo nginx -t && sudo nginx -s reload

4.测试调用情况

嵌入模型调用

curl http://localhost:8080/embedding/v1/embeddings \
  -H 'Content-Type: application/json' \
  -d '{
    "input": "Follow the white rabbit.",
    "model": "Qwen3-Embedding-8B",
    "encoding_format": "float"
    }'

重排模型调用（score 端点）

curl http://localhost:8080/reranker/v1/score \
  -H 'Content-Type: application/json' \
  -d '{
  "text_1": "ping",
  "text_2": "pong",
  "model": "Qwen3-Reranker-8B"
  }'

重排模型调用（rerank 端点）

curl http://localhost:8080/reranker/v1/rerank \
  -H 'Content-Type: application/json' \
  -d '{
  "query": "ping",
  "documents": ["pong"],
  "model": "Qwen3-Reranker-8B"
  }'

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值