一、Qwen3 嵌入模型
Qwen3 嵌入模型系列是 Qwen 家族的最新专有模型,专门用于文本嵌入和排序任务。该系列基于 Qwen3 系列的密集基础模型构建,提供了多种尺寸(0.6B、4B 和 8B)的全面文本嵌入和重排序模型。它继承了基础模型卓越的多语言能力、长文本理解和推理技能。Qwen3 嵌入系列在多种文本嵌入和排序任务中取得了显著进展,包括文本检索、代码检索、文本分类、文本聚类和双语挖掘。

截至 2025 年 6 月 5 日,8B 尺寸的嵌入模型在 MTEB 多语言排行榜中排名第 1(得分 70.58),而重排序模型在各种文本检索场景中表现出色。
Qwen3 嵌入系列提供了从 0.6B 到 8B 的全系列尺寸,涵盖嵌入和重排序模型,满足不同用例对效率和效果的需求。
得益于 Qwen3 模型的多语言能力,Qwen3 嵌入系列支持 100 多种语言,包括各种编程语言,提供强大的多语言、跨语言和代码检索能力。
| 模型类型 | 模型名称 | 尺寸 | 层数 | 序列长度 | 嵌入维度 | 支持 MRL | 指令感知 |
|---|---|---|---|---|---|---|---|
| 文本嵌入 | Qwen3-Embedding-0.6B | 0.6B | 28 | 32K | 1024 | 是 | 是 |
| 文本嵌入 | Qwen3-Embedding-4B | 4B | 36 | 32K | 2560 | 是 | 是 |
| 文本嵌入 | Qwen3-Embedding-8B | 8B | 36 | 32K | 4096 | 是 | 是 |
| 文本重排序 | Qwen3-Reranker-0.6B | 0.6B | 28 | 32K | - | - | 是 |
| 文本重排序 | Qwen3-Reranker-4B | 4B | 36 | 32K | - | - | 是 |
| 文本重排序 | Qwen3-Reranker-8B | 8B | 36 | 32K | - | - | 是 |
- MRL 支持:表示嵌入模型是否支持自定义最终嵌入的维度。
- 指令感知:表示嵌入或重排序模型是否支持根据不同任务自定义输入指令。
- 我们的评估表明,对于大多数下游任务,使用指令(instruct)通常比不使用指令能提高 1% 到 5% 的性能。
Embedding Model 使用方法
tokenizer = AutoTokenizer.from_pretrained('Qwen/Qwen3-Embedding-8B', padding_side='left')model = AutoModel.from_pretrained('Qwen/Qwen3-Embedding-8B')# We recommend enabling flash_attention_2 for better acceleration and memory saving.# model = AutoModel.from_pretrained('Qwen/Qwen3-Embedding-8B', attn_implementation="flash_attention_2", torch_dtype=torch.float16).cuda()eod_id = tokenizer.convert_tokens_to_ids("<|endoftext|>")max_length = 8192# Tokenize the input textsbatch_dict = tokenize(tokenizer, input_texts, eod_id, max_length)batch_dict.to(model.device)outputs = model(**batch_dict)embeddings = last_token_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
Reranker Model 使用方法
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-Reranker-0.6B", padding_side='left')model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-Reranker-0.6B").eval()# We recommend enabling flash_attention_2 for better acceleration and memory saving.# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-Reranker-0.6B", torch_dtype=torch.float16, attn_implementation="flash_attention_2").cuda().eval()token_false_id = tokenizer.convert_tokens_to_ids("no")token_true_id = tokenizer.convert_tokens_to_ids("yes")max_length = 8192prefix = "<|im_start|>system\nJudge whether the Document meets the requirements based on the Query and the Instruct provided. Note that the answer can only be \"yes\" or \"no\".<|im_end|>\n<|im_start|>user\n"suffix = "<|im_end|>\n<|im_start|>assistant\n<think>\n\n</think>\n\n"prefix_tokens = tokenizer.encode(prefix, add_special_tokens=False)suffix_tokens = tokenizer.encode(suffix, add_special_tokens=False) task = 'Given a web search query, retrieve relevant passages that answer the query'queries = ["What is the capital of China?", "Explain gravity",]documents = [ "The capital of China is Beijing.", "Gravity is a force that attracts two bodies towards each other. It gives weight to physical objects and is responsible for the movement of planets around the sun.",]pairs = [format_instruction(task, query, doc) for query, doc in zip(queries, documents)]# Tokenize the input textsinputs = process_inputs(pairs)scores = compute_logits(inputs)
二、模型原理
嵌入模型和重排序模型的核心思想是以任务感知的方式评估相关性。给定一个查询 和一个文档 ,嵌入和重排序模型根据指令 定义的相似性标准来评估它们的相关性。

为了使模型能够以任务感知的方式估计相关性,训练数据通常被组织为 ,其中 $ d^+i 表示与查询 q_i 相关的正文档,而 d^-{i,j} $ 是与查询无关的负文档。通过在多样化的文本对上训练模型,可以使其广泛应用于多种下游任务,包括检索、语义文本相似度、分类和聚类。
Qwen3 嵌入和重排序模型基于 Qwen3 基础模型的密集版本构建,并提供三种尺寸:0.6B、4B 和 8B 参数。我们使用 Qwen3 基础模型初始化这些模型,以利用其在文本建模和指令遵循方面的能力。每种模型配置的层数、隐藏层大小和上下文长度在表 1 中详细列出。
嵌入模型
对于文本嵌入,我们使用带有因果注意力的大型语言模型(LLM),并在输入序列的末尾附加一个 [EOS] 标记。最终嵌入是从最后一层对应于 [EOS] 标记的隐藏状态中得出的。
为了确保在下游任务中嵌入能够遵循指令,我们将指令和查询拼接为一个单一的输入上下文,而文档在处理之前保持不变。查询的输入格式如下:
{指令} {查询}<|endoftext|>
重排序模型
为了更准确地评估文本相似性,我们使用 LLM 进行单个上下文内的逐点重排序。与嵌入模型类似,为了实现指令遵循能力,我们在输入上下文中包含指令。我们使用 LLM 的聊天模板,并将相似性评估任务视为一个二分类问题。输入到 LLM 的模板如下所示:
<|im_start|>system根据提供的查询和指令,判断文档是否符合要求。注意,答案只能是“是”或“否”。<|im_end|><|im_start|>user<指令>: {指令}<查询>: {查询}<文档>: {文档}<|im_end|><|im_start|>assistant<think></think>
三、模型训练
对于嵌入模型,使用基于 InfoNCE 框架改进的对比损失函数。给定一个包含 个训练实例的批次,损失函数定义为:
其中, 是相似性函数(我们使用余弦相似性), 是温度参数, 是归一化因子,用于汇总正样本对与各种负样本对之间的相似性得分:
这些项分别表示与以下内容的相似性:(1) 正文档 ,(2) 个难负样本 ,(3) 其他批次内的查询 ,(4) 其他批次内的正负文档 。掩码因子 用于减轻假负样本的影响。
对于重排序模型,我们优化监督微调(SFT)损失函数,定义为:
其中, 表示由 LLM 分配的概率,标签 对于正文档为“是”,对于负文档为“否”。该损失函数鼓励模型为正确标签分配更高的概率,从而提高排序性能。

在现有的多阶段训练框架基础上,Qwen3 嵌入系列引入了以下关键创新:
- 大规模合成数据驱动的弱监督训练:与以往工作(例如 GTE、E5、BGE 模型)不同,这些模型的弱监督训练数据主要从开源社区(如问答论坛或学术论文)收集,我们提出利用基础模型的文本理解和生成能力直接合成配对数据。
- 在监督微调中使用高质量合成数据:由于 Qwen3 基础模型的卓越性能,合成数据的质量非常高。因此,在第二阶段的监督训练中,选择性地引入这些高质量合成数据可以进一步提升模型的整体性能和泛化能力。
- 模型合并:受以往工作的启发,在完成监督微调后,我们应用了基于球面线性插值(slerp)的模型合并技术。该技术涉及合并微调过程中保存的多个模型检查点。这一步旨在增强模型在各种数据分布上的鲁棒性和泛化性能。
为了创建一个强大的合成数据集,用于在各种相似性任务上训练模型,我们生成了涵盖检索、双语挖掘、分类和语义文本相似性(STS)等类别的多样化文本对。通过使用 Qwen3-32B 模型作为数据合成的基础模型,确保了这些合成数据对的质量。生成了大约 1.5 亿对多任务弱监督训练数据。我们的实验表明,使用这些合成数据训练的嵌入模型在下游评估中表现优异,特别是在 MTEB 多语言基准测试中,超过了许多以前的监督模型。这促使我们筛选合成数据,以识别高质量的配对用于第二阶段的监督训练。我们通过简单的余弦相似性计算来选择数据对,保留余弦相似性大于 0.7 的随机采样数据。最终,我们选择了大约 1200 万对高质量监督训练数据用于进一步训练。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

2750

被折叠的 条评论
为什么被折叠?



