前言
文本嵌入(Text Embedding)几乎贯穿了所有 NLP 任务:检索、分类、聚类、问答、摘要……
随着 BERT、T5、LLaMA/Qwen3 等预训练语言模型(PLM) 的出现,文本嵌入进入了“通用+可迁移”时代。
-
通用文本嵌入(GPTE) 的架构、数据、模型
-
PLM 到底给GPTE带来了哪些基础能力与高级扩展?
1. 一张图先看清 GPTE 架构

图1:GPTE 典型架构——Bi-Encoder + 对比学习
- 骨干:任意 PLM(BERT、T5、LLaMA…)
- 池化:CLS / Mean / Last-Token / Prompt-Pooling
- 训练:大规模文本对 + InfoNCE 对比损失
- 微调:任务特定的轻量适配(LoRA、Adapter)
Embedding训练数据
2. PLM 的「基础角色」
50种有代表性的开源 GPTE 方法(模型)
| 模块 | 关键做法 | 代表工作 |
|---|---|---|
| (1)嵌入抽取 | CLS / Mean / Last-Token / 多层融合 | SBERT、E5、GTE |
| (2)长文本 | RoPE、Alibi、LongEmbed | Jina-v3、MosaicBERT |
| (3)训练策略 | 多阶段:弱监督→高质量 | E5-Mistral |
| (4)学习目标 | CL + MLM + MRL + KD | GTE-MLM、DiffCSE |
| (5)数据合成 | LLM 生成正/负样本 | Promptagator、Qwen3-Emb |

基于不同预训练语言模型(PLM)主干的通用文本嵌入(GPTE)模型性能对比,聚焦于广泛采用的开源 PLM:模型规模越大、主干越强,GPTE 性能越好,但解码器架构需更多参数才能与编码器架构匹敌。
3. PLM 的「高级角色」
(6) 多模态
- 说到多模态,典型应用是RAG检索,从rag到multimodal-rag已然成一种趋势
- 另外现有MLLM能力也都很强,像刚开源的智谱GLM-4.5v,给一张照片,就能基于掌握的知识(结合河流走向和城市结构)推理出这是:纳什维尔(Nashville)是美国田纳西州GLM4.5之后,智谱又开源GLM-4.5V,实测下来视觉推理能力贼强~

| 模型 | 模态 | 训练数据 | 特色 |
|---|---|---|---|
| E5-V | T + I | LLaVA-NeXT | 把 LLM 当图文编码器 |
| VLM2Vec-V2 | T + I + V | Qwen2-VL | 统一视频/图像/文档检索 |
| MegaPairs | T ↔ I | 合成 500M 图文对 | 数据即战力 |

表6:多模态嵌入模型全家福

表7:多模态嵌入数据
(7) 多语言
| 模型 | Backbone | 语言数 | 亮点 |
|---|---|---|---|
| mE5 | XLM-R | 100+ | 中英跨语种零样本检索 |
| BGE-M3 | XLM-R + Long | 200+ | 8192 token 长文本 |

表4:多语言 GPTE 模型概览

表5:多语言 GPTE 训练数据概览
(8) 代码嵌入
- 早期:CodeBERT、GraphCodeBERT(结构+文本)
- LLM 时代:CodeLlama、DeepSeek-Coder → 直接做 Code Embedding
- 对比学习:UniXcoder、ContraBERT、CodeSage

表8:基于 CL 的代码嵌入模型

表9:代码嵌入的训练数据
PaperAgent三句话总结
- PLM 让文本嵌入从“专用”走向“通用”,现在正迈向“多模态+多语言+多任务”大一统。
- 数据合成 + 对比学习 + 大模型上下文窗口,是当前性能提升的三板斧。
- 下一步,嵌入模型需要“会推理、懂安全、能解耦”,而不仅是向量维度更高。
最后
感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。
为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。
这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。
这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下


这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
1798

被折叠的 条评论
为什么被折叠?



