概念定义与层级关系
1.Embedding(嵌入模型) 指将非结构化数据(如文本、图像)转换为低维稠密向量的技术或过程,其核心目标是捕捉数据语义特征,例如:
- 文本Embedding:将句子映射为1536维向量,使语义相似的句子向量距离更近;
- 图像Embedding:将图片转换为向量,支持跨模态检索。
2. 向量模型(Vector Model) 指直接使用Embedding生成的向量进行任务处理的模型,属于Embedding技术的下游应用,例如:
- 分类模型:基于向量训练分类器(如SVM、神经网络)完成情感分析;
- 检索模型:通过向量相似度计算实现语义搜索(如Gemini Embedding的文档检索功能)
向量模型是属于应用优化型Embedding模型的子集,强调性能与场景适配性的增强
常见Embedding模型排行总结
数据截至2025年3月份
排名(Borda) | 模型 | 零样本学习 | 参数数量 | 嵌入维度 | 最大令牌数 | 任务平均得分(Mean (Task)) | 任务类型平均得分(Mean (TaskType)) | 双语挖掘 | 分类 | 聚类 | 指令检索 | 多标签分类 | 成对分类 | 重排序 | 检索 | 语义文本相似度(STS) |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | gemini-embedding-exp-03-07 | 99 | 未知 | 3072 | 8192 | 68.32 | 59.64 | 79.28 | 71.82 | 54.99 | 5.18 | 29.16 | 83.63 | 65.58 | 67.71 | 79.4 |
2 | Linq-Embed-Mistral | 99 | 70亿 | 4096 | 32768 | 61.47 | 54.21 | 70.34 | 62.24 | 51.27 | 0.94 | 24.77 | 80.43 | 64.37 | 58.69 | 74.86 |
3 | gte-Qwen2-7B-instruct | -1 | 70亿 | 3584 | 32768 | 62.51 | 56 | 73.92 | 61.55 | 53.36 | 4.94 | 25.48 | 85.13 | 65.55 | 60.08 | 73.98 |
4 | multilingual-e5-large-instruct | 99 | 5.6亿 | 1024 | 514 | 63.23 | 55.17 | 80.13 | 64.94 | 51.54 | -0.4 | 22.91 | 80.86 | 62.61 | 57.12 | 76.81 |
5 | SFR-Embedding-Mistral | 96 | 70亿 | 4096 | 32768 | 60.93 | 54 | 70 | 60.02 | 52.57 | 0.16 | 24.55 | 80.29 | 64.19 | 59.44 | 74.79 |
6 | GritLM-7B | 99 | 70亿 | 4096 | 4096 | 60.93 | 53.83 | 70.53 | 61.83 | 50.48 | 3.45 | 22.77 | 79.94 | 63.78 | 58.31 | 73.33 |
7 | text-multilingual-embedding-002 | 99 | 未知 | 768 | 2048 | 62.13 | 54.32 | 70.73 | 64.64 | 48.47 | 4.08 | 22.8 | 81.14 | 61.22 | 59.68 | 76.11 |
8 | GritLM-8x7B | 99 | 570亿 | 4096 | 4096 | 60.5 | 53.39 | 68.17 | 61.55 | 50.88 | 2.44 | 24.43 | 79.73 | 62.61 | 57.54 | 73.16 |
9 | e5-mistral-7b-instruct | 99 | 70亿 | 4096 | 32768 | 60.28 | 53.18 | 70.58 | 60.31 | 51.39 | -0.62 | 22.2 | 81.12 | 63.82 | 55.75 | 74.02 |
10 | Cohere-embed-multilingual-v3.0 | -1 | 未知 | 512 | 未知 | 61.1 | 53.31 | 70.5 | 62.95 | 47.61 | -1.89 | 22.74 | 79.88 | 64.07 | 59.16 | 74.8 |
11 | gte-Qwen2-1.5B-instruct | -1 | 10亿 | 8960 | 32768 | 59.47 | 52.75 | 62.51 | 58.32 | 52.59 | 0.74 | 24.02 | 81.58 | 62.58 | 60.78 | 71.61 |
12 | bilingual-embedding-large | 98 | 5.59亿 | 1024 | 514 | 60.94 | 53 | 73.55 | 62.77 | 47.24 | -3.04 | 22.36 | 79.83 | 61.42 | 55.1 | 77.81 |
13 | text-embedding-3-large | -1 | 未知 | 3072 | 8191 | 58.92 | 51.48 | 62.17 | 60.27 | 47.49 | -2.68 | 22.03 | 79.17 | 63.89 | 59.27 | 71.68 |
14 | SFR-Embedding-2_R | 96 | 70亿 | 4096 | 32768 | 59.84 | 52.91 | 68.84 | 59.01 | 54.33 | -1.8 | 25.19 | 78.58 | 63.04 | 57.93 | 71.04 |
15 | jasper_en_vision_language_v1 | 92 | 10亿 | 8960 | 131072 | 60.63 | 0.26 | 22.66 | 55.12 | 71.5 | ||||||
16 | stella_en_1.5B_v5 | 92 | 10亿 | 8960 | 131072 | 56.54 | 50.01 | 58.56 | 56.69 | 50.21 | 0.21 | 21.84 | 78.47 | 61.37 | 52.84 | 69.91 |
17 | NV-Embed-v2 | 92 | 70亿 | 4096 | 32768 | 56.25 | 49.64 | 57.84 | 57.29 | 41.38 | 1.04 | 18.63 | 78.94 | 63.82 | 56.72 | 71.1 |
18 | Solon-embeddings-large-0.1 | -1 | 5.59亿 | 1024 | 514 | 59.63 | 52.11 | 76.1 | 60.84 | 44.74 | ||||||
19 | Voyage-lite-01 | 89 | 3.5亿 | 512 | 2048 | 58.21 | 51.3 | 65.72 | 57.83 | 45.12 | -1.5 | 20.55 | 76.34 | 60.12 | 53.89 | 69.75 |
20 | text-embedding-ada-002 | -1 | 未知 | 1536 | 8191 | 57.89 | 50.91 | 63.45 | 59.01 | 46.78 | -2.1 | 21.37 | 77.92 | 61.05 | 57.14 | 70.23 |
21 | BGE-M3 | 99 | 5.6亿 | 1024 | 8192 | 65.1 | 57.4 | 82.3 | 67.1 | 53.8 | 4.2 | 26.9 | 84.7 | 66.2 | 63.5 | 78.9 |
22 | gte-large-en-v1.5 | 95 | 5.6亿 | 1024 | 512 | 59.8 | 52.6 | 72.4 | 61.8 | 50.2 | 1.8 | 23.5 | 80.1 | 62.7 | 58.9 | 75.3 |
23 | NV-Embed-v1 | 90 | 70亿 | 4096 | 32768 | 55.78 | 49.12 | 56.93 | 56.41 | 40.25 | 0.87 | 18.02 | 77.65 | 62.15 | 55.03 | 70.44 |
24 | E5-base-v2 | 94 | 3.4亿 | 768 | 512 | 58.63 | 51.75 | 70.12 | 59.34 | 49.01 | -0.75 | 21.89 | 79.02 | 60.98 | 56.47 | 74.16 |
25 | M3E-base | 92 | 2.2亿 | 768 | 512 | 57.92 | 50.83 | 68.45 | 58.21 | 47.92 | -1.23 | 20.75 | 78.12 | 59.34 | 54.89 | 72.56 |
26 | text-embedding-v2.0 | -1 | 未知 | 512 | 4096 | 56.45 | 49.78 | 61.23 | 55.89 | 44.12 | -2.45 | 19.78 | 75.45 | 58.23 | 52.67 | 68.94 |
27 | Instructor-XL | 91 | 13亿 | 1024 | 512 | 59.12 | 52.04 | 71.34 | 60.45 | 48.67 | 1.23 | 22.45 | 79.89 | 61.23 | 57.45 | 73.12 |
28 | all-mpnet-base-v2 | 88 | 1.1亿 | 768 | 514 | 56.78 | 50.12 | 67.45 | 57.23 | 46.78 | -0.89 | 20.12 | 76.89 | 58.45 | 53.78 | 71.45 |
29 | contriever-base | 85 | 1.1亿 | 768 | 512 | 55.23 | 48.89 | 63.12 | 54.78 | 43.45 | -1.56 | 18.89 | 74.56 | 56.12 | 51.23 | 69.12 |
30 | bge-small-en-v1.5 | 90 | 3.4亿 | 384 | 512 | 57.45 | 50.56 | 66.78 | 56.89 | 45.23 | -0.45 | 19.56 | 75.89 | 57.45 | 54.12 | 70.78 |
全英文Embedding模型对比分析表
基于MTEB基准测试与开源生态,以下是主流英文嵌入模型的核心指标对比:
模型名称 | 任务平均分 | 检索得分 | 语义相似度 (STS) | 开源状态 | 向量维度 | 最大序列长度 | 适用场景推荐 |
---|---|---|---|---|---|---|---|
Gemini-Embedding-Exp | 68.32 | 67.71 | 79.4 | 闭源 | 3072 | 8192 | 高精度语义匹配、搜索引擎优化 |
BGE-M3 | 65.10 | 63.50 | 78.9 | 开源 | 1024 | 8192 | 多语言混合检索、企业知识库 |
Linq-Embed-Mistral | 61.47 | 58.69 | 74.86 | 闭源 | 4096 | 32768 | 长文档分析、学术论文解析 |
gte-Qwen2-7B | 62.51 | 60.08 | 73.98 | 开源 | 3584 | 32768 | 长文本生成式问答、指令检索 |
Cohere-embed-v3.0 | 61.10 | 59.16 | 74.80 | 闭源 | 512 | 未公开 | 边缘计算、轻量化部署 |
multilingual-e5-large | 63.23 | 57.12 | 76.81 | 开源 | 1024 | 514 | 多任务平衡、通用语义理解 |
全中文Embedding模型对比分析表
基于中文场景任务优化与开源生态,以下是主流中文嵌入模型的核心指标对比:
模型名称 | 开源状态 | 向量维度 | 最大序列长度 | 中文语义相似度 | 中文检索能力 | 适用场景推荐 | 关键优势与限制 |
---|---|---|---|---|---|---|---|
BGE-M3 | 开源 | 1024 | 8192 | 78.9 | 63.50 | 多语言混合检索、企业知识库 | 支持100+语言,跨语言得分82.3,需高计算资源 |
M3E-base | 开源 | 768 | 512 | 72.56 | 54.89 | 通用语义理解、短文本分类 | 轻量化部署,中文任务优化,但长文本支持弱 |
Text2Vec-large | 开源 | 1024 | 512 | 75.30 | 55.62 | 高精度语义匹配、问答系统 | 中文单语言优化,开源社区微调方案成熟 |
Ernie-3.0 | 开源 | 768 | 2048 | 76.81 | 57.12 | 长文本摘要、内容推荐系统 | 百度自研,融合知识图谱,但长序列推理延迟较高 |
众安Embedding | 闭源 | 未公开 | 未公开 | 78.2 | 61.8 | 金融/法律专业领域解析 | 中文FAQ数据集表现优异,但模型细节未开放 |
Jina-embeddings-v2 | 开源 | 512 | 8192 | 71.10 | 56.72 | 多模态混合检索、边缘计算 | 支持中英双语,内存占用低,但语义精度中等 |
中英文混合Embedding模型对比分析表
基于跨语言任务优化与开源生态,以下是主流中英文混合嵌入模型的核心指标对比:
模型名称 | 开源状态 | 支持语言 | 关键指标 | 适用场景推荐 | 核心优势与限制 |
---|---|---|---|---|---|
BGE-M3 | 开源 | 中英+100+语言 | 跨语言得分82.3,检索63.5,语义78.91 | 多语言知识库、跨语言搜索 | 开源生态完善,需较高计算资源 |
Nomic-ai/nomic-embed-text | 开源 | 中英+多语言 | 长文本支持8192 tokens,检索61.23 | 长文档混合解析、法律合同 | 完全开源,长文本性能优于OpenAI |
Gemini Embedding | 闭源 | 中英+主要语言 | 语义相似度79.4,检索67.713 | 高精度混合语义匹配 | 闭源API调用,需接受数据隐私风险 |
Jina-embeddings-v2 | 开源 | 中英双语 | 内存占用低(512维),QPS≥12007 | 边缘计算、轻量化混合场景 | 推理速度快,但语义精度中等 |
multilingual-e5-large | 开源 | 中英+100+语言 | 任务平均分63.23,语义76.815 | 通用语义理解、多任务平衡 | 开源模型中跨语言性能均衡 |
众安Embedding | 闭源 | 中英+垂直领域 | 金融/法律领域语义78.2,检索61.85 | 专业领域混合文本解析 | 垂直场景表现优,技术细节未公开 |
BGE系列Embedding模型对比分析表
基于检索增强生成(RAG)需求与模型特性,以下是BGE系列模型的核心差异与配置要求对比:
模型名称 | 核心特性 | 向量维度 | 最大序列长度 | 多语言支持 | 训练方法 | 适用场景 | 最低配置要求 |
---|---|---|---|---|---|---|---|
BGE-M3 | 支持100+语言、长文本(8192 tokens)、稠密/稀疏/多向量三模式检索 | 1024 | 8192 | ✔️ | RetroMAE预训练+无监督对比学习 | 多语言混合检索、长文档RAG | 16GB显存,多核CPU |
bge-m3-unsupervised | 仅通过无监督对比学习优化,跨语言能力弱于完整版BGE-M3 | 1024 | 8192 | ✔️ | 无监督对比学习 | 低成本多语言初步实验 | 8GB显存 |
bge-m3-retromae | 仅包含RetroMAE预训练阶段,未集成多检索功能 | 1024 | 8192 | ✔️ | RetroMAE预训练 | 长文本语义理解基础研究 | 12GB显存 |
bge-large-en-v1.5 | 英文专用高精度模型,MTEB英文任务平均分63.5 | 1024 | 512 | ❌ | 监督微调+对比学习 | 纯英文高精度检索 | 8GB显存,4核CPU |
bge-base-en-v1.5 | 平衡版英文模型,精度略低于Large版,推理速度提升30% | 768 | 512 | ❌ | 监督微调+对比学习 | 英文通用场景+中等资源环境 | 4GB显存,2核CPU |
bge-small-en-v1.5 | 轻量化英文模型,内存占用仅为Large版的1/3 | 512 | 512 | ❌ | 监督微调+对比学习 | 边缘设备部署、实时性优先场景 | 2GB显存,单核CPU |
RAG选型建议
1. 多语言混合场景
- 首选:BGE-M3(完整版)支持100+语言混合检索与8192 tokens长文本处理,三模式检索(稠密+稀疏+多向量)可提升RAG召回率36。需16GB显存及多核CPU支持。
- 替代方案:bge-m3-retromae若无需多检索功能,可降低显存需求至12GB,但牺牲检索灵活性。
2. 纯英文高精度场景
- 高精度需求:bge-large-en-v1.5在英文MTEB任务中平均分63.5,优于BGE-M3的英文子项得分(61.2)。需8GB显存。
- 性价比选择:bge-base-en-v1.5精度下降约5%,但推理速度提升30%,适合中等规模服务器。
3. 资源受限环境
- 轻量化部署:bge-small-en-v1.5512维向量仅需2GB显存,QPS可达1800+,适合移动端或低功耗设备。
- 低成本实验:bge-m3-unsupervised无监督版本可减少标注数据依赖,但跨语言能力较弱
Embedding排行榜
Huggingface上的mteb是一个海量Embeddings排行榜,定期会更新Huggingface开源的Embedding模型各项指标,进行一个综合的排名,大家可以根据自己的实际应用场景,选择适合自己的Embedding模型。
Embedding排行地址
如何零基础入门 / 学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?
”“谁的饭碗又将不保了?
”等问题热议不断。
不如成为「掌握AI工具的技术人」
,毕竟AI时代,谁先尝试,谁就能占得先机!
想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
那么我作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,希望可以帮助到更多学习大模型的人!至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
👉 福利来袭
优快云大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈
全套AGI大模型学习大纲+路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉 福利来袭
优快云大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。