FlagEmbedding目前最好的sentence编码工具

FlagEmbedding:LLM增强与检索模型的最新进展

最新推荐文章于 2025-10-23 02:19:54 发布

原创

最新推荐文章于 2025-10-23 02:19:54 发布 · 2k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #机器学习

FlagEmbedding项目介绍了多项进展，包括LM-Cocktail的模型融合方法、LLM-Embedder的专用向量模型、BGEEmbedding和BGEReranker的排序能力提升。这些技术旨在优化大语言模型的检索性能并保持通用性。

FlagEmbedding专注于检索增强llm领域，目前包括以下项目:

Fine-tuning of LM : LM-Cocktail
Dense Retrieval: LLM Embedder, BGE Embedding, C-MTEB
Reranker Model: BGE Reranker
更新
11/23/2023: Release LM-Cocktail, 一种通过模型融合在微调时保持原有模型通用能力的方法. 论文链接 🔥
10/12/2023: 发布 LLM-Embedder, 专为大语言模型各种检索增强任务设计的英文向量模型。论文链接
09/15/2023: 发布论文和数据集.
09/12/2023: 更新：
新增重排模型：开源交叉编码器模型bge-reranker，具有比向量模型更强大的排序能力。非常建议使用或者微调它来重新排序向量模型返回的top-k文档，提高最终结果的相关性。
更新向量模型：发布bge-*-v1.5向量模型，缓解相似度分布问题，提升无指令情况下的检索能力（但检索任务仍建议使用指令）
09/07/2023: 更新微调代码: 增加难负样本挖掘脚本，增加指令参数方便在微调中添加指令.
08/09/2023: BGE模型整合入Langchain, 可以在langchain中非常简单的使用它; C-MTEB中文榜单已在线更新.
08/05/2023: 发布更小的模型(base, small), 在同尺寸模型中取得最好的性能！ 🤗
08/02/2023: 🎉 🎉 发布中英文向量模型BGE(BAAI General Embedding的缩写), 在MTEB和C-MTEB榜单上取得最好的性能
08/01/2023: 发布大规模中文文本向量评测榜单 (C-MTEB), 其包括31个测试任务.
项目
LM-Cocktail
微调预训练语言模型可以更好地支持下游任务。但是，该操作可能会导致目标领域之外的一般性任务上性能下降。为了克服这个问题，我们提出了LM-Cocktail。 LM-Cocktail在提高下游目标任务的准确度的同时，保持在其他任务上的性能。它还可以用于为新任务生