什么是BGE模型？

最新推荐文章于 2025-04-24 16:11:35 发布

code04号

最新推荐文章于 2025-04-24 16:11:35 发布

阅读量1.6k

点赞数 6

文章标签：语言模型 nlp

本文链接：https://blog.youkuaiyun.com/weixin_64911856/article/details/143746577

版权

BGE模型是由北京智源人工智能研究院（BAAI）开发的一系列高质量文本嵌入模型。这些模型旨在将文本转换为向量表示，以便更容易进行计算和分析。BGE模型在多种语言任务中表现出色，并且易于通过Hugging Face平台进行使用。

BGE模型的目标是成为中文世界的通用embedding模型，支持所有embedding使用场景，包括但不限于检索（retrieval）、重排（re-rank）、聚类（clustering）、分类（classification）、配对分类（pair-classification）等任务。为了实现这一目标，BGE模型在数据和训练策略方面都进行了精心设计。它在数据方面兼顾规模（scale）、多样性（diversity）、质量（quality），并在训练策略方面采用了三阶段训练策略，从预训练（pre-training）到通用微调（general-purpose fine-tuning）再到特定任务微调（task-specific fine-tuning）。

BGE模型的一个重要成员是BGE-M3，它支持超过100种语言的语义表示及检索任务。BGE-M3具备多语言（Multi-Lingual）、多粒度（Multi-Granularity）、多功能（Multi-Functionality）三大技术特征。它能够处理最大长度为8192的输入文本，并且一站式集成了稠密检索、稀疏检索、多向量检索三种检索功能。

BGE模型的训练数据由无标签数据和有标签数据组成，无标签数据使用了悟道等数据集，有标签数据使用了dureader等数据集。BGE模型采用了类似BERT的结构，并通过三阶段的训练过程进行优化。

BGE模型在中英文语义检索精度与整体语义表征能力方面全面超越了OpenAI、Meta等同类模型。它的发布标志着语义向量模型在搜索、推荐、数据挖掘等领域的应用迈入了一个新的阶段。

BGE模型的相关代码和权重均已开源，并采用MIT协议，支持免费商用。这使得BGE模型不仅在学术研究中具有重要价值，也在工业界得到了广泛的应用。