BGE模型是由北京智源人工智能研究院(BAAI)开发的一系列高质量文本嵌入模型。这些模型旨在将文本转换为向量表示,以便更容易进行计算和分析。BGE模型在多种语言任务中表现出色,并且易于通过Hugging Face平台进行使用。
BGE模型的目标是成为中文世界的通用embedding模型,支持所有embedding使用场景,包括但不限于检索(retrieval)、重排(re-rank)、聚类(clustering)、分类(classification)、配对分类(pair-classification)等任务。为了实现这一目标,BGE模型在数据和训练策略方面都进行了精心设计。它在数据方面兼顾规模(scale)、多样性(diversity)、质量(quality),并在训练策略方面采用了三阶段训练策略,从预训练(pre-training)到通用微调(general-purpose fine-tuning)再到特定任务微调(task-specific fine-tuning)。
BGE模型的一个重要成员是BGE-M3,它支持超过100种语言的语义表示及检索任务。BGE-M3具备多语言(Multi-Lingual)、多粒度(Multi-Granularity)、多功能(Multi-Functionality)三大技术特征。它能够处理最大长度为8192的输入文本,并且一站式集成了稠密检索、稀疏检索、多向量检索三种检索功能。
BGE模型的训练数据由无标签数据和有标签数据组成,无标签数据使用了悟道等数据集,有标签数据使用了dureader等数据集。BGE模型采用了类似BERT的结构,并通过三阶段的训练过程进行优化。
BGE模型在中英文语义检索精度与整体语义表征能力方面全面超越了OpenAI、Meta等同类模型。它的发布标志着语义向量模型在搜索、推荐、数据挖掘等领域的应用迈入了一个新的阶段。
BGE模型的相关代码和权重均已开源,并采用MIT协议,支持免费商用。这使得BGE模型不仅在学术研究中具有重要价值,也在工业界得到了广泛的应用。