MTEB 1.28.0版本发布:新增Nomic Modern BERT模型支持

MTEB 1.28.0版本发布:新增Nomic Modern BERT模型支持

【免费下载链接】mteb MTEB: Massive Text Embedding Benchmark 【免费下载链接】mteb 项目地址: https://gitcode.com/gh_mirrors/mt/mteb

引言

文本嵌入(Text Embedding)技术在现代自然语言处理(NLP)中扮演着至关重要的角色,它能够将文本转换为高维向量表示,为下游任务如检索、分类、聚类等提供基础支持。Massive Text Embedding Benchmark(MTEB)作为业界领先的文本嵌入评估基准,持续推动着嵌入模型的发展与创新。

近日,MTEB发布了1.28.0版本,其中最引人注目的更新是新增了对Nomic Modern BERT模型的支持。这一更新不仅丰富了MTEB的模型生态系统,更为开发者和研究者提供了评估现代BERT架构性能的标准平台。

Nomic Modern BERT模型概述

模型架构特点

Nomic Modern BERT是基于ModernBERT架构的嵌入模型,具有以下核心特点:

  • 参数规模: 1.49亿参数
  • 嵌入维度: 768维
  • 最大序列长度: 8192 tokens
  • 内存占用: 568MB
  • 支持语言: 英语(eng-Latn)

技术实现细节

from mteb import get_model

# 加载Nomic Modern BERT模型
model = get_model("nomic-ai/modernbert-embed-base")

# 使用模型进行文本嵌入
sentences = ["This is a sample text.", "Another example sentence."]
embeddings = model.encode(sentences, task_name="Classification")

版本依赖要求

Nomic Modern BERT模型需要Transformers版本≥4.48.0,这一要求确保了模型能够充分利用最新的架构优化和性能改进。

MTEB 1.28.0版本更新内容

主要特性

特性类别具体内容影响范围
模型支持新增Nomic Modern BERT嵌入模型所有嵌入任务
框架兼容支持Sentence Transformers和PyTorch开发便利性
性能优化改进的嵌入归一化处理检索任务性能
提示工程统一的提示模板系统任务适应性

技术架构升级

mermaid

Nomic Modern BERT在MTEB中的集成

模型配置详情

nomic_modern_bert_embed = ModelMeta(
    loader=partial(
        NomicWrapper,
        model_name="nomic-ai/modernbert-embed-base",
        revision="5960f1566fb7cb1adf1eb6e816639cf4646d9b12",
        model_prompts=model_prompts,
        model_kwargs={
            "torch_dtype": torch.float16,
        },
    ),
    name="nomic-ai/modernbert-embed-base",
    languages=["eng-Latn"],
    open_weights=True,
    n_parameters=149_000_000,
    memory_usage_mb=568,
    max_tokens=8192,
    embed_dim=768,
    license="apache-2.0",
    reference="https://huggingface.co/nomic-ai/modernbert-embed-base",
    similarity_fn_name="cosine",
    framework=["Sentence Transformers", "PyTorch"],
    use_instructions=True,
)

训练数据支持

Nomic Modern BERT在以下数据集上进行了训练和优化:

mermaid

性能评估与基准测试

评估指标体系

MTEB为Nomic Modern BERT提供了全面的评估框架,包括:

  1. 检索任务评估

    • 精确率(Precision)
    • 召回率(Recall)
    • NDCG(Normalized Discounted Cumulative Gain)
  2. 分类任务评估

    • 准确率(Accuracy)
    • F1分数
    • 宏平均指标
  3. 聚类任务评估

    • 调整兰德指数(ARI)
    • 标准化互信息(NMI)
    • V-measure

基准测试流程

import mteb
from mteb import MTEB

# 选择评估任务
tasks = mteb.get_tasks(tasks=["Banking77Classification", "MSMARCO"])

# 初始化评估器
evaluation = MTEB(tasks=tasks)

# 运行评估
results = evaluation.run(model, output_folder="results/nomic-modernbert")

实际应用场景

企业级应用

mermaid

开发集成示例

# 企业搜索系统集成示例
class EnterpriseSearchSystem:
    def __init__(self, model_name="nomic-ai/modernbert-embed-base"):
        self.model = mteb.get_model(model_name)
        self.vector_db = VectorDatabase()
    
    def index_documents(self, documents):
        """索引文档到向量数据库"""
        embeddings = self.model.encode(documents, task_name="Retrieval")
        self.vector_db.add_embeddings(documents, embeddings)
    
    def search(self, query, top_k=10):
        """执行语义搜索"""
        query_embedding = self.model.encode([query], task_name="Retrieval")
        results = self.vector_db.search(query_embedding, top_k)
        return results

技术优势与创新点

架构创新

  1. ModernBERT基础: 基于先进的ModernBERT架构,提供更好的表示学习能力
  2. 长文本支持: 支持8192 tokens的长文本处理,适合文档级应用
  3. 高效推理: 采用float16精度,在保持性能的同时减少内存占用

性能优势

指标Nomic Modern BERT传统BERT-base提升幅度
序列长度81925121600%
参数效率149M110M优化35%
内存占用568MB~400MB平衡性能
推理速度快速中等显著提升

部署与使用指南

环境配置

# 安装MTEB
pip install mteb>=1.28.0

# 安装依赖
pip install transformers>=4.48.0
pip install sentence-transformers
pip install torch

快速开始

import mteb
import numpy as np

# 初始化模型
model = mteb.get_model("nomic-ai/modernbert-embed-base")

# 文本嵌入示例
texts = [
    "The quick brown fox jumps over the lazy dog.",
    "Artificial intelligence is transforming industries.",
    "Machine learning models require large amounts of data."
]

embeddings = model.encode(texts, task_name="Classification")
print(f"嵌入维度: {embeddings.shape}")

高级配置

# 自定义模型配置
model = mteb.get_model(
    "nomic-ai/modernbert-embed-base",
    model_kwargs={
        "torch_dtype": torch.float16,
        "device": "cuda" if torch.cuda.is_available() else "cpu"
    }
)

# 批量处理优化
embeddings = model.encode(
    texts,
    batch_size=64,
    show_progress_bar=True,
    task_name="Retrieval"
)

行业影响与未来展望

对嵌入模型生态的影响

MTEB 1.28.0版本对Nomic Modern BERT的支持标志着:

  1. 架构多样性: 丰富了MTEB支持的模型架构类型
  2. 性能基准: 为ModernBERT架构提供了标准化评估平台
  3. 社区贡献: 鼓励更多创新模型加入MTEB生态系统

未来发展路线

mermaid

结论

MTEB 1.28.0版本的发布,特别是对Nomic Modern BERT模型的支持,为文本嵌入领域带来了重要的技术进步。这一更新不仅提供了新的模型选择,更为开发者和研究者提供了评估现代BERT架构性能的标准化平台。

通过全面的评估框架、优化的性能表现和便捷的集成方式,Nomic Modern BERT在MTEB中的集成将推动文本嵌入技术在各个应用场景中的进一步发展。随着更多创新模型的加入,MTEB将继续作为文本嵌入评估的黄金标准,推动整个行业向前发展。

对于技术团队和研究者而言,现在正是探索和采用Nomic Modern BERT的最佳时机,利用MTEB提供的强大评估能力,为项目选择最合适的嵌入解决方案。

【免费下载链接】mteb MTEB: Massive Text Embedding Benchmark 【免费下载链接】mteb 项目地址: https://gitcode.com/gh_mirrors/mt/mteb

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值