MTEB 1.28.0版本发布：新增Nomic Modern BERT模型支持-优快云博客

MTEB 1.28.0版本发布：新增Nomic Modern BERT模型支持

【免费下载链接】mteb MTEB: Massive Text Embedding Benchmark 项目地址: https://gitcode.com/gh_mirrors/mt/mteb

引言

文本嵌入（Text Embedding）技术在现代自然语言处理（NLP）中扮演着至关重要的角色，它能够将文本转换为高维向量表示，为下游任务如检索、分类、聚类等提供基础支持。Massive Text Embedding Benchmark（MTEB）作为业界领先的文本嵌入评估基准，持续推动着嵌入模型的发展与创新。

近日，MTEB发布了1.28.0版本，其中最引人注目的更新是新增了对Nomic Modern BERT模型的支持。这一更新不仅丰富了MTEB的模型生态系统，更为开发者和研究者提供了评估现代BERT架构性能的标准平台。

Nomic Modern BERT模型概述

模型架构特点

Nomic Modern BERT是基于ModernBERT架构的嵌入模型，具有以下核心特点：

参数规模: 1.49亿参数
嵌入维度: 768维
最大序列长度: 8192 tokens
内存占用: 568MB
支持语言: 英语（eng-Latn）

技术实现细节

from mteb import get_model

# 加载Nomic Modern BERT模型
model = get_model("nomic-ai/modernbert-embed-base")

# 使用模型进行文本嵌入
sentences = ["This is a sample text.", "Another example sentence."]
embeddings = model.encode(sentences, task_name="Classification")

版本依赖要求

Nomic Modern BERT模型需要Transformers版本≥4.48.0，这一要求确保了模型能够充分利用最新的架构优化和性能改进。

MTEB 1.28.0版本更新内容

主要特性

特性类别	具体内容	影响范围
模型支持	新增Nomic Modern BERT嵌入模型	所有嵌入任务
框架兼容	支持Sentence Transformers和PyTorch	开发便利性
性能优化	改进的嵌入归一化处理	检索任务性能
提示工程	统一的提示模板系统	任务适应性

技术架构升级

mermaid

Nomic Modern BERT在MTEB中的集成

模型配置详情

nomic_modern_bert_embed = ModelMeta(
    loader=partial(
        NomicWrapper,
        model_name="nomic-ai/modernbert-embed-base",
        revision="5960f1566fb7cb1adf1eb6e816639cf4646d9b12",
        model_prompts=model_prompts,
        model_kwargs={
            "torch_dtype": torch.float16,
        },
    ),
    name="nomic-ai/modernbert-embed-base",
    languages=["eng-Latn"],
    open_weights=True,
    n_parameters=149_000_000,
    memory_usage_mb=568,
    max_tokens=8192,
    embed_dim=768,
    license="apache-2.0",
    reference="https://huggingface.co/nomic-ai/modernbert-embed-base",
    similarity_fn_name="cosine",
    framework=["Sentence Transformers", "PyTorch"],
    use_instructions=True,
)

训练数据支持

Nomic Modern BERT在以下数据集上进行了训练和优化：

mermaid

性能评估与基准测试

评估指标体系

MTEB为Nomic Modern BERT提供了全面的评估框架，包括：

检索任务评估
- 精确率（Precision）
- 召回率（Recall）
- NDCG（Normalized Discounted Cumulative Gain）
分类任务评估
- 准确率（Accuracy）
- F1分数
- 宏平均指标
聚类任务评估
- 调整兰德指数（ARI）
- 标准化互信息（NMI）
- V-measure

基准测试流程

import mteb
from mteb import MTEB

# 选择评估任务
tasks = mteb.get_tasks(tasks=["Banking77Classification", "MSMARCO"])

# 初始化评估器
evaluation = MTEB(tasks=tasks)

# 运行评估
results = evaluation.run(model, output_folder="results/nomic-modernbert")

实际应用场景

企业级应用

mermaid

开发集成示例

# 企业搜索系统集成示例
class EnterpriseSearchSystem:
    def __init__(self, model_name="nomic-ai/modernbert-embed-base"):
        self.model = mteb.get_model(model_name)
        self.vector_db = VectorDatabase()
    
    def index_documents(self, documents):
        """索引文档到向量数据库"""
        embeddings = self.model.encode(documents, task_name="Retrieval")
        self.vector_db.add_embeddings(documents, embeddings)
    
    def search(self, query, top_k=10):
        """执行语义搜索"""
        query_embedding = self.model.encode([query], task_name="Retrieval")
        results = self.vector_db.search(query_embedding, top_k)
        return results

技术优势与创新点

架构创新

ModernBERT基础: 基于先进的ModernBERT架构，提供更好的表示学习能力
长文本支持: 支持8192 tokens的长文本处理，适合文档级应用
高效推理: 采用float16精度，在保持性能的同时减少内存占用

性能优势

指标	Nomic Modern BERT	传统BERT-base	提升幅度
序列长度	8192	512	1600%
参数效率	149M	110M	优化35%
内存占用	568MB	~400MB	平衡性能
推理速度	快速	中等	显著提升

部署与使用指南

环境配置

# 安装MTEB
pip install mteb>=1.28.0

# 安装依赖
pip install transformers>=4.48.0
pip install sentence-transformers
pip install torch

快速开始

import mteb
import numpy as np

# 初始化模型
model = mteb.get_model("nomic-ai/modernbert-embed-base")

# 文本嵌入示例
texts = [
    "The quick brown fox jumps over the lazy dog.",
    "Artificial intelligence is transforming industries.",
    "Machine learning models require large amounts of data."
]

embeddings = model.encode(texts, task_name="Classification")
print(f"嵌入维度: {embeddings.shape}")

高级配置

# 自定义模型配置
model = mteb.get_model(
    "nomic-ai/modernbert-embed-base",
    model_kwargs={
        "torch_dtype": torch.float16,
        "device": "cuda" if torch.cuda.is_available() else "cpu"
    }
)

# 批量处理优化
embeddings = model.encode(
    texts,
    batch_size=64,
    show_progress_bar=True,
    task_name="Retrieval"
)

行业影响与未来展望

对嵌入模型生态的影响

MTEB 1.28.0版本对Nomic Modern BERT的支持标志着：

架构多样性: 丰富了MTEB支持的模型架构类型
性能基准: 为ModernBERT架构提供了标准化评估平台
社区贡献: 鼓励更多创新模型加入MTEB生态系统

未来发展路线

mermaid

结论

MTEB 1.28.0版本的发布，特别是对Nomic Modern BERT模型的支持，为文本嵌入领域带来了重要的技术进步。这一更新不仅提供了新的模型选择，更为开发者和研究者提供了评估现代BERT架构性能的标准化平台。

通过全面的评估框架、优化的性能表现和便捷的集成方式，Nomic Modern BERT在MTEB中的集成将推动文本嵌入技术在各个应用场景中的进一步发展。随着更多创新模型的加入，MTEB将继续作为文本嵌入评估的黄金标准，推动整个行业向前发展。

对于技术团队和研究者而言，现在正是探索和采用Nomic Modern BERT的最佳时机，利用MTEB提供的强大评估能力，为项目选择最合适的嵌入解决方案。

【免费下载链接】mteb MTEB: Massive Text Embedding Benchmark 项目地址: https://gitcode.com/gh_mirrors/mt/mteb

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考