MTEB项目1.38.24版本发布:优化文档与功能增强
【免费下载链接】mteb MTEB: Massive Text Embedding Benchmark 项目地址: https://gitcode.com/gh_mirrors/mt/mteb
概述
MTEB(Massive Text Embedding Benchmark,大规模文本嵌入基准测试)项目发布了1.38.24版本,这是一个专注于文档优化和功能增强的重要更新。作为文本嵌入领域最全面的基准测试框架,MTEB持续为研究社区和企业用户提供可靠的模型评估标准。
本次更新重点改进了用户体验,增强了多模态支持,并优化了性能表现,让开发者能够更高效地进行文本嵌入模型的评估和比较。
核心功能增强
1. 多模态评估能力强化
MTEB 1.38.24版本进一步扩展了对多模态任务的支持,现在可以更灵活地处理文本、图像和图文混合任务:
import mteb
# 选择包含图像模态的任务
tasks = mteb.get_tasks(modalities=["image"])
# 或者选择仅包含图像模态的任务
tasks = mteb.get_tasks(modalities=["image"], exclusive_modality_filter=True)
# 运行MIEB基准测试
benchmark = mteb.get_benchmark("MIEB(eng)")
evaluation = mteb.MTEB(tasks=benchmark)
2. 提示工程支持升级
新版本增强了提示工程功能,支持更细粒度的提示配置:
from sentence_transformers import SentenceTransformer
# 支持多种提示配置方式
model = SentenceTransformer(
"average_word_embeddings_komninos",
prompts={
"query": "Query:",
"passage": "Passage:",
"Retrieval-query": "Search query:",
"NFCorpus-query": "Medical query:"
}
)
3. 缓存机制优化
改进了嵌入缓存系统,支持跨任务重用嵌入向量:
from mteb.models.cache_wrapper import CachedEmbeddingWrapper
# 使用缓存包装器
model_with_cached_emb = CachedEmbeddingWrapper(model, cache_path='path_to_cache_dir')
# 直接访问缓存嵌入
import numpy as np
from mteb.models.cache_wrapper import TextVectorMap
vector_map = TextVectorMap("path_to_cache_dir/LccSentimentClassification")
vectors = np.asarray(vector_map.vectors)
文档改进亮点
使用指南全面升级
新版本的使用文档进行了全面重构,提供了更清晰的使用示例和最佳实践:
| 功能模块 | 改进内容 | 受益用户 |
|---|---|---|
| 模型选择 | 详细的预定义模型列表和使用指南 | 研究人员、开发者 |
| 任务筛选 | 多维度任务过滤和选择说明 | 基准测试用户 |
| 评估运行 | 性能优化和资源管理指南 | 生产环境用户 |
| 结果分析 | 结果解析和可视化方法 | 数据分析师 |
代码示例丰富化
文档中增加了大量实用的代码示例:
# 多语言任务选择示例
tasks = [
mteb.get_task("AmazonReviewsClassification", languages=["eng", "fra"]),
mteb.get_task("BUCCBitextMining", languages=["deu"])
]
# 跨编码器评估示例
from sentence_transformers import CrossEncoder
cross_encoder = CrossEncoder("cross-encoder/ms-marco-TinyBERT-L-2-v2")
evaluation.run(
cross_encoder,
eval_splits=["test"],
top_k=5,
previous_results="results/stage1/NFCorpus_predictions.json"
)
性能优化特性
1. 下载加速支持
集成Huggingface的xet技术,显著提升数据集下载速度:
pip install mteb[xet]
对于大型数据集(如MrTidyRetrieval,约15GB),下载时间从约40分钟缩短至30分钟。
2. 碳足迹追踪
内置CodeCarbon集成,支持碳排放追踪:
evaluation.run(model, co2_tracker=True)
3. 批处理优化
改进的批处理机制,支持更灵活的编码参数配置:
evaluation.run(model, encode_kwargs={
"batch_size": 32,
"show_progress_bar": True
})
技术架构改进
模型接口标准化
任务选择流程
安装与使用
快速开始
# 基础安装
pip install mteb
# 包含多模态支持
pip install mteb[image]
# 包含碳排放追踪
pip install mteb[codecarbon]
# 包含下载加速
pip install mteb[xet]
CLI使用示例
# 列出所有可用任务
mteb available_tasks
# 运行基准测试
mteb run -m sentence-transformers/all-MiniLM-L6-v2 \
-t Banking77Classification \
--verbosity 3
# 保存预测结果
mteb run -t NFCorpus -m all-MiniLM-L6-v2 \
--output_folder results \
--save_predictions
适用场景
研究机构
- 模型性能对比研究
- 新算法验证测试
- 多语言嵌入评估
企业用户
- 生产环境模型选型
- 嵌入质量监控
- 成本效益分析
开发者
- 自定义模型集成
- 特定领域基准测试
- 性能优化验证
版本兼容性
| 组件 | 版本要求 | 说明 |
|---|---|---|
| Python | ≥3.9, <3.13 | 支持主流Python版本 |
| PyTorch | >1.0.0 | 深度学习框架 |
| SentenceTransformers | ≥3.0.0 | 嵌入模型库 |
| Datasets | ≥2.19.0, <4.0.0 | 数据集处理 |
总结
MTEB 1.38.24版本通过全面的文档优化和功能增强,为文本嵌入领域的研究者和开发者提供了更强大、更易用的基准测试工具。无论是进行学术研究还是工业应用,这个版本都能帮助用户更高效地评估和比较不同嵌入模型的性能。
关键改进包括:
- 📚 全面升级的使用文档和示例
- 🖼️ 增强的多模态任务支持
- ⚡ 性能优化和下载加速
- 🔄 改进的缓存和重用机制
- 🌍 碳排放追踪功能
建议所有MTEB用户升级到此版本,以获得更好的使用体验和更准确的评估结果。
【免费下载链接】mteb MTEB: Massive Text Embedding Benchmark 项目地址: https://gitcode.com/gh_mirrors/mt/mteb
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



