MTEB项目1.34.15版本发布:增强测试稳定性与工程领域数据集支持
mteb MTEB: Massive Text Embedding Benchmark 项目地址: https://gitcode.com/gh_mirrors/mt/mteb
MTEB(Massive Text Embedding Benchmark)是一个用于评估大规模文本嵌入模型的基准测试项目,它为研究人员和开发者提供了标准化的评估框架。该项目通过覆盖多种语言和任务类型,帮助用户全面了解不同嵌入模型在各种场景下的表现。
测试稳定性增强
在1.34.15版本中,开发团队着重提升了测试套件的稳定性。针对测试过程中常见的网络问题导致的失败情况,项目引入了测试重试机制。当遇到特定类型的网络相关错误时,测试会自动重新运行,包括:
- 网络请求失败导致的HTTP错误
- 本地文件未找到错误
- JSON解码错误
- Hugging Face Hub相关的HTTP错误
这一改进显著减少了由于临时网络问题导致的测试失败,提高了持续集成流程的可靠性。开发团队还在测试配置中明确指定了开发依赖的版本,确保测试环境的稳定性。
元数据生成优化
该版本修复了元数据生成过程中的一些问题,改进了相关脚本的实现。现在元数据生成过程使用标准的日志记录而非简单的打印输出,提高了可维护性。同时,项目还添加了内存使用量(memory_usage_mb)的统计功能,为用户提供更全面的模型性能信息。
工程领域数据集扩展
1.34.15版本为"工程"领域新增了多个基准测试数据集,丰富了项目的应用场景覆盖范围。这些新增的数据集包括:
- BuiltBenchClusteringS2S(句子到句子聚类)
- BuiltBenchClusteringP2P(段落到段落聚类)
- BuiltBenchRetrieval(检索任务)
- BuiltBenchReranking(重排序任务)
这些新增任务专门针对工程领域的文本处理需求设计,为评估嵌入模型在工程技术文档、设计规范等专业内容上的表现提供了标准化的测试基准。开发团队对相关任务的元数据进行了细致调整,确保它们能够准确反映工程领域的特点。
其他改进
项目还对模型命名规范进行了调整,以适配结果仓库的存储需求。在图像分类任务方面,添加了更多描述性统计信息,为用户提供更详细的分析维度。
MTEB项目通过1.34.15版本的更新,不仅提升了自身的稳定性和可靠性,还扩展了在专业领域的应用范围,为文本嵌入技术的研究和应用提供了更全面的评估工具。这些改进将帮助研究人员和开发者更准确地评估和比较不同嵌入模型在各种实际应用场景中的表现。
mteb MTEB: Massive Text Embedding Benchmark 项目地址: https://gitcode.com/gh_mirrors/mt/mteb
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考