MTEB项目1.36.34版本发布:模型增强与功能优化

MTEB项目1.36.34版本发布:模型增强与功能优化

mteb MTEB: Massive Text Embedding Benchmark mteb 项目地址: https://gitcode.com/gh_mirrors/mt/mteb

MTEB(Massive Text Embedding Benchmark)是一个用于评估文本嵌入模型性能的开源基准测试项目。该项目通过提供标准化的评估框架和多样化的测试任务,帮助研究者和开发者全面了解不同文本嵌入模型在各种NLP任务中的表现。

本次1.36.34版本的发布主要聚焦于模型库的扩展和功能优化,包含多项重要更新:

新增模型支持

本次版本新增了对多个重要模型的支持:

  1. nb_sbert模型:这是一个挪威语专用的Sentence-BERT模型,专门针对挪威语文本进行了优化。该模型在挪威语相关任务中表现出色,为北欧语言处理提供了有力工具。

  2. NeuML/pubmedbert-base-embedding系列模型:这些基于PubMedBERT的模型专门针对生物医学领域的文本嵌入任务进行了优化。它们能够更好地捕捉医学术语和生物医学概念的语义关系,在医疗健康领域的NLP应用中具有重要价值。

  3. ops_moa_models:这是一个包含多种自定义实现的模型集合,支持SentenceTransformers框架。这些模型经过特定训练数据集的优化,适用于多种专业领域的文本处理需求。

  4. SearchMap_Preview模型:该模型加入了元数据信息,支持模型提示功能。它特别适用于搜索和映射相关的应用场景,能够有效提升信息检索的准确性。

功能改进与优化

  1. CI/CD流程改进:通过缓存Hugging Face的模型缓存目录(~/.cache/huggingface),显著提升了持续集成流程的效率,减少了重复下载模型的时间消耗。

  2. 任务评估修复:解决了MIRACLRetrievalHardNegatives任务评估时出现的'trust_remote_code'错误,提高了评估过程的稳定性。

  3. 可视化增强:在汇总表和任务表中添加了背景渐变效果,改进了数据展示的视觉效果,使性能对比更加直观。

架构重构

本次版本对部分任务实现进行了重构:

  1. ImageCoDe任务:重新实现了基于ImageTextPairClassification的ImageCoDe任务,使其架构更加清晰,并补充了缺失的统计文件。

  2. r-Oxford和r-Paris任务:通过引入MutipleChoiceEvaluationMixin,重构了这两个检索任务的实现,提高了代码复用性和可维护性。

总结

MTEB 1.36.34版本通过新增多个专业领域的文本嵌入模型支持,进一步丰富了项目的模型生态系统。同时,在功能优化和架构改进方面的努力,使得整个基准测试框架更加稳定和高效。这些改进不仅提升了开发者的使用体验,也为文本嵌入技术的研究和应用提供了更加强大的评估工具。

对于从事文本嵌入相关工作的研究者和开发者而言,这个版本提供了更多专业领域的模型选择,特别是在挪威语处理和生物医学文本处理等特定领域。项目团队持续关注用户体验和架构质量的改进方向,值得期待未来的进一步发展。

mteb MTEB: Massive Text Embedding Benchmark mteb 项目地址: https://gitcode.com/gh_mirrors/mt/mteb

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

时琦旖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值