MTEB项目1.36.12版本发布:新增模态过滤功能
引言
在多模态AI模型快速发展的今天,如何有效评估和比较不同模态的嵌入模型成为了一个重要挑战。MTEB(Massive Text Embedding Benchmark)作为业界领先的嵌入模型评估基准,在1.36.12版本中引入了革命性的模态过滤功能,为多模态嵌入模型的评估提供了全新的解决方案。
什么是模态过滤功能?
模态过滤功能是MTEB 1.36.12版本的核心新增特性,它允许用户根据任务的模态类型来精确筛选和评估嵌入模型。这一功能支持以下模态类型:
- text:纯文本任务
- image:纯图像任务
- text,image:图文混合任务
功能特点
如何使用模态过滤功能
基础用法
import mteb
# 获取所有包含图像模态的任务
image_tasks = mteb.get_tasks(modalities=["image"])
# 获取所有包含文本模态的任务
text_tasks = mteb.get_tasks(modalities=["text"])
# 获取所有图文混合任务
multimodal_tasks = mteb.get_tasks(modalities=["text", "image"])
高级用法:严格模式过滤
# 严格模式:只获取纯图像任务(不包含图文混合任务)
pure_image_tasks = mteb.get_tasks(
modalities=["image"],
exclusive_modality_filter=True
)
# 严格模式:只获取纯文本任务
pure_text_tasks = mteb.get_tasks(
modalities=["text"],
exclusive_modality_filter=True
)
实际应用示例
from sentence_transformers import SentenceTransformer
import mteb
# 加载多模态模型
model = SentenceTransformer("clip-ViT-B-32")
# 选择所有图文混合任务进行评估
multimodal_tasks = mteb.get_tasks(modalities=["text", "image"])
evaluation = mteb.MTEB(tasks=multimodal_tasks)
# 运行评估
results = evaluation.run(model, output_folder="results/clip_multimodal")
模态过滤的技术实现
核心过滤逻辑
MTEB的模态过滤功能基于以下核心算法:
def filter_tasks_by_modalities(tasks, modalities, exclusive_modality_filter=False):
"""根据模态类型过滤任务"""
modality_set = set(modalities)
if exclusive_modality_filter:
# 严格模式:完全匹配
return [t for t in tasks if set(t.modalities) == modality_set]
else:
# 非严格模式:包含任一指定模态
return [t for t in tasks if modality_set.intersection(t.modalities)]
支持的模态类型
| 模态类型 | 描述 | 示例任务 |
|---|---|---|
text | 纯文本任务 | Banking77Classification, STSBenchmark |
image | 纯图像任务 | ImageNet, CIFAR-10 |
text,image | 图文混合任务 | MIRACLVisionRetrieval, VisualSTS |
实际应用场景
场景一:纯文本模型评估
# 评估纯文本嵌入模型
text_model = SentenceTransformer("all-MiniLM-L6-v2")
text_tasks = mteb.get_tasks(
modalities=["text"],
exclusive_modality_filter=True
)
evaluation = mteb.MTEB(tasks=text_tasks)
results = evaluation.run(text_model)
场景二:多模态模型对比
# 对比不同多模态模型的性能
models = {
"CLIP": SentenceTransformer("clip-ViT-B-32"),
"ALIGN": SentenceTransformer("google/align-base")
}
multimodal_tasks = mteb.get_tasks(modalities=["text", "image"])
for model_name, model in models.items():
evaluation = mteb.MTEB(tasks=multimodal_tasks)
results = evaluation.run(model, output_folder=f"results/{model_name}")
场景三:特定模态性能分析
# 分析模型在不同模态上的表现差异
model = SentenceTransformer("multimodal-model")
# 分别评估文本、图像和混合模态任务
modality_groups = {
"text_only": mteb.get_tasks(modalities=["text"], exclusive_modality_filter=True),
"image_only": mteb.get_tasks(modalities=["image"], exclusive_modality_filter=True),
"multimodal": mteb.get_tasks(modalities=["text", "image"])
}
for group_name, tasks in modality_groups.items():
if tasks: # 确保有该类型的任务
evaluation = mteb.MTEB(tasks=tasks)
results = evaluation.run(model, output_folder=f"results/{group_name}")
版本升级指南
安装最新版本
pip install mteb==1.36.12
依赖要求
使用图像模态功能需要额外安装图像处理依赖:
pip install mteb[image]
向后兼容性
1.36.12版本完全向后兼容,所有现有代码无需修改即可正常运行。新增的模态过滤参数都是可选的,不会影响现有功能。
性能优化建议
批量处理策略
# 高效的多模态评估流程
def evaluate_multimodal_model(model, output_dir="results"):
# 一次性获取所有任务
all_tasks = mteb.get_tasks()
# 按模态分组处理
modality_groups = {}
for task in all_tasks:
modality_key = ",".join(sorted(task.modalities))
if modality_key not in modality_groups:
modality_groups[modality_key] = []
modality_groups[modality_key].append(task)
# 并行处理不同模态组
for modality, tasks in modality_groups.items():
evaluation = mteb.MTEB(tasks=tasks)
evaluation.run(model, output_folder=f"{output_dir}/{modality}")
缓存优化
from mteb.models.cache_wrapper import CachedEmbeddingWrapper
# 使用缓存包装器加速多模态评估
model = SentenceTransformer("multimodal-model")
cached_model = CachedEmbeddingWrapper(model, cache_path="embedding_cache")
multimodal_tasks = mteb.get_tasks(modalities=["text", "image"])
evaluation = mteb.MTEB(tasks=multimodal_tasks)
results = evaluation.run(cached_model)
常见问题解答
Q1: 模态过滤会影响评估结果的准确性吗?
A: 不会。模态过滤只是在任务选择阶段进行筛选,不影响具体的评估算法和指标计算。
Q2: 如何知道某个任务支持哪些模态?
A: 可以通过任务的modalities属性查看:
task = mteb.get_task("MIRACLVisionRetrieval")
print(task.modalities) # 输出: ['text', 'image']
Q3: 是否支持自定义模态类型?
A: 目前支持标准的text和image模态,未来版本可能会扩展支持更多模态类型。
总结
MTEB 1.36.12版本的模态过滤功能为多模态嵌入模型的评估提供了强大的工具支持。通过灵活的模态筛选机制,研究人员和开发者可以:
- 精确评估:针对特定模态进行针对性评估
- 性能对比:在不同模态间进行模型性能对比
- 资源优化:只运行相关模态的任务,节省计算资源
- 深入分析:分析模型在不同模态上的表现差异
这一功能的引入标志着MTEB从纯文本评估基准向多模态评估基准的重要演进,为多模态AI技术的发展提供了坚实的评估基础。
下一步计划
MTEB团队将继续扩展模态支持,未来版本计划增加:
- 音频模态支持
- 视频模态支持
- 3D模型模态支持
- 跨模态检索评估
期待MTEB成为全面覆盖各种模态的嵌入模型评估标准。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



