Compass Arena 上新啦!新增双多模态模型匿名对战

2024 年 5 月,上海人工智能实验室司南 OpenCompass 团队 与魔搭 ModelScope 联合推出了大模型评测平台——Compass Arena(大模型竞技场),为国内的大语言模型领域引入了一种全新的竞技模式。

今天,Compass Arena 迎来重磅更新,新增了多模态大模型竞技版块——Compass Multi-Modal Arena。在这个全新的竞技场,用户可以轻松体验和比较多款主流多模态大模型的效果,找到适合自己的多模态大模型

Compass Multi-Modal Arena 官网:

https://opencompass.org.cn/arena?type=multimodal

ModelScope 页面:

https://modelscope.cn/studios/opencompass/CompassArena

HuggingFace 页面

https://huggingface.co/spaces/opencompass/CompassArena

OpenCompass 多模态评测工具开源链接:

https://github.com/open-compass/VLMEvalKit

目前平台已汇集了十余个主流多模态大模型,包括 InternVL2、MiniCPM-V2.5、LLaVANeXT、DeepSeek-VL 等开源模型,以及 Qwen-VL-Max、GLM-4v 等闭源模型。

平台使用方式简单,用户上传图像且输入问题后,两个不同的匿名多模态大模型会同时根据输入内容进行答案生成。在结束对话后,用户可以根据自己对生成内容质量的主观判断,自由评估并选择哪个大模型的能力更为出色。在评估完成后,用户可以看到回答问题的模型名称。

特色题库

除了支持用户自主上传问题外,平台中也内置了特色题库,可以方便用户在不便上传图像时随机使用题库中的问题测试模型能力。

在题库的构建方面,平台侧重选取了更为 "主观" 的视觉问答,而非具有明确答案的视觉感知任务(这类任务普遍可以由客观基准进行评测)。目前构建的题库问题包括 迷因理解、艺术品赏析、摄影作品赏析 等类型。

示例如下:

迷因理解

 艺术品赏析

 摄影作品赏析

愿景

Multi-Modal Arena 致力于构建一个开放、公平、透明的多模态大模型评估体系,用以评估多模态大模型在主观任务上的性能以及主观体验。在题库构建、用户反馈收集等层面,我们欢迎来自各个高校、企业以及社区用户的参与与贡献。

我们将基于收集到的多模态大模型匿名对战数据进行分析,并向全社区共享我们定性或定量的分析结论。同时,在收集到足够的对战数据后,我们也将清洗并开源对战数据本身以回馈社区。

参与 Compass Multi-Modal Arena 的建设

接入新的模型:

如果您有新的多模态大模型希望接入 Multi-Modal Arena 进行评估,欢迎致信 opencompass@pjlab.org.cn,我们将与您进行后续沟通。

请注意以下事项:

  1. 一般而言,每家厂商最多接入 1 个模型

  2. 如厂商希望接入 Multi-Modal Arena,需向 OpenCompass 侧提供相应的 API key 及调用方式

  3. 为保证榜单的科学合理,当新模型上线时,需累计到一定有效票数才会在 Arena 榜单上进行更新

接入新的题库:

为便于用户对模型进行比较,Compass Multi-Modal Arena 中内嵌了不同类型的题库,以供用户随机挑选。如您希望为题库贡献新的题目类型,也欢迎致信 opencompass@pjlab.org.cn,我们将在后续的工作中对此类贡献进行致谢。

请注意以下事项:

  1. 我们倾向于选择复杂、主观、或是任务导向的题目纳入题库。不倾向于选择过于简单,存在对应客观评测覆盖的题目

  2. 如您希望新增题库的大类 (如现有的迷因、艺术欣赏、摄影欣赏等),您需要提供至少一百对符合对应类型的图像-问题对

  3. 如您希望向 Multi-Modal Arena 贡献新的图像-问题对,您需要确保相应图像可被用于此类科研目的

<think>好的,用户想了解多模态模型的测试方法、工具和框架。首先,我需要回忆一下之前提供的引用内容,看看有没有相关的信息。引用3提到了VLMEvalKit,这是一个开源的评估工具包,由Open Compass团队开发,支持一键式评估,适合多种任务场景。这可能是一个重要的工具,需要详细介绍一下。 然后,引用2提到了多模态模型的核心算法原理,比如表示学习、注意力机制、跨模态对齐等,这些可能在测试时需要关注的点。测试方法可能需要验证这些机制的有效性,比如跨模态对齐是否正确,注意力机制是否捕捉到了关键信息。 引用4提到了评测数据集,还指出训练数据量大、计算资源消耗高等缺点,这可能影响测试时的考量,比如需要大规模的数据集来测试模型的泛化能力,同时要注意资源消耗的问题。 接下来,用户的问题可能还涉及到具体的测试框架和方法论,比如如何设计测试用例,评估哪些指标,以及现有的工具有哪些。需要结合引用中的信息,整理出系统化的测试方法,包括单元测试、集成测试、性能评估、鲁棒性测试等。 还要考虑开源工具,除了VLMEvalKit,是否有其他工具,比如HuggingFace的框架或者MMBench等。可能需要分点列出工具,并说明它们的特点和适用场景。 另外,测试方法中可能需要涵盖不同的任务场景,比如图像描述、视觉问答、多模态推理等,引用3提到VLMEvalKit覆盖多样化任务,可以举例说明这些任务如何测试。 最后,用户可能需要了解测试中的挑,比如数据准备、评估指标的选择、计算资源限制等,引用4提到数据量大和资源消耗高的问题,这也是测试时需要注意的地方。 需要确保回答结构清晰,分点说明测试方法、工具框架、挑,并结合引用中的信息,自然地加入引用标识。同时,生成相关问题,可能涉及评估指标、挑,或者具体工具的使用方法等。</think>### 多模态模型测试方法与工具详解 #### 一、多模态模型测试方法论 1. **单元测试** - 验证单模态编码能力:测试图像/文本/语音等独立模态的特征提取质量,例如图像分类准确率或文本语义相似度 - 示例:使用$Accuracy = \frac{TP+TN}{TP+TN+FP+FN}$评估视觉分类模块性能 2. **跨模态对齐测试** - 通过图文匹配任务验证模态间关联能力,如$CLIP$模型的对比学习评估[^2] - 构建对抗样本测试跨模态鲁棒性,例如添加噪声后的图文匹配稳定性 3. **端到端任务测试** - 覆盖多模态对话、视觉问答(VQA)、图像描述生成等典型场景 - 使用BLEU-4、ROUGE-L等指标评估生成质量[^4] 4. **性能基准测试** $$ \text{Throughput} = \frac{\text{处理样本数}}{\text{单位时间}} \quad \text{Latency} = T_{\text{end}} - T_{\text{start}} $$ 需测试不同硬件配置下的计算效率 #### 二、主流测试工具与框架 | 工具名称 | 特点 | 适用场景 | |---------|------|---------| | **VLMEvalKit**[^3] | 开源一键式评估,支持20+数据集 | 通用多模态任务 | | **MMBench** | 细粒度能力评估矩阵 | 模型能力诊断 | | **HuggingFace Evaluate** | 集成200+评估指标 | 生成任务评估 | | **ModelZoo** | 预置测试pipeline | 快速原型验证 | #### 三、测试实施关键步骤 1. **数据准备** - 使用COCO、Flickr30K等标准数据集 - 构建包含长尾分布的测试集(如罕见物体组合) 2. **评估指标选择** - 生成任务:CIDEr, SPICE - 检索任务:mAP@K - 推理任务:准确率加权得分 3. **测试环境配置** - GPU集群资源分配策略 - 分布式测试框架部署(如PyTorch Distributed) #### 四、典型挑与解决方案 1. **模态失衡问题** 通过$Loss = \alpha \mathcal{L}_{\text{视觉}} + \beta \mathcal{L}_{\text{文本}}$动态调整损失权重 2. **评估主观性** 引入人类评分(Human Rating)与自动化指标结合机制 3. **计算资源限制** 采用参数高效微调(PEFT)技术降低测试成本
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值