评估多模态AI模型的那些复杂测试,可能有一半都是“重复劳动”!
来自上海AI Lab、上海交大以及浙江大学最新研究显示:当下流行的多模态大模型基准测试中普遍存在大量冗余。

△图表 1 Quick Look
他们在超过20个主流多模态基准和100多个模型做了系统性扫描,结果有一些有意思的发现。
比如实例分析中,许多基准测试将实例数量减少一半,也不会显著影响被测试MLLMs的排名。
而在具体任务中,像图像情感和社会关系这两大任务,他们评估能力存在显著的重叠。
而像名人识别这种基于知识的任务,与其他维度的任务保持相对独立。
研究方法
训练好的多模态大模型往往需要通过繁杂的基准测试才能让研究人员评估出其具体的性能。
但是在许多测试环节中,团队发现似乎多模态基准本身存在着明显的冗余性。
例如某些基准内的评测维度虽然名字叫法不同,但是测试的能力非常相似;
例如某些基准的评测实例可以视作“自我繁殖“,不同实例之间彼此高度相似,没有提供额外的评价信息;
例如某些垂类领域的多个不同的评测基准似乎彼此之间也较为类似。
于是,他们便开始尝试思索提出一个衡量多模态基准冗余度的框架。
首先,团队定义了三类冗余度:
- 1、基准内的子维度之间的冗余度;
- 2、基准内的测试实例的冗余度;
- 3、单个垂类领域内不同基准的冗余度。
从一个先验出发,当在测试类似的多模态大模型能力时,其性能排序应该存在较强的相关性;反之,如果其性能排序相关性较低,这也就意味着测试的性能具备较强的独立性。
基于上述先验,针对性给出了对应的冗余度框架。

△图表 2 冗余度计算框架示意图
基准内的子维度之间的冗余度。
假设我们在拥有m个子维度的基准上评测了一定数量的多模态大模型性能,并且我们记这些性能在这m个子维度上的排序为R1-Rm。那么任意两个维度之间的排序相似性就可以简单理解为这两个维度的冗余性。将所有的排序相似性遍历求和也就得到了此基准的平均冗余度。
基准内的测试实例冗余度。
假设某个基准共有着n个测试实例,并且在这个完整的基准上了我们评测了一定数量的多模态大模型并获得了最终的性能排序RGT,然后,我们随机抽取实例的一个子集,占总数的A%,并计算相应的MLLM性能排序,记为RA%。为了量化在A%抽样比率下基准测试的冗余,我们计算RA%与RGT之间的相关系数。这一相关性反映了抽样子集对整个基准测试的代表性。为了减少随机性的影响,抽样过程重复进行T=100次,并记录平均相关性结果。
单一垂类领域内的跨基准冗余
假设某个垂类领域内(例如专注做数学能力评测)有l个基准,我们在这些基准上测试了一定数量的多模态大模型性能,并获得了这些大模型在各个基准上的排序。那么针对于某个特定基准,其性能排序与其余基准排序的相关系数即可代表此基准在这个垂类领域内的冗余度,也可也理解为此基准对此垂类领域的代表程度。
相关性指标
在这项工作中,我们采用了多种指标来描述两组性能数字之间的相关性,包括斯皮尔曼排名相关系数(SRCC)、皮尔逊线性相关系数(PLCC)和R2分数。
- SRCC 是一种评估指标,测量排名的相似性,捕捉两个排名之间相对顺序的一致程度。
- PLCC 量化线性相似性,评估排名之间的线性关系紧密程度。
- R2分数 则评估排名关系解释的方差比例,作为拟合优度的衡量标准。
Top-K分析
考虑到顶级MLLMs的性能在基准测试中往往更受关注,我们可以通过仅关注给定基准测试中总体性能最高的Top-K MLLMs来简化冗余分析,而不是将所有MLLMs纳入计算。通过选择Top-K模型,我们可以更好地针对不同性能层级的基准测试冗余进行分析。
实验结果及分析
探索维度冗余
为了全面展示我们冗余框架在MLLM基准测试中的应用,我们使用广泛采用且维度多样的MMBench基准测试(v1.1)。其测试结果如图所示,我们可以得到一些有趣的结果。

△ 图表 3 MMBench Top-50 SRCC 子维度热图
根据图表3(Top-50 指总排名正数50的MLLMs性能排序),我们可以快速分析哪些维度表现出高相关性。
例如,任务图像情感和社会关系显示出强烈的冗余(0.59),表明它们评估的能力存在显著重叠。
同样,结构化图像-文本理解与多个其他维度(如空间关系物理属性推理(0.69)、OCR(0.56)和自然关系(0.49))表现出明显的冗余,这反映出执行结构化理解需要综合运用视觉解析、符号识别、常识推理等多重能力。
另一个有趣的见解来自名人识别,这是一个基于知识的任务,与主要测量感知能力的其他维度保持相对独立。因此,它表现出显著较低的冗余。

△ 图表 4 MMBench Bottom-50 SRCC 子维度热图
图表4(Bottom-50 指总排名倒数50的MLLMs性能排序)则揭示了截然不同的分布模式。
与Top-50模型平均维度冗余度相比,Bottom-50模型的平均维度冗余度显著增高,其中超过80%的维度对SRCC值超过0.6。这种系统性高冗余现象源于Bottom-50模型基础能力的整体薄弱性——当模型处于初级发展阶段时,各维度的性能改进呈现强同步性,导致维度区分度显著降低。
反观Top-50模型,由于已建立较完备的基础能力体系,其在不同复杂任务中的专项优化会引发维度表现的差异性增长,从而形成更清晰的维度区分特征。
探索实例冗余

△ 图表 5 Top-50 实例平均冗余度

△图表 6 Bottom-50 实例平均冗余度
在实验中他们纳入了VLMEvalKit中18个公开可用的基准测试的评估结果,并展示了随机采样实例得到的性能排序与采用全部实例排序的平均冗余度结果。
团队采用0.95的相似性阈值进行划分(SRCC和PLCC系数超过0.95的排名被认为几乎相同,仅在极少数情况下存在微小差异),这得出一个结论:大多数现有MLLM基准测试在对Top-50和Bottom-50 MLLMs进行排名时,其实例表现出显著冗余,至少50%的实例是冗余的。 这意味着许多基准测试可以将实例数量减少一半,而不会显著影响被测试MLLMs的排名。团队还比较了Top-50和Bottom-50 MLLMs之间的冗余趋势。
值得注意的是,在SRCC和PLCC的相同0.95阈值下,Bottom-50 MLLMs所需的实例数量显著少于Top-50 MLLMs。这意味着准确排名高性能MLLMs(Top-50)需要更多实例,而排名低性能MLLMs(Bottom-50)可以用更少的实例实现。
因此,基准测试实例的冗余与被评估MLLMs的能力密切相关: MLLMs能力越强,基准测试实例的冗余越低。
探索跨基准冗余
为了分析跨基准冗余,聚焦于数学领域,具体考察了几个流行的数学基准测试:MathVista、MathVision、MathVerse和DynaMath。
利用OpenCompass推理排行榜上列出的37个MLLMs的可用评估结果来进行分析。

△图表 7 数学领域内的跨基准冗余度热图
结果显示,尽管这四个基准测试都旨在评估MLLMs的数学能力,但它们之间的相关性并不算特别强。其中,MathVista表现出最少的冗余,与其他基准测试的相关性最低。相比之下,MathVerse和MathVision显示出高冗余,与其他基准测试表现出强相关性。这些差异表明它们的评估重点领域存在不同程度的重叠。
为了更好地理解基准测试之间的差异,团队分析了它们任务的分布。
结果发现MathVista包含30%-40%的非传统数学问题,例如与科学图表理解、通用VQA和图表/表格/图形问答相关的任务(示例见图表8)。

△图表 8 基准内偏离核心数学能力的样例
团队认为低冗余可能源于特定领域的独特元素或无关任务,并将后者视为数据中的“噪声”。
例如,通用VQA任务虽然广泛适用,但其与评估数学能力的关系有限,可以归类为这种噪声。
为了量化其影响,他们从MathVista中移除通用VQA任务,并重新计算其与其他基准测试的冗余。经过这一调整后,MathVista与其他数学基准测试之间的冗余显著增加,与它们任务特征的契合度更高。
此外,我们还排除了MathVista中分类数学目标VQA的CLEVR衍生问题,这些问题与数学能力的关系也有限(示例见图表8)。
经过处理,MathVista与其余基准的冗余度得到了进一步提高,也意味着处理后的MathVista更加专注在了“数学“能力的评测上。
因此,他们提出以下领域内基准设计的原则:
- 旨在代表某一垂类领域核心能力的基准应与其他领域内基准表现出相对高的冗余,反映对领域内核心能力的把握。
- 专注于独特的能力以填补垂类领域空缺的基准应与其他基准显示较低的冗余,从而为领域内特定主题提供独特视角。
总结
本文重点探索了MLLM基准测试中普遍存在的冗余问题,探索了三个层面识别了冗余:维度冗余、实例冗余和跨基准冗余。
通过提出的冗余度框架,可以为社区带来以下改进:
优化基准设计:
- 1). 确定基准内的某些维度是否需要单独评估,或者可以合并;
- 2). 识别准确评估所需的最小且足够的实例数量;
- 3). 评估在特定领域内引入新基准的必要性。
提升MLLM评估效率:
- 1). 确定某一基准是否偏离了领域的分布;
- 2). 识别评估领域内模型性能所需的锚定基准。
通过系统性地解决冗余问题,不仅可以提升基准设计的原则,还能减轻MLLM评估的资源需求,创造一个更精简有效的评估生态系统。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】


被折叠的 条评论
为什么被折叠?



