
MDK12-Bench论文总结与核心部分翻译
一、主要内容总结
本文针对现有多模态大型语言模型(MLLMs)评估基准存在的规模有限、覆盖范围窄、知识结构松散、评估方式静态单一等问题,提出了MDK12-Bench——一个基于真实K-12考试数据构建的大规模多学科评估基准,并设计了动态评估框架与知识增强评估方法,系统剖析了当前MLLMs的能力边界与局限。
- 基准构建:从6个学科(数学、物理、化学、生物、地理、信息科学)的真实K-12考试中筛选整理出141K个实例,涵盖单选、多选、填空、判断、开放题5种题型,标注了难度等级、考试年份等信息,并构建了包含“学科-年级-子领域-课程-主题-知识点”的6层知识分类体系,关联6225个人工标注的知识点。
- 评估框架:提出动态评估框架,通过视觉(空间填充、颜色反转、风格迁移等)和文本(同义词替换、句式改写、题型转换等)扰动生成新测试样本,检验模型泛化能力并缓解数据污染;引入知识点参考增强生成(KP-RAG)方法,探究知识对模型推理的作用。
- 实验发现:对主流闭源与开源MLLMs的评估显示:大模型在感知能力上更优但推理提升有限;推理优化模型准确率高于对话模型但视觉感知较弱;模型在数学、物理学科表现较差(比平均低7.

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



