只记录了我认为这篇文档重要的部分,如果哪里不懂或者有遗漏可以评论区或私聊交流
原文链接:https://arxiv.org/pdf/2307.06281
MMBench: 您的多模态模型是否是一个全能选手?
动机
传统的评估大模型的方法缺乏细粒度的能力评估和稳健的评价指标
现有方法分两种:自动评估和人工评估
自动评估:
1.假阴性问题:大多数现有的评估指标要求预测与参考目标完全匹配,这可能导致潜在的限制。例如,在VQA任务中,即使预测是“自行车”而参考答案是“单车”,现有指标也会给预测打负分,导致大量的假阴性样本。
2.缺乏细粒度分析:当前的公共数据集主要关注评估模型在特定任务上的表现,对这些模型的细粒度能力提供有限的见解。因此,它们对未来改进方向的反馈不足。
人工评估:太贵
数据集构建
首先确定要评估的能力