多模态模型评测神器 | OpenCompass MMBench 了解一下!

MMBench 是什么呢?

MMBench 是 OpenCompass 研究团队自建的视觉语言模型评测数据集,可实现从感知到认知能力逐级细分评估。研究团队从互联网公开信息与权威基准数据集采集约 3000 道单项选择题 ,覆盖目标检测、文字识别、动作识别、图像理解、关系推理等 20 个细粒度评估维度。

为什么要推出 MMBench?

伴随着大语言模型的发展,一系列多模态模型也在短时间内如雨后春笋般涌现了出来。但是,如何来全面地评估一个多模态模型仍然是一个比较棘手的问题。当前模型测试的方式均存在一些固有的问题,主要分为以下三类:

评测问题多样性不足

这种方式能呈现模型在特定问题上的回答。

然而,由于评测问题的数量有限,多样性不足,往往难以全面反映模型的真实性能。

主观评测认知偏差

这种方式通过人为构造一些 prompt,以人来比较各个模型在这些 prompt 上面的回答效果。

但这种方式除了评测问题数量少和缺乏多样性的问题,由于人具有认知偏差,所以论文中的评测结果往往很难复现,同时也存在不能无法全方位评估的问题。

传统客观评测集测试

传统的评测方法主要是看模型在像回答问题、给图片写说明这样的任务上做得好不好。

它有一些缺点,比如不能很详细地评估模型的能力,这存在假阳性的问题。

为了解决这些问题,OpenCompass提出了MMBench,用来评估大型多模态模型。这个方法主要有两个部分:

  自上而下的能力维度设计,根据定义的能力维度构造了一个评测数据集

  引入 ChatGPT,以及提出了 CircularEval 的评测方式,使得评测的结果更加稳定

基于感知与推理 将评估维度逐级细分

数据集构造

OpenCompass 研究团队自上而下定义了三级能力维度 (L1-L3):

第一级维度(L1)包含感知与推理两项能力

第二级能力维度(L2) 在第一级的能力维度下进行拓展,包含 6 项能

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值