MMBench: Is Your Multi-modal Model an All-around Player?——阅读笔记

只记录了我认为这篇文档重要的部分,如果哪里不懂或者有遗漏可以评论区或私聊交流

原文链接:https://arxiv.org/pdf/2307.06281

MMBench: 您的多模态模型是否是一个全能选手?

动机

传统的评估大模型的方法缺乏细粒度的能力评估和稳健的评价指标

现有方法分两种:自动评估和人工评估

自动评估:

1.假阴性问题:大多数现有的评估指标要求预测与参考目标完全匹配,这可能导致潜在的限制。例如,在VQA任务中,即使预测是“自行车”而参考答案是“单车”,现有指标也会给预测打负分,导致大量的假阴性样本。

2.缺乏细粒度分析:当前的公共数据集主要关注评估模型在特定任务上的表现,对这些模型的细粒度能力提供有限的见解。因此,它们对未来改进方向的反馈不足。

人工评估:太贵

数据集构建

首先确定要评估的能力

### GMAI-MMBench 数据集的详细介绍及用途 #### 数据集概述 GMAI-MMBench 是由上海人工智能实验室等多家科研机构共同提出的多模态评估基准,旨在推动通用医学人工智能的发展[^2]。它涵盖了广泛的医学领域任务和数据类型,成为目前最为全面的通用医疗基准之一。 #### 数据集组成 GMAI-MMBench 包括以下核心组成部分: 1. **医学影像模态** 数据集中包含了 38 种不同的医学影像模态,这些影像是从多个公开资源中收集而来,能够支持多种医学影像分析任务,例如疾病检测、病变分类等。 2. **临床相关任务** 提供了 18 项与临床实践密切相关的任务,覆盖疾病的诊断、治疗方案推荐等多个方面。这使得研究人员可以更深入地探索如何将人工智能技术应用于实际医疗场景中。 3. **科室分布** 数据集涉及 18 个不同科室的数据,从而确保其广泛适用性和跨学科特性。这种设计有助于开发适用于特定专科需求的人工智能解决方案[^2]。 4. **感知粒度** 使用视觉问题问答(VQA)格式定义了四种感知粒度级别,进一步细化了对图像理解的要求,提高了模型评价标准的精确程度。 #### 主要特点 - **全球化视角**:该数据集整合了来自世界各地共 284 个下游任务数据集的信息,体现了国际化的视野和技术水平。 - **多样化应用**:不仅限于单一类型的医学数据分析,而是融合了影像、基因、文本等多种形式的内容,促进了综合性研究进展[^3]。 - **高质量标注**:所有数据均经过严格筛选和专业人员审核,保证了标签的一致性和准确性[^2]。 #### 应用方向 基于以上特征,GMAI-MMBench 可被广泛运用于以下几个方面: 1. 开发新型多模态学习框架,如 Med-Flamingo 和 LLaVA-Med 等,通过微调或测试来验证模型性能[^3]。 2. 推动中医现代化进程中的技术创新工作——比如利用 HuaTuoGPT-Vision 对传统中医药材图片进行智能化处理[^3]。 3. 构建更加精准高效的辅助诊疗系统,在减少误诊率的同时提高医疗服务效率[^2]。 ```python import pandas as pd # 示例代码展示如何加载并初步查看数据集结构 def load_gmai_mmbench_data(path_to_dataset): data = pd.read_csv(path_to_dataset) return data.head() example_output = load_gmai_mmbench_data('path/to/gmaimmbench.csv') print(example_output) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值