VQA数据集及评价方法介绍

  VQA(Visual Question Answering)是一项涉及到计算机视觉和自然语言处理的视觉任务,简单介绍下当前VQA所使用的数据集:
    1. DQAUAR
    DAQUAR(The DAtaset for QUestion Answering on Real-world images)是最早提出的VQA数据集,也是最小的VQA数据集。DAQUAR中的图像来自于NYU-Depth v2 数据集,都是室内场景的RGBD图像,795张用于训练,654张用于测试。DAQUAR中的question/answer pairs主要有两种类型:自动生成的和人工标注的。
    2. COCO-QA
    COCO-QA数据集中的图像来自于MS-COCO数据集,主要包括123287张图像,其中72738张用于训练,38948用于测试,并且每张图像都有一个question/answer pair,每个answer都是一个单词。这些question/answer pair都是根据MS-COCO中的图像描述自动生成的。根据Answer可以将Question分为四类:object、number、color 和location。由于问题都是自动生成的,所以存在一定的重复率。
    3. FM-IQA
    FM-IQA也是基于MS-COCO,包含123,287张图像。它的question/answer pair是通过Amazon Mechanical Turk crowd-sourcing platform自动生成的。注释的人可以提出任何和图像相关的问题,使得FM-IQA相对于之前的数据集更加复杂。FM-IQA中的question/answer pair是中文的,之后才将其翻译成英文的。
    4. VQA dataset
    VQA dataset中的图像主要由两个部分组成:现实图像和抽象卡通图像。VQA-real中有123,287训练图像和81,434测试图像,主要来自于MS-COCO数据集。不同于之前的一些数据集,VQA-real中包含二元问题(i.e, yes/no)。这个数据集中可以进行多选设置,即为每个问题提供17个额外的错误的候选答案。综上所述,VQA-real包含614163个问题,并且每个问题都包含10个来自不同注视者的答案。
    5. Visual Genome
    Visual Genome包含108,249张图像,这些图像来自于YFCC100M和MS-COCO数据集,平均每张图像有17个Q/A pairs。到目前为止,这是最大的VQA数据集。Visual Genome的问题主要由6种”W”构成:what,where,how,when,who和why。
    6. Visual7W
    Visual7W是Visual Genome的一个子集,包含47,300张图像。Visual7W的问题主要由What, Where, How, When, Who,Why, and Which构成。Visual7W的问题是多选问题,每个问题都有四个候选答案。

    评价方法:

1.Accuracy
2.Wu-Palmer Similarity (WUPS)

作者:这样子的话
出处:http://blog.youkuaiyun.com/lsh894609937/article/details/61645283

### GMAI-MMBench 数据集的详细介绍及用途 #### 数据集概述 GMAI-MMBench 是由上海人工智能实验室等多家科研机构共同提出的多模态评估基准,旨在推动通用医学人工智能的发展[^2]。它涵盖了广泛的医学领域任务和数据类型,成为目前最为全面的通用医疗基准之一。 #### 数据集组成 GMAI-MMBench 包括以下核心组成部分: 1. **医学影像模态** 数据集中包含了 38 种不同的医学影像模态,这些影像是从多个公开资源中收集而来,能够支持多种医学影像分析任务,例如疾病检测、病变分类等。 2. **临床相关任务** 提供了 18 项与临床实践密切相关的任务,覆盖疾病的诊断、治疗方案推荐等多个方面。这使得研究人员可以更深入地探索如何将人工智能技术应用于实际医疗场景中。 3. **科室分布** 数据集涉及 18 个不同科室的数据,从而确保其广泛适用性和跨学科特性。这种设计有助于开发适用于特定专科需求的人工智能解决方案[^2]。 4. **感知粒度** 使用视觉问题问答(VQA)格式定义了四种感知粒度级别,进一步细化了对图像理解的要求,提高了模型评价标准的精确程度。 #### 主要特点 - **全球化视角**:该数据集整合了来自世界各地共 284 个下游任务数据集的信息,体现了国际化的视野和技术水平。 - **多样化应用**:不仅限于单一类型的医学数据分析,而是融合了影像、基因、文本等多种形式的内容,促进了综合性研究进展[^3]。 - **高质量标注**:所有数据均经过严格筛选和专业人员审核,保证了标签的一致性和准确性[^2]。 #### 应用方向 基于以上特征,GMAI-MMBench 可被广泛运用于以下几个方面: 1. 开发新型多模态学习框架,如 Med-Flamingo 和 LLaVA-Med 等,通过微调或测试来验证模型性能[^3]。 2. 推动中医现代化进程中的技术创新工作——比如利用 HuaTuoGPT-Vision 对传统中医药材图片进行智能化处理[^3]。 3. 构建更加精准高效的辅助诊疗系统,在减少误诊率的同时提高医疗服务效率[^2]。 ```python import pandas as pd # 示例代码展示如何加载并初步查看数据集结构 def load_gmai_mmbench_data(path_to_dataset): data = pd.read_csv(path_to_dataset) return data.head() example_output = load_gmai_mmbench_data('path/to/gmaimmbench.csv') print(example_output) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值