Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

本文介绍CVPR2018一篇关于图像描述生成(Image Captioning)及视觉问题回答(Visual Question Answering)的文章。该研究在2017 VQA Challenge中获得第一,并在图像描述生成方面取得了显著成果。

这是CVPR2018 Oral的一篇关于 Image Captioning和Visual Question Answering的文章,paper链接https://arxiv.org/abs/1707.07998,作者的homepage http://www.panderson.me/,code已经被released出来了https://github.com/peteanderson80/bottom-up-attention
文章要做的事情:
image caption + visual question answer
文章中show出来的关于image caption和visual question answer的实验结果。
example caption
example VQA

这篇文章的实验结果很好, 2017 VQA Challenge第一名,image caption方面也与很多最新的方法进行了比较,文章列出了很多trick,但framework没有讲清楚,没看明白,以后再看看。

<think> 我们正在处理关于bottom-up-attention-vqa-master项目的数据集查询。根据引用[1]中的信息,我们得知该项目使用了一个答案数据集(answers_dset)和答案到标签的映射(ans2label)。但是,引用中并没有明确提到具体的数据集名称。 然而,根据常见的VQA(Visual Question Answering)研究,bottom-up-attention-vqa项目通常使用的是VQA v2.0数据集。这是因为该项目的主要论文"Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering"中明确使用了VQA v2.0数据集。 因此,我们可以推断bottom-up-attention-vqa-master使用的数据集是VQA v2.0。 为了确认,我们可以查看该项目的官方GitHub仓库(通常位于https://github.com/hengyuan-hu/bottom-up-attention-vqa)或相关文档。但根据我们的知识和引用信息,VQA v2.0是最可能的。 因此,回答用户:bottom-up-attention-vqa-master使用的数据集是VQA v2.0。 此外,我们还可以提供一些关于VQA v2.0数据集的额外信息,例如它包含的图像来源、问题数量、答案分布等,以丰富回答。 但请注意,引用[1]中并没有直接给出数据集名称,所以我们主要依靠领域常识进行推断。 如果用户需要更详细的信息,可以建议他们查阅项目文档或相关论文。 根据以上分析,我们给出回答。 </think>根据项目背景和常见实践,**bottom-up-attention-vqa-master 主要使用 VQA v2.0 数据集**,这是视觉问答(VQA)领域最广泛使用的基准数据集。以下是关键信息: ### 数据集组成 1. **图像数据** - 来源:COCO 2014 数据集(约 12.8 万张图像) - 内容:日常场景图片,包含 80 个物体类别 - 格式:`.jpg` 文件,分辨率可变 2. **问答数据** - 问题数量:约 265 万条(训练集 443k,验证集 214k,测试集 448k) - 答案类型:开放式(每问题 10 个众包答案) - 示例结构(引用您提供的代码格式): ```python { 'question_id': 1, 'image_id': 101, 'answers': [{'answer': 'yes'}, {'answer': 'yes'}, {'answer': 'no'}] # 10个答案的简化示例 } ``` 3. **预提取特征** 项目使用预计算的视觉特征(bottom-up attention): - **对象检测特征**:基于 Faster R-CNN 提取的 36 个显著区域特征 - **存储方式**:`.h5` 文件(每个图像对应一个 $36 \times 2048$ 特征矩阵) ### 数据集下载 - **官方来源**: [VQA v2.0 官网](https://visualqa.org/download.html)(需注册) - **预提取特征**: 项目通常提供特征文件下载(约 25GB),详见项目 README 的 *Data Preparation* 部分 ### 数据处理流程 如您提供的代码所示,项目通过 `compute_target()` 函数将答案映射为训练标签: ```python # ans2label 示例:{'yes':0, 'no':1, ...} target = compute_target(answers_dset, ans2label) # 输出带权重的标签向量 ``` 输出结果如: ``` Labels: [0, 2] # 代表答案"yes"和"dog" Scores: [0.67, 0.33] # 根据答案频率计算权重 ``` ### 备选数据集 部分实验可能兼容: 1. **Visual7W**(图像指代问答) 2. **GQA**(组合式问答) 但核心评测仍基于 VQA v2.0[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值