2017 VQA Challenge 第一名技术报告

本文介绍了2017年VQA Challenge的第一名技术报告,强调了在解决多模态问题如VQA时,工程上的技巧和调整可能比新颖的算法更重要。报告详细列举了一系列用于提高性能的trick,包括将VQA视为多类别分类问题、使用gated tanh激活函数、利用预训练特征初始化和底部向上图像特征等。这些方法不仅适用于VQA,也可能对其他多模态任务有益。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者丨罗若天

学校丨TTIC博士生

研究方向丨NLP,CV


1. 前言


之前听 Chris Manning 讲过一个 talk,说他们复现别人的 paper,按照别人的算法写,做到了比原本那篇 paper 高了 10 个点的结果。还有听认识的同学说,有一年因为算法的 performance 不够好论文被拒了,第二年重新回过去跑那个代码,随便调了调,performance 就比当时他们提交的时候高了很多。


我们做玄学的,好的 idea 固然重要,然而一个好的 idea 可能带来的效果的提升还不如一个好的 trick。当然啦,最好的是 trick 又有效,而且也有一个好的故事。


所以,这里推荐今年 VQA Challenge 的一篇技术报告,名字叫:


Tips and Tricks for Visual Question Answering


从名字就可以看出来,这篇文章没有任何新颖的 idea,完全就是工程上的脏活累活,但是将作者试的所有结构都列举了出来,并做了详细的 ablation study。 


虽然这篇文章中只讨论了在 VQA 上的 performance,但是可能这些 trick 也能用到其他多模态的问题上。就算不能用,这篇文章至少也告诉了你,你有哪些东西可以调。 


大家可以把这篇稿子当作一篇翻译稿,我自己也不是做 VQA,所以有些东西可能不是很精准,所以我就按照论文里怎么说怎么来,我就不多做评论了。


论文地址:https://arxiv.org/abs/1708.02711 


PPT(作者获奖后做的报告):

http://cs.adelaide.edu.au/~Damien/Research/VQA-Challenge-Slides-TeneyAnderson.pdf


2. VQA 背景


VQA 全称是 visual question answering。形式是给一个图片和一个关于这张图片的问题,输出一个答案。 



VQA 的挑战之处在于,这是一个多模态的问题,你需要同时了解文字和图片,并进行推理,来得到最后的答案(如果需要用到 common sense 常识的话就更困难了)。类似的多模态的问题有 image captioning,visual dialog 等等。


3. 数据集


大家比较常用的数据集就是 VQA 这个数据集,来自 Gatech 和微软;他们在去年发布了第一个版本。由于这个数据集很新,所以还存在一些问题:你可以用简单的通过死记硬背来回答对很多问题,获得 ok 的效果。比如

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值