Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge阅读笔记

本文探讨了一种基于深度神经网络的VQA模型,通过sigmoid输出处理多正确答案,采用软分数作为目标,使用门控tanh激活,自下而上注意力的图像特征,预训练的候选答案表示等技巧,提升模型性能。实验表明,这些设计选择对VQA模型的性能有显著影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文提出了一种基于深度神经网络的VQA模型,并报告了一套广泛的实验来确定每个设计选择的贡献和替代设计的性能。它提供了关于VQA模型各个组件重要性的指示器,
一、Summary of findings
1.使用一个sigmoid输出,允许每个问题的多个正确答案,而不是一个常见的单标签softmax。
2.使用软分数作为ground truth目标,将任务作为候选答案分数的回归,而不是传统的分类问题。
3.在所有非线性层中使用门控tanh激活。
4.使用自下而上注意的图像特征来提供特定区域的特征,而不是使用CNN的传统网格状特征图。
5.使用预先训练好的候选答案表示来初始化输出层的权重。
6.随机梯度下降过程中训练数据的大规模小批量智能改组。
二、框架介绍
完整的模型如下图所示。它实现了对问题/图像的联合RNN/CNN嵌入,将问题引导注意力置于图像上,然后在一个固定的候选答案集上使用多标签分类器。灰度表示层之间的向量表示的维数。黄色元素使用学习过的参数。
在这里插入图片描述
2.1 Question embedding
每个实例的输入——无论是在训练时还是测试时——都是一个文本问题和一个图像。问题被标记,即首先用空格和标点符号分割成单词。任何数字或基于数字的单词(例如10,000或2:15pm)也被认为是一个单词。为了提高计算效率,问题被削减到最多14个单词,丢弃多余的单词。但是数据集中只有0.25%的问题超过14个单词。每个单词都被转换成带有一个查询表的向量表示,查询表的条目是在训练期间沿着其他参数学习的300维向量。然而ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值