背景
这篇论文的工作来自Google研究院。作者提出B2T2模型(“Bounding Boxes in Text Transformer”),B2T2是一个任务特定模型(文中也只在VCR任务进行了评测),B2T2是一个将vision和language combine起来作为输入的single-stream架构。作者提到视觉特征与文本特征的early fusion是模型取得良好成效的关键。
动机
vision-linguistic任务的一大难点在于如何在神经架构中编码视觉和语言特征。诸如文本实体如何绑定到图像中可见的区域、视觉特征与文本特征究竟是前融合还是后融合好?跨模态协同引用是如何编码的?在编码句子语义之前先在视觉世界中定义单词是否有意义等等尚未有明确的答案。作者通过实验研究发现了前融合的有效性,此外,模型获得越多的视觉特征取得的效果越好(感觉是肯定的?),图像中区域的位置信息也很有价值。
问题定义
假设输入数据的格式是元组形式(I,B,T,l)(I,B,T,l)(I,B,T,l)
III是图像,B=[b1,b2,...,bm]B=[b_1,b_2,...,b_m]B=[b1,b2,...,b

Google研究院提出B2T2模型,通过早期融合视觉和语言特征,改善视觉问答任务的性能。文章对比了双编码器与B2T2,指出在token层面结合图像和文本信息的重要性,并在VCR任务中取得良好效果。
最低0.47元/天 解锁文章

1916

被折叠的 条评论
为什么被折叠?



