CVPR 2019关于Attention导读与Bottom-up代码修改（已附github链接）

最新推荐文章于 2024-12-25 10:41:27 发布

原创

最新推荐文章于 2024-12-25 10:41:27 发布 · 1.8k 阅读

CC 4.0 BY-SA版权

文章标签：

本文精选CVPR2019中视觉理解领域的前沿论文，包括注意力机制在VQA任务中的创新应用、CNN解释性增强、弱监督目标定位及多模态融合等，深入解析每项工作的动机、模型架构与实验结果。

本文为随笔，主要记录个人寒假的一些工作情况，其中2月份因病休息了两周

This list is filtered by one of the following keywords: attention, visual question answering

Deep Modular Co-Attention Networks for Visual Question Answering
这篇文章将Transformer的结构引入到VQA中，并设计了两个attention的模块：SA(self-attention)与GA(guided-attention), 如下图：
tylukf
依照上图的module，可以组成更深度的attention模块。作者将该方法与dense attention的方法进行了比较（如BAN、MFH等），随着attention层数的递增，该方法的performance有更显著的提高。在此基础上，作者有提出了两种层数的叠加策略（inspired by the transformer）:

另外作者做了三部分实验，值得我们参考：第一部分为MCAN(Modular Co-attention Net