
论文阅读
文章平均质量分 95
枉费红笺
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【CVPR2022】DIFNet: Boosting Visual Information Flow for Image Captioning
这项工作提出了DIFNet来生成忠实于给定图像的描述。首先利用分割特征,通过迭代独立LN(IILN)融合模块增强网格视觉表示,以最大限度地利用两个信息流。还使用额外的跳跃连接来增强编码器和解码器内部和之间的信息流,以保护一些脆弱的视觉信息。实验表明,具有分割特征的各种变换器变体得到了更好的性能,具有分割特征的DIFNet超过了最先进的方法。全面的消融研究揭示了导致这一成功的几个关键因素,并表明双重信息流在提升预测对视觉内容的依赖性方面非常有效。原创 2023-05-08 22:20:02 · 902 阅读 · 2 评论 -
【CVPR2020】Meshed-Memory Transformer for Image Captioning
【CVPR2020】Meshed-Memory Transformer for Image Captioning引言原创 2021-09-25 13:16:01 · 2345 阅读 · 0 评论 -
【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning
【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning附: 论文下载地址论文主要贡献提出了一种新的双层协同Transformer网络(DLCT),实现了区域特征和网格特征的互补性。在MS-COCO数据集上的大量实验证明了该方法的优越性。提出了位置约束交叉注意(LCCA)来解决两个特征源直接融合引起的语义噪声问题。利用所构建的几何对齐图,LCCA不仅能准确实现不同源特征之间的交互,还能通过交叉注意融合增强各种特征。首次原创 2021-09-07 17:25:41 · 2702 阅读 · 2 评论 -
[AAAI2020]MemCap:Memorizing Style Knowledge for Image Captioning
MemCap:Memorizing Style Knowledge for Image Captioning论文主要贡献提出了一种基于MemCap的风格化的图像描述方法,使用style memory module(风格记忆模块)来记忆关于语言风格的知识,并根据图片中的内容来检索这些知识。提出了一种sentence decomposing algorithm(句子分解算法),自动将风格相关部分从风格句子中分离出来,以促进风格记忆模块的学习。在多个数据集上进行的大量实验表明,与现有的方法相比,该方法具原创 2021-08-01 22:55:58 · 654 阅读 · 0 评论 -
[CVPR2018]Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
Bottom-Up and Top-Down Attention附:论文下载地址主要贡献提出了一个新的LSTM组合模型,包括了attention LSTM和language LSTM 两个组件。在这个组合模型的基础上引入spatial attention机制(类似于《show,attend and tell》的top-down attention机制)。引入了bottom-up,bottom-up机制基于 Faster R-CNN提取出图像区域,每个区域具有相关的特征向量。为了提升提取特征的能力原创 2021-07-13 09:50:45 · 607 阅读 · 0 评论