
图像描述
文章平均质量分 95
@小明月
当你背单词时,阿拉斯加的虎鲸正跃出水面;当你算数学时,南太平洋的海鸥正掠过海岸;当你晚自习时,地球的极圈正五彩斑斓..….
展开
-
Image Captioning: Transforming Objects into Words论文阅读笔记
虽然基于目标检测的编码器代表了最先进的技术,但是目前它们没有利用有关检测到的对象之间的空间关系的信息,例如相对位置和大小。然而,这些信息通畅对于理解图像中的内容直观重要,并且被人类在推理物理世界时使用。例如:相对位置可以帮助区分“骑着马的女孩”和“站在马旁边的女孩”。同样,相对大小可以帮助区分“弹吉他的女人”和“弹尤克里里的女人”。正如以下文献所示,结合空间关系已被证明可以提高对象检测本身的性能。原创 2024-04-09 11:16:23 · 864 阅读 · 1 评论 -
Meshed-Memory Transformer for Image captioning代码复现---(连接服务器)手把手一步一步实现自用
3.但是这样还是不能解决这个问题,我的路径好像赋值不够准确(sorry)再进行查看,发现train.py的161行对detections_path用args.features_path进行了赋值,所以要继续查看这个args.features_path,我尝试打印args.features_path的值,果然打印出来是None。(下载真的慢的要死)我忽略了一点,我要用m2release这个虚拟环境的话,需要在终端(terminal)进入服务器映射文件,激活m2release,然后再用。原创 2024-04-08 10:46:17 · 1601 阅读 · 4 评论 -
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering论文阅读笔记
自上而下的注意力机制已广泛应用于图像描述和视觉问答(VOA)中,以通过细粒度分析(fine-grained analysis)甚至多个推理步骤实现更深入的图像理解。在这项工作中,本文作者提出一种自上而下和自下而上相结合的注意力机制,可以在对象和其他显著图像区域的级别上计算注意力。这是考虑注意力的自然基础。在我们的方法中,自下而上的机制(基于Faster R-CNN)提出图像区域,每个区域都有一个关联的特征向量,而自上而下的机制确定特征权重。原创 2024-04-02 22:45:57 · 972 阅读 · 1 评论 -
A Position-Aware Transformer for Image Captioning--------论文阅读笔记
近些年来,编码器-解码器模型已成为主流方法,其中CNN和LSTM用于对图像内容进行自然语言描述。在这些方法中,视觉注意力被广泛使用,通过fine-grained analysis(细粒度分析)甚至多步骤推理来实现更深入的图像理解。然而,大多数传统的视觉注意力机制都是基于高层图像特征,忽略了其他图像特征的影响,并且没有充分考虑图像特征之间的相对位置。在本文中,作者针对上述问题,提出了一种具有图像特征注意力和位置注意力机制的Positive-Aware Transformer模型。原创 2024-04-01 16:54:26 · 837 阅读 · 1 评论 -
Meshed-Memory Transformer for Image captioning论文阅读笔记------自用
基于Transformer的架构代表了机器翻译和语言理解等序列建模任务的最新技术。但是,他们在图像描述等多模态环境中的适用性仍很大程度上尚未得到充分探索。为了填补这一空白,本文提出了M2M^2M2该架构改进了图像编码和语言生成步骤:它学习了图像区域之间关系的多层表示,集成了所学的先验知识,并在解码阶段使用网格状连接来利用低级和高级特征。通过实验,本文作者将M2M^2M2Transformer和不同fully-attentive models与循环模型进行性能比较。原创 2024-03-27 17:48:24 · 1425 阅读 · 1 评论 -
SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning论文阅读笔记
SCA-CNN原创 2024-03-20 11:49:13 · 1108 阅读 · 0 评论 -
Show,Attend and tell代码复现---pytorch方法手把手一步一步实现
复现Show,Attend and tell代码原创 2024-03-11 16:33:03 · 1878 阅读 · 4 评论 -
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning论文阅读笔记
像上一篇show,attend and tell论文中,要求预测生成a,of这些不能与图像中的视觉信息相对应的虚词,量词时,仍然要关注一块区域与这些词对应起来。这种情况其实是没有必要的。本文解决的就是这种问题。在这篇文章中,提出了一种新颖的带有视觉哨兵(visual sentinel)的自适应注意力模型( adaptive attention model)。在每个时间步骤,模型决定是否关注图像(如果关注,关注哪些区域)或视觉哨兵。原创 2024-03-08 17:35:28 · 1070 阅读 · 0 评论 -
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention论文笔记
图像描述-加注意力机制原创 2023-10-25 22:57:03 · 917 阅读 · 1 评论 -
Deep Visual-Semantic Alignments for Generating Image Descriptions论文笔记
图像描述论文阅读笔记原创 2023-10-21 15:56:25 · 627 阅读 · 1 评论