
图像描述
文章平均质量分 80
枉费红笺
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【CVPR2022】DIFNet: Boosting Visual Information Flow for Image Captioning
这项工作提出了DIFNet来生成忠实于给定图像的描述。首先利用分割特征,通过迭代独立LN(IILN)融合模块增强网格视觉表示,以最大限度地利用两个信息流。还使用额外的跳跃连接来增强编码器和解码器内部和之间的信息流,以保护一些脆弱的视觉信息。实验表明,具有分割特征的各种变换器变体得到了更好的性能,具有分割特征的DIFNet超过了最先进的方法。全面的消融研究揭示了导致这一成功的几个关键因素,并表明双重信息流在提升预测对视觉内容的依赖性方面非常有效。原创 2023-05-08 22:20:02 · 902 阅读 · 2 评论 -
图像描述的注意力可视化
同时在我们的实验结果分析里,除了一些冷冰冰的数据支撑之外,可视化的展示也可以更直观地让读者感受到模型的效果。常规的可视化包括:模型结构的可视化、卷积参数的可视化、训练过程的可视化、热图可视化等。此时就需要进行注意力的可视化展示,图像描述的可视化效果如下图所示,当我们生成或预测某个单词时,注意力就会重点关注图像中相应的区域,可以更直观的让我们感受的注意力到底是什么东西,它在我们模型的训练过程中以一种什么样的作用存在。我们理论上可以解释的通,但注意力在模型的训练过程中到底是怎么作用的呢?原创 2022-09-16 11:13:43 · 5115 阅读 · 0 评论 -
图像描述(Image Captioning)的评价指标理论理解
这些指标都是用于评价文本生成质量的,大概做法都是比较某条候选文本(一般是机器生成的)和其他若干参考文本(一般是人类标注的)的相似性,不过适用场合略有区别:BLEU, METEOR, ROUGE 一般在翻译里用,ROUGE主要用于摘要评估,CIDEr和 SPICE一般在图像描述生成里用。原创 2023-03-07 23:04:22 · 2377 阅读 · 0 评论