- 博客(7)
- 收藏
- 关注
原创 Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering论文解读
DFAF论文解读
2024-03-29 21:39:44
813
1
原创 多模态特征融合的方法总结:应用于VQA视觉问答
对于视觉问答任务而言,其中比较重要的部分就是两种模态的特征融合。目前对于特征融合最先进的技术是双线性池化,该技术有很多的变体。我们主要围绕双线性池化这种模态融合的方法展开总结。其中MUTAN方法的代码,我已经放在这个链接里面。本文仅供大家参考,所有方法均来自于论文,如有侵权,请联系我删除!
2024-03-09 22:50:05
1373
2
原创 论文所对应的Latex源码在哪里找?
最近在写论文,发现身边好多朋友都不知道对应期刊Latex的源码在哪里找。今天想简单的写个博客,教一下大家在哪里可以找得到源码。
2024-03-09 22:01:44
915
1
原创 VQA入门之“论文”《Stacked Attention Networks for Image Question Answering》
本节将要介绍一种新的特征融合方式,这篇论文的方法叫做堆叠注意力网络。那么从本节开始,所有的模型我会把原理讲清楚,然后用一个维度较低的例子带各位同学走一遍模型的前向传播。其思想是用编码后的文本向量去扫描编码后的图像的每个区域,然后得到每个区域的注意力分数,将注意力分数乘到每个区域上,然后求和,得到一个图像表示向量,然后将图像表示向量与编码后的文本向量求和得到融合后的向量。可能这样说有点抽象,没关系,相信你看完下面的内容再回过头来看这句话就会醍醐灌顶!
2024-02-07 09:59:49
1262
3
原创 VQA入门之“论文”《Exploring Models and Data for Image QuestionAnswering》基础的双模态相互作用
论文名字的翻译为:探索“图像问答”的模型和数据本文主要是讲一下这篇论文所提到的模型,一些其他部分(引言,实验等等),可以自行去原论文查看。制作不易,求个关注~~下期间h_0h_0x_1h_1c_1h_1h_T。
2024-02-05 21:03:08
622
1
原创 VQA入门(模型原理+模型代码)之《简单的模态融合交互》
本文所介绍的VQA模型是一种最简单的VQA多模态交互模型。模型的关键点在于提取图像特征(Image_feature)和文本的特征(qst_feature),然后通过逐元素乘法将两种模态的特征融合到一起。这是一种早期的模态融合方法。欢迎对多模态感兴趣的朋友来互相学习讨论~图画的不好,还请见谅,下面的具体模型部分会再次讲解。Fig1:模型示意图Step1:假设训练样本的一张图像是[3,224,224]的,也就是一张图像有三个通道,图像的长和宽均为224,则训练样本为:x = [batch_size,3,224,
2024-02-04 19:58:13
2603
1
Bilinear Attention Network论文解读,以及详细的双线性池化及其各种变种的解读
2024-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人