zimoli-nuist-优快云博客

原创 Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering论文解读

DFAF论文解读

2024-03-29 21:39:44 905 1

原创多模态特征融合的方法总结：应用于VQA视觉问答

对于视觉问答任务而言，其中比较重要的部分就是两种模态的特征融合。目前对于特征融合最先进的技术是双线性池化，该技术有很多的变体。我们主要围绕双线性池化这种模态融合的方法展开总结。其中MUTAN方法的代码，我已经放在这个链接里面。本文仅供大家参考，所有方法均来自于论文，如有侵权，请联系我删除！

2024-03-09 22:50:05 1600 2

原创论文所对应的Latex源码在哪里找？

最近在写论文，发现身边好多朋友都不知道对应期刊Latex的源码在哪里找。今天想简单的写个博客，教一下大家在哪里可以找得到源码。

2024-03-09 22:01:44 1502 1

原创 VQA入门之“论文”《Stacked Attention Networks for Image Question Answering》

本节将要介绍一种新的特征融合方式，这篇论文的方法叫做堆叠注意力网络。那么从本节开始，所有的模型我会把原理讲清楚，然后用一个维度较低的例子带各位同学走一遍模型的前向传播。其思想是用编码后的文本向量去扫描编码后的图像的每个区域，然后得到每个区域的注意力分数，将注意力分数乘到每个区域上，然后求和，得到一个图像表示向量，然后将图像表示向量与编码后的文本向量求和得到融合后的向量。可能这样说有点抽象，没关系，相信你看完下面的内容再回过头来看这句话就会醍醐灌顶！

2024-02-07 09:59:49 1417 3

原创 VQA入门之“论文”《Exploring Models and Data for Image QuestionAnswering》基础的双模态相互作用

论文名字的翻译为：探索“图像问答”的模型和数据本文主要是讲一下这篇论文所提到的模型，一些其他部分（引言，实验等等），可以自行去原论文查看。制作不易，求个关注~~下期间h_0h_0x_1h_1c_1h_1h_T。

2024-02-05 21:03:08 750 1

原创 VQA入门（模型原理+模型代码）之《简单的模态融合交互》

本文所介绍的VQA模型是一种最简单的VQA多模态交互模型。模型的关键点在于提取图像特征(Image_feature)和文本的特征(qst_feature)，然后通过逐元素乘法将两种模态的特征融合到一起。这是一种早期的模态融合方法。欢迎对多模态感兴趣的朋友来互相学习讨论~图画的不好，还请见谅，下面的具体模型部分会再次讲解。Fig1:模型示意图Step1：假设训练样本的一张图像是[3,224,224]的，也就是一张图像有三个通道，图像的长和宽均为224，则训练样本为：x = [batch_size,3,224,

2024-02-04 19:58:13 3452 2

多模态特征融合的方法总结：应用于VQA视觉问答

项目代码地址：https://github.com/nuistzimoli/MUTAN-for-VQA

2024-03-09

Bilinear Attention Network论文解读，以及详细的双线性池化及其各种变种的解读

本文总结了双线性池化（Bilinear Pooling）、双线性模型等价于双线性池化、低秩双线性池化（LBP、MLBP），因式分解双线性池化（MFBP），解读非常详细，每个向量和矩阵的维度标注的非常清楚。同时也总结了BAN双线性注意力网络的原理。

2024-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

2301_78651472的博客