自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering论文解读

DFAF论文解读

2024-03-29 21:39:44 813 1

原创 多模态特征融合的方法总结:应用于VQA视觉问答

​​对于视觉问答任务而言,其中比较重要的部分就是两种模态的特征融合。目前对于特征融合最先进的技术是双线性池化,该技术有很多的变体。我们主要围绕双线性池化这种模态融合的方法展开总结。其中MUTAN方法的代码,我已经放在这个链接里面。本文仅供大家参考,所有方法均来自于论文,如有侵权,请联系我删除!

2024-03-09 22:50:05 1373 2

原创 论文所对应的Latex源码在哪里找?

最近在写论文,发现身边好多朋友都不知道对应期刊Latex的源码在哪里找。今天想简单的写个博客,教一下大家在哪里可以找得到源码。

2024-03-09 22:01:44 915 1

原创 VQAv2评估代码 - 使用教程

视觉问答VQA 评估系统

2024-03-06 17:43:23 3108 13

原创 VQA入门之“论文”《Stacked Attention Networks for Image Question Answering》

本节将要介绍一种新的特征融合方式,这篇论文的方法叫做堆叠注意力网络。那么从本节开始,所有的模型我会把原理讲清楚,然后用一个维度较低的例子带各位同学走一遍模型的前向传播。其思想是用编码后的文本向量去扫描编码后的图像的每个区域,然后得到每个区域的注意力分数,将注意力分数乘到每个区域上,然后求和,得到一个图像表示向量,然后将图像表示向量与编码后的文本向量求和得到融合后的向量。可能这样说有点抽象,没关系,相信你看完下面的内容再回过头来看这句话就会醍醐灌顶!

2024-02-07 09:59:49 1262 3

原创 VQA入门之“论文”《Exploring Models and Data for Image QuestionAnswering》基础的双模态相互作用

论文名字的翻译为:探索“图像问答”的模型和数据本文主要是讲一下这篇论文所提到的模型,一些其他部分(引言,实验等等),可以自行去原论文查看。制作不易,求个关注~~下期间h_0h_0x_1h_1c_1h_1h_T。

2024-02-05 21:03:08 622 1

原创 VQA入门(模型原理+模型代码)之《简单的模态融合交互》

本文所介绍的VQA模型是一种最简单的VQA多模态交互模型。模型的关键点在于提取图像特征(Image_feature)和文本的特征(qst_feature),然后通过逐元素乘法将两种模态的特征融合到一起。这是一种早期的模态融合方法。欢迎对多模态感兴趣的朋友来互相学习讨论~图画的不好,还请见谅,下面的具体模型部分会再次讲解。Fig1:模型示意图Step1:假设训练样本的一张图像是[3,224,224]的,也就是一张图像有三个通道,图像的长和宽均为224,则训练样本为:x = [batch_size,3,224,

2024-02-04 19:58:13 2603 1

多模态特征融合的方法总结:应用于VQA视觉问答

项目代码地址:https://github.com/nuistzimoli/MUTAN-for-VQA

2024-03-09

Bilinear Attention Network论文解读,以及详细的双线性池化及其各种变种的解读

本文总结了双线性池化(Bilinear Pooling)、双线性模型等价于双线性池化、低秩双线性池化(LBP、MLBP),因式分解双线性池化(MFBP),解读非常详细,每个向量和矩阵的维度标注的非常清楚。同时也总结了BAN双线性注意力网络的原理。

2024-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除