
视觉问答
文章平均质量分 87
snow5618
梦在远方,路在脚下,初心不忘,方可抵达。
展开
-
知识蒸馏之手写体识别
知识蒸馏本文主要是根据该网站视频(https://www.bilibili.com/video/BV1s7411h7K2?t=906)进行总结,如有理解误差,望批评指点1. 首次提出首次提出:https://arxiv.org/pdf/1503.02531.pdf作者的动机是想找到一个方法,把多个模型的知识提炼给单个模型。虽然现在很多分类模型都采用交叉熵衡量预测值与真实值,然而真实值采用的one-hot向量所能提共的信息没有概率分布多。原理:概率分布比onehot更能提供信息-暗知识。lo原创 2021-04-22 11:56:45 · 511 阅读 · 2 评论 -
【论文阅读笔记】SCR: Self-Critical Reasoning for Robust Visual Question Answering
论文地址:https://arxiv.org/pdf/1905.09998v3.pdf项目地址:https://github.com/jialinwu17/Self_Critical_VQA摘要Visual Question Answering (VQA) deep-learning systems tend to capture superfi-cial statistical correlations in the training data because of strong language原创 2021-03-23 17:13:19 · 559 阅读 · 0 评论 -
视觉问答VQA论文近期总结
声明:全是结合论文加自己简单理解,可能存在理解错误,望见谅,不足很多没写,欢迎补充。论文笔记总结1. 写在前面模型的实验准确度对比如下:Y/NNumOtherAlltest-std All年份SAN79.336.646.158.758.92016H-COA79.738.751.761.862.12017MUTAN85.1439.8158.5267.4267.362017BAN85.4254.0460.52.原创 2020-12-22 19:02:31 · 1756 阅读 · 1 评论 -
Detecting Visual Relationships with Deep Relational Networks
用深度关系网络检测视觉关系物体之间的关系在图像理解中起着重要的作用,以前的研究方法将“关系”作为一个分类问题,每一种关系类型(如:‘骑’)或每个不同的视觉短语(如‘人-骑-马’)作为一个类别。但这种存在缺陷,例如视觉外观多样,视觉短语多样。针对此,本文建立一个综合框架来解决这个问题。框架的核心就是 深度关系网络1. 引言早期将视觉关系视为一个分类任务,考虑将对象和关系谓词的不同组合作为一个类,但是会遇到很多不平衡类,例如视觉基因组中有超过75k不同的视觉短语,每个短语的样本数量从少量到超过10k不等,原创 2020-12-13 18:51:00 · 430 阅读 · 0 评论 -
图卷积网络在文本和视频的关系对齐中的应用
1.写在前面原文来自知网《基于视觉-文本关系对齐的跨模态视频片段检索》这是一篇关于利用文本进行视频片段检索的论文。2.论文要点论文总结了前人研究工作的缺点,并借助图结构在表达关系时的强大能力与图卷积网络的近年发展,,提出了跨模态关系对齐的图卷积框架 CrossGraphAlign,具体就是CrossGraphAlign首先为查询文本和待检索视频分别生成文本关系图和视觉关系图。接着CrossGraphAlign中的视觉-文本关系对齐的图卷积网络试图匹配一段时间内的文本关系图和视觉关系图。最后基于匹配原创 2020-12-13 11:34:08 · 545 阅读 · 0 评论 -
【结果分析】之murel项目结果分析
1.murel:视觉问答VQA中的多模态关系推理项目介绍本次结果是第20个epoch,采用的是验证集的results文件,由于中途断了,导致没有执行测试集test.2.结果分析我们评估采用的使官网提供的eval,2.1 结果Overall Accuracy is: 64.50Per Question Type Accuracy is the following:none of the above : 58.44what are the : 50.41what is : 43.08原创 2020-11-23 18:09:19 · 394 阅读 · 0 评论 -
【数据分析】之ReGat的VQAFeaturesDataset加载
1 .VQAFeatureDataset此类是ReGat项目对torch自带的from torch.utils.data import Dataset的重写,是模型运行的时候训练集和测试集的加载,加载的数据是模型forward函数的参数。如下:regat.forward(): def forward(self, v, b, q, implicit_pos_emb, sem_adj_matrix, spa_adj_matrix, labels): "原创 2020-11-17 12:34:25 · 619 阅读 · 3 评论 -
【结果分析】之block项目
blockvqa项目介绍1.vqaEval# This code is based on the code written by Tsung-Yi Lin for MSCOCO Python API available at the following link: # (https://github.com/tylin/coco-caption/blob/master/pycocoevalcap/eval.py).import sysimport reclass VQAEval: de原创 2020-11-23 16:57:25 · 557 阅读 · 0 评论 -
【数据处理】之读取hdf5文件
hdf5文件HDF5是一种常见的跨平台数据存储文件,可以存储不同类型的图像和数码数据,并且可以在不同类型的机器上传输,同时还有统一处理这种格式的函数库HDF5文件一般以.h5和.hdf5作为后缀名,hdf5文件结构中有2个主要对象:Groups和Datasets,Groups:类似于文件夹,每个hdf5文件其实就是根目录groupDatasets:类似于Numpy中的数组hdf5读取参考#!/usr/bin/python# -*- coding: UTF-8 -*-## Create原创 2020-11-14 17:43:24 · 6431 阅读 · 1 评论 -
【数据处理】pth文件读取
1. 数据处理首先将json文件(如下),经过一系列处理好保存在trainset.pth文件中1.1 json文件数据预处理----trainset.pth文件 self.path_trainset = osp.join(self.subdir_processed, 'trainset.pth') #将vqa2.0json文件处理好后存放的地方 def process(self): dir_ann = osp.join(self.dir_raw, 'annota原创 2020-11-12 11:02:10 · 9890 阅读 · 1 评论 -
【数据处理】之读取csv文件报错
报错1:OverflowError: Python int too large to convert to C long将csv.field_size_limit(sys.maxsize)更改为下:import sysmaxInt = sys.maxsizedecrement = Truewhile decrement: decrement = False try: csv.field_size_limit(maxInt) except OverflowE原创 2020-11-12 09:25:18 · 1066 阅读 · 1 评论 -
视觉问答项目
视觉问答项目1. 项目地址本笔记项目包括如下:MCAN(Deep Modular Co-Attention Networks for Visual Question Answering)用于VQA的深层模块化的协同注意力网络项目地址:MCAN_paper代码地址:MCAN_codemurel(Multimodal Relational Reasoning for Visual Question Answering)视觉问答VQA中的多模态关系推理项目地址:murel_paper原创 2020-11-12 11:15:04 · 1995 阅读 · 7 评论 -
pytorch之Bootstrap简单介绍
根据 bootstrap.pytorch官方翻译的1 简介Bootstrap是启动深度学习项目的高级框架。它旨在通过提供只关注数据集和模型的强大工作流来加速研究项目和原型开发。1.1 下载pip install bootstrap.pytorch2 内容bootstrap包含Engine(启动引擎),Dataset(数据集),Model(模型),Options(选择),Logger(日志),View(评估可视化)模块,具体内容如下:2.1 EngineBoostrap的核心是boo.原创 2020-11-08 22:36:07 · 1736 阅读 · 2 评论 -
[论文阅读笔记]:LEARNING TO COUNT OBJECTS IN NATURAL IMAGES FOR VISUAL QUESTION ANSWERING
物体计数在VQA任务中的应用摘要Visual Question Answering (VQA) models have struggled with counting objects in natural images so far. We identify a fundamental problem due to soft attention in these models as a cause. To circumvent this problem, we propose a neural net原创 2020-10-22 12:24:33 · 984 阅读 · 1 评论 -
Multi-modality Latent Interaction Network for Visual Question Answering 面向视觉问题回答的多模态潜在交互网络
摘要现有的VQA技术大多是对单个视觉区域和单词之间的关系进行建模,这不足以正确回答问题,从人类角度考虑,回答视觉问题需要理解视觉和问题信息的概要。本文提出MLI模块,能够学习潜在的视觉和语言的概要之间的跨模态关系,该模式将视觉区域和问题汇总为少量的潜在表示,从而避免对单个区域和单词关系进行建模。这种潜在的表示融合了两种模式的有价值的信息,并被用于更新视觉和语言的特征。这个MLI模块可以堆叠多个阶段,以对两种模式之间的复杂和潜在关系进行建模。1.引言在视觉问答技术中,之前的研究涉及:获取更好的图像特征和原创 2020-10-11 11:39:44 · 628 阅读 · 0 评论 -
MUREL: 多模态关系建模
MUREL本文主要简洁介绍下模型的主要内容,具体引言,相关工作和与别的模型比较的地方,先不介绍。1. 论文的主要贡献提出了MuRel概念(多模态关系),引入了MuRel Cell 包含(通过双线性模型融合来表示问题向量q和区域向量si之间的丰富的细粒度交互(图1左框),对成对结合区域关系进行建模的结构(提供每个区域的上下文感知嵌入xi)(图1右框)),si^ 为si的残差函数是一个cell的输出。MuRel网络,迭代多个MuRel Cell,逐渐细化图像和问题的交互。(图2)原创 2020-10-06 12:24:02 · 1287 阅读 · 0 评论 -
注意力之双线性模型注意力
本文主要针对两篇论文:双线性注意力网络模型和深度模块化注意力进行总结,加上自己对其的理解。若有不足,还望指出。论文地址:双线性注意力网络深度模块化注意力项目地址:双线性注意力网络深度模块化注意力0. 写在前面首先我们要知道什么是注意力机制和什么是双线性模型0.1 注意力机制注意力一词来源与我们自身的视觉系统,现实生活中,我们观察事物倾向于将信息集中进行分析而忽略掉图像中的无关信息。同样,在计算机视觉研究领域中,也存在类似情况,例如VQA任务,可能只有图像中的个别对象与我们的答案有关,.原创 2020-09-22 14:23:59 · 9317 阅读 · 1 评论 -
MUTAN:Multimodal Tucker Fusion For Visual Question Answering
MUTAN:Multimodal Tucker Fusion For Visual Question Answering1. 摘要虽然Bilinear models(双线性模型)在VQA中能够很好的融合信息,帮助学习问题意义和图像内容之间的高级关联,但是存在高维度问题,所以本文引入MUTAN概念——基于多模态张量Tucker分解,能够有效的在视觉和文本的双线性交互(Bilinear models)的模型中进行参数化,除Tucker分解之外,还设计了基于矩阵的低秩分解 来明确限制交互等级。2. 引言V原创 2020-09-19 21:34:11 · 2000 阅读 · 2 评论 -
Hierarchical Co-Attention for Visual Question Answering----代码细读
分层共同注意力代码解读本文主要是对分层共同注意力的其中一篇代码解读,该代码不是原作者写的,原作者用的是torch,源码地址:https://github.com/jiasenlu/HieCoAttenVQA本文用到的源码地址:https://github.com/karunraju/VQA1. 总体代码结构代码结构主要包含,谁是父类,谁是子类,谁调用谁…等,我将代码的结构,用思维导图表示,如下:详细如下:接下来,分别介绍每个文件。2. dataset.py相应的注释在代码中已标注原创 2020-09-14 18:23:23 · 1039 阅读 · 0 评论 -
Hierarchical Co-Attention for Visual Question Answering---视觉问答的分层共同注意力
分层共同注意力声明:本文主要是简单整理自己对这篇论文的认识和理解,如有错误的地方,还望批评指正。本文介绍关于Hierarchical Co-Attention这篇论文,与前面堆叠式注意力网络不同的是,这篇论文的注意力同时关注了问题和图像。Abstract—摘要以往的视觉问答的注意力模型,只关注与问题有关的图像区域。本文提出一个新的VQA共同注意模型。该模型不仅对视觉注意进行建模,还对问题注意进行建模。该模型共同引起了关于图像和问题注意的推理,此模型通过新颖的一维卷积神经网络以分层的方式对问题(以原创 2020-08-18 13:45:25 · 1382 阅读 · 1 评论