
视觉常识推理
VCR
薛定猫的谔w
哈尔滨工业大学(深圳) 计算机技术
展开
-
视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning
背景本篇的工作来自中山大学梁晓丹组,论文被NeurIPS 2019接收。论文介绍到,视觉语言任务(visual-language task)的解决方案粗略地分成两大类型,一种是强大的端到端结构(end-to-end),原创 2020-10-19 00:39:45 · 713 阅读 · 2 评论 -
视觉理解论文系列(三)VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS
背景这是微软亚研院的工作,将纯文本设定的bert扩展到visual-linguistic场景,从预训练到fine-tune,可以用于多个下游任务。摘要作者提出了一个可预训练的用于学习视觉-语言任务通用表征的模型VL-BERT,VL-BERT以transformers为主干,可以同时接受V、L特征作为输入。预训练任务使用了包括visual-language数据集Conceptual Captions,纯文本语料数据集BooksCorpus&English Wikipedia。该预训练模型可以微调原创 2020-10-30 17:29:14 · 1511 阅读 · 0 评论 -
VCR数据集各字段和属性解析
annotation files数据集通过三个jsonl文件(train.jsonl,val.jsonl,test.jsonl)划分成train/val/test set. 在这些文件中,每一行代表一个JSON对象,代表相应数据集中的一个item。一些重要标注objects:每张图片上被检测到的object的列表。如[“person”, “person”, “horse”, “horse”, “horse”, “horse”]img_fn:在vcr1images目录内的图片的文件名。如"lsmd原创 2020-08-12 12:22:45 · 1654 阅读 · 2 评论 -
视觉理解论文系列(五)Fusion of Detected Objects in Text for Visual Question Answering(B2T2)
背景这篇论文的工作来自Google研究院。作者提出B2T2模型(“Bounding Boxes in Text Transformer”),B2T2是一个任务特定模型(文中也只在VCR任务进行了评测),B2T2是一个将vision和language combine起来作为输入的single-stream架构。作者提到视觉特征与文本特征的early fusion是模型取得良好成效的关键。动机vision-linguistic任务的一大难点在于如何在神经架构中编码视觉和语言特征。诸如文本实体如何绑定到图像原创 2020-11-10 11:38:46 · 1015 阅读 · 0 评论 -
视觉理解论文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag
摘要本篇论文的作者来自于佐治亚理工学院、俄勒冈州立大学、Facebook AI 研究院。本文提出ViLBERT(Vision-and-Language BERT),该模型用来学习任务无关的图像和自然语言联合表征。ViLBERT在BERT的基础上拓展为多模态的双流模型,在各自的流中处理图像和文本输入,这两个流通过Co-attention transformer层进行交互。ViLBERT应用到下游任务时仅需对基础架构进行少量的调整,实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模原创 2020-11-02 16:34:21 · 2713 阅读 · 1 评论 -
视觉理解论文系列(一)——ERNIE-VIL
简介ERNIE-VIL是百度出品的知识增强视觉-语言预训练模型,首次将场景图知识融入到多模态预训练中,大幅提升了机器的“理解能力”。通过在预训练阶段加入场景图预测任务,使得模型能更精准的把握视觉-语言跨模态间的细粒度对齐。论文观点,细粒度的语义对于区分不同对象、不同属性和不同关系的场景至关重要。因此,更好的视觉语言联合表示应该表现出不同模式之间详细的语义对齐。以上这些样本中,只有物体、属性、关系上的细微差别,如果不能很好的抓住这些细粒度语义特征,将无法较好的把这些数据样本区分开来,导致在许多的视觉-原创 2020-07-10 11:10:21 · 2076 阅读 · 0 评论 -
视觉常识推理数据集VCR分析与理解
基本信息介绍VCR是用于视觉常识推理的大规模数据集,包含约290K问题、答案和解释对,涵盖超过110K不重复的电影场景。构建如此大规模的数据集,最大的挑战来自于构造的过程中如何避免引入人类对于事物认识的bias。一般来说QA类型的数据集,人类手工标注的答案包含难以预料但明显的bias,这样因为人的认识观念而注入的偏见很容易被模型所利用。在很多情况下,这些偏差是明显的,以至于模型甚至可以不给出问题的描述就选出正确答案。作者使用的解决方案对抗匹配算法(Adversarial Matching)一种新颖原创 2020-07-04 11:32:17 · 4701 阅读 · 0 评论