
读读论文
文章平均质量分 91
BachelorSC
这个作者很懒,什么都没留下…
展开
-
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding, 2022 CVPR
**本文内容仅代表个人理解,如有错误,欢迎指正**1. Problem & Background Information1.1 Problem- 目前,人们基本上都采用基于深度学习的方法来解决Visual grounding任务。不论是全监督学习还是弱监督学习,都十分依赖人为标注的数据集,而人工标注不仅昂贵,还十分费时。因此,本篇论文的目标是减少模型对于人工标注数据的依赖。1.2 Background Information- 简单阐述Visual grounding任务背景下的原创 2022-05-10 22:42:45 · 1103 阅读 · 0 评论 -
Entity Relation Fusion for Real-Time One-Stage Referring Expression Comprehension 2021
**本文内容仅代表个人理解,如有错误,欢迎指正*******(原论文在方法部分写得有点套娃的意思,实在是有点乱,内心os:心平气和心平气和)1. Problems- 这篇论文主要提出两个问题:1) 用一个向量来对Query进行表示,没有对Query当中丰富的物体关系进行推理,即没有有效地利用Query中的信息。2) 采用特征金字塔提取图像不同层级的特征,得到不同尺度的特征图。分别在不同尺度的特征图上对目标物体进行框选,忽略了处于不同尺度特征图上的物体之间的相关性。2. Point..原创 2022-04-18 15:48:21 · 2372 阅读 · 0 评论 -
Suspected Object Matters: Rethinking Model’s Prediction for One-stage Visual Grounding 2022
图一**本文内容仅代表个人理解,如有错误,欢迎指正**1. Problem本文提出的立足点:主要物体间的相关关系对于框选目标物体而言是十分重要的,而当前一阶段的视觉定位方法对于物体之间的关系模拟比较薄弱,使得模型不能够较好地学到物体之间的相关关系,从而导致模型表现的差强人意。Q: 那为什么说一阶段的视觉定位方法对于物体之间的关系模拟比较薄弱呢?A: 如果要对物体之间的关系进行模拟、学习,首先需要有物体。而一阶段的视觉定位方法(相比于两阶段的视觉定位方法)没有利用pre-trained det原创 2022-04-13 13:28:36 · 3351 阅读 · 0 评论 -
One-Stage Visual Grounding via Semantic-Aware Feature Filter
**本文内容仅代表个人理解,如有错误,欢迎指正**隐约感觉到最近看的几篇论文都指出之前One-stage visual grounding methods大多利用pre-trained BERT将query编码为一个holistic vector,比较方便简单。但这样做的话,弱化了query中存在的语义信息,即对query的信息挖掘不足。所以,最近的文章都立足于如何能够更好地挖掘并利用query中存在的语义信息,从而辅助模型更准确地进行目标物体的框选。1. Problem本篇论文主要解决的问题:原创 2022-04-02 15:10:53 · 2799 阅读 · 0 评论 -
Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding,2021
**本文内容仅代表个人理解,如有错误,欢迎指正**1. Problem本篇论文主要解决的问题:将query编码成一个holistic sentence embedding,忽略了每个词对于Visual grounding框选的重要性,从而降低了模型的performance。之前的方法(一阶段或两阶段)大多都将Language query编码成一个holistic sentence embedding,这种情况下,所生成的embedding可能会对query中的word没有那么敏感/没有强调每个词原创 2022-03-21 22:10:33 · 1187 阅读 · 0 评论 -
Deconfounded Visual Grounding
**本文内容仅代表个人理解,如有错误,欢迎指正**1. QuestionsQ1: 什么是confounding bias between language and location in the visual grounding pipeline?- 论文作者认为,模型在grounding的过程中,更依赖于query来框出target的location,而非去做visual reasoning。举个例子来说明Confounding bias,比如说在训练数据集中,包含“sheep”这个词的que原创 2022-03-16 17:26:52 · 4877 阅读 · 2 评论 -
CrossCLR: Cross-modal Contrastive Learning for Multi-modal Video Representations, 2021 ICCV
**本文内容仅代表个人理解,如有错误,欢迎指正**1. Points这篇论文主要解决两个问题1. 跨模态对比学习(Cross-modal Contrastive learning)更注重于不同模态下的数据,而非同一模态下的数据。- 也就是说,将不同模态下的数据投影到Joint space时,希望paired samples(eg, Image1和Text1)之间的距离可以尽可能地小,unpaired samples(eg, Image1和Text2)之间的距离可以尽可能地大。而忽略了一个问题原创 2022-03-06 10:56:32 · 3546 阅读 · 1 评论 -
UNIMO:Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning
**本文内容仅代表个人理解,如有错误,欢迎指正**1. Points1) UNIMO是一个预训练模型,其输入可以有不同的形式(eg, Image collections, Text corpus, Image-Text Pairs),并且可以微调后用于单模态(Single-modal)任务与多模态(Multi-modal)任务。即不仅在预训练时利用了image-text pair的数据,还充分利用了大量单模态的数据(non-paired single-modal, like images and t原创 2022-03-01 17:00:58 · 3583 阅读 · 2 评论