
CVPR 2021
文章平均质量分 81
smile909
这个作者很懒,什么都没留下…
展开
-
CVPR 2021 VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs
动机人工智能的基本目标之一是开发能够可靠地理解现实世界并与人类进行网络语言交流的对话式多模态系统。近年来,通过采用大规模基准,评估解释视听信息和将这一理解转化为自然语言的能力,这一领域的进展取得了显著进展。主要任务包括用于图像或视频captioning、问题回答的数据集(QA)以及视听对话。为了在这样的基准上表现出色,该模型必须完成以下3个目标:(1)从每个模态中提取显著信息;(2)有效地组合不同的线索来处理给定的查询;(3)生成结果并以人类可理解的文本呈现。第一个通过系统消融经验地证明了与应用于原创 2021-05-06 20:37:07 · 840 阅读 · 0 评论 -
CVPR 2021 AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning
动机视觉事件是由一个涉及演员和物体的空间交互的时间动作组成的。人们对利用问答来实现视频推理能力的兴趣与日俱增。现有的视频问答基准是有用的,但它们往往将多个误差源混入一个准确性度量中,并且具有模型可以利用的强烈偏差,使得模型的弱点很难精确定位。对于现有的视频问答基准,由于答案分布的偏差和视觉事件发生的非均匀分布,模型可能会发展出“cheating”的方法,这种方法可以表面上猜测答案,而不学习潜在的合成推理过程。视觉领域只开发了使用静态图像或同步世界的组合问答基准,这些静态图像或同步世界要么不是时空原创 2021-04-29 23:10:04 · 711 阅读 · 0 评论 -
CVPR 2021 TrafficQA
TraffificQA: A Question Answering Benchmark and an Effificient Network forVideo Reasoning over Traffific Events动机视频中的交通事件认知与推理是一项非常重要的任务,在智能交通、辅助驾驶、自动驾驶等领域有着广泛的应用。设计良好的数据集对于开发、适应和评价不同的数据驱动的方法往往是至关重要的。有了数据集后,需要通过任务探索交通事件推理过程中复杂的因果结构。不同任务分别对应于不同的交通场景,以评原创 2021-04-28 21:53:32 · 940 阅读 · 3 评论 -
CVPR 2021 Less is More: CLIP BERT for Video-and-Language Learning via Sparse Sampling
动机视频和语言学习(如视频问答)的规范方法要求神经模型从离线提取的密集视频特征和语言模型的文本特征中学习。在这个互动的动态视觉世界中,人类通过语言、符号和图形相互交流。共同理解视觉和本线索是智能主体解读物理世界中多模态信号的必备能力。为了测试这种能力,已经设计了一系列基于真实视频的任务,包括文本到视频的重审、视频字幕、视频问题回答和视频时刻重复。处理这些跨模态任务的实际范例是首先从预训练的视觉模型中提取密集的视频特征,从预训练的语言模型中提取文本特征,然后应用多模态融合将这些固定的表征在共享的嵌入空间原创 2021-04-15 01:24:41 · 2642 阅读 · 0 评论 -
CVPR 2021 ViViT: A Video Vision Transformer
动机transformer的优势。自AlexNet以来,基于深度卷积神经网络的方法已经在许多标准数据集上提高了视觉问题的技术水平。同时,序列到序列建模(例如自然语言处理)中最突出的选择架构是transformer,它不使用卷积,而是基于多头自注意力。这个操作在建模长期依赖关系时特别有效,并且允许模型处理输入序列中的所有元素。这与卷积形成鲜明对比,卷积中相应的“感受野”是有限的并且随着网络的深度线性增长。由于transformer缺乏卷积的一些归纳偏好,它们似乎需要更多的数据或更强的正则化。N原创 2021-04-13 01:50:52 · 3560 阅读 · 0 评论 -
CVPR 2021 An Empirical Study of Training Self-Supervised Visual Transformers
动机transformer是一种有效的工具。transformer最初是为机器翻译而引入的,后来成为NLP的主干。由于语言的非局部性、关系自然性,这种长时的、自注意力的行为使transformer成为一种有效的工具。最近关于视觉transformer(ViT)的工作极大地推动了这一前沿。ViT纯粹是基于transformer的,而不是与非退化(即non-1×1)的卷积交织在一起的。本论文认为简单地比较自注意力和“卷积”是不精确的。根据定义,卷积有几个性质:权重共享,局部连接,平移同变性。原创 2021-04-12 00:11:08 · 1617 阅读 · 0 评论 -
CVPR 2021 Learning Spatio-Temporal Transformer for Visual Tracking
动机对于视觉目标跟踪,卷积核具有局部依赖而全局无关的缺陷。视觉目标跟踪是计算机视觉中的一个基础而又具有挑战性的研究课题。在过去的几年中,基于卷积神经网络的目标跟踪取得了令人瞩目的进展。然而,由于无论是在空间上还是在时间上卷积核只能处理一个局部邻域,因此不能很好地对图像内容和特征的长程关系进行建模。目前流行的跟踪器,包括离线Siamese跟踪器和在线学习模型,几乎都是建立在卷积运算基础上的。结果表明,这些方法只对图像内容的局部关系建模效果较好,而对长时全局交互的描述不能很好很好的建模。这种缺陷可能会降原创 2021-04-11 00:14:52 · 1853 阅读 · 0 评论 -
CVPR 2021 DELIGHT: DEEP AND LIGHT-WEIGHT TRANSFORMER
动机基于注意力的transformer网络被广泛用于序列建模任务,包括语言建模和机器翻译。为了提高性能,通常通过增加隐藏层的尺寸将模型缩放得更宽,或者通过堆叠更多的transformer块将模型缩放得更深。例如,T5使用65K的维度,GPT-3使用96个transformer块。然而,这样的缩放显著增加了网络参数的数量(例如,T5和GPT-3分别具有110亿和1750亿个参数),并使学习复杂化,即这些模型要么需要非常大的训练语料库,要么需要仔细的正则化。本论文提出了一种新的参数有效的基于注意力的体系结构,原创 2021-04-09 23:16:08 · 917 阅读 · 2 评论 -
CVPR 2021 TransGAN: Two Transformers Can Make One Strong GAN
动机GANs的训练不稳定性。生成性对抗性网络(GANs)在众多任务中获得了相当大的成功,包括图像合成,图像翻译和图像编辑。然而,由于GANs的训练不稳定性,即使目前已经投入很多努力来稳定GAN训练,彻底解决这个问题,需要做进一步研究。改进GAN的另一条平行途径是检查它们的神经结构。经过对GAN的大量研究,发现当充当(生成器)主干时,流行的神经架构在所考虑的数据集上表现得相当好。他们的消融研究表明,在ResNet家族结构中应用的大多数变化导致样本质量的微乎其微的改善。然而,之后有研究将神经结构原创 2021-04-09 00:30:13 · 1497 阅读 · 0 评论 -
CVPR 2021 Scaling Local Self-Attention for Parameter Effificient Visual Backbones
动机虽然自注意力是自然语言处理中的主要工作,但卷积在几乎所有的视觉模型中都是普遍存在的。卷积法体现了局部处理的原理,用来学习图像中大量存在的边缘、纹理等局部特征。另一方面,transformer展现了这种自注意力是一种有效的并计算上有效的机制,可以捕捉句子中单词之间的全局交互作用。自注意力在自然语言处理中的成功激发了对自注意力如何改善视觉的研究。自注意力有几个特性使其能很好地改进计算机视觉系统:(a)基于内容的交互,而不是与内容无关的卷积交互;(b)独立于参数的感受野大小的scaling,而不是依赖于原创 2021-04-08 00:29:23 · 3360 阅读 · 1 评论 -
CVPR 2021 OmniNet: Omnidirectional Representations from Transformers
动机提出了从transformer中学习全方位表示的方法。transformer以堆叠的自注意力模块和前馈transformer为特征,已经成为现代深度学习、自然语言处理甚至计算机视觉的主流方法。一个自注意力机制中的一个关键特征是全局感受野,其中每个token都可被序列中的其他token访问,促进全局上下文表征的学习。将全方位的注意力实现为一种元学习器的形式。学习全方位感受野是非常重要的,原因有两个。首先,给定点积注意力的二次复杂度,设计这样的感受野的复杂度从N2L增加到(NL)2,其中L是原创 2021-04-06 23:35:36 · 357 阅读 · 0 评论 -
CVPR 2021 Evolving Attention with Residual Convolutions
动机transformer是一种普遍存在的自然语言处理模型,在计算机视觉领域引起了广泛的关注。Transformer是用于序列建模的最先进的体系结构,它在自然语言理解、图像生成和时间序列预测等各种应用中实现了出色的性能。transformer模型的性能主要取决于其在输入token之间诱导合理注意力的能力。而注意力映射是在每一层中独立学习的,有时无法捕获精确的模式。注意力映射是transformer模型用来编码输入token之间的依赖关系的。然而,正如之前的一些著作所说明的那样,vanilla原创 2021-04-05 21:41:29 · 990 阅读 · 0 评论 -
CVPR 2021 Incorporating Convolution Designs into Visual Transformers
动机纯粹transformer结构通常需要大量的训练数据或额外的监督,限制了它在计算资源有限或训练数据有标记的场景中的应用。由于transformer在自然语言处理(NLP)任务中的成功,出现了一些将transformer应用于视觉领域的尝试(如ViT和DeiT)。然而,纯粹transformer结构通常需要大量的训练数据或额外的监督,以获得与卷积神经网络(CNNs)相当的性能。视觉transformer(ViT)是第一个直接继承NLP的纯transformer结构,并应用于图像分类。与许多现有的C原创 2021-04-04 22:34:21 · 1627 阅读 · 1 评论 -
CVPR 2021 UniT: Multimodal Multitask Learning with a Unifified Transformer
动机transformer在包括但不限于自然语言、图像、视频和音频在内的广泛领域都显示出巨大的成功。前人的研究表明,在大型语料库中训练的transformer在一系列的下游语言任务中学习了强大的表征。在视觉领域中,基于transformer的模型在图像分类、目标检测和全景分割方面取得了非常不错的结果。除了对单个模态建模外,transformer模型在视觉问答等联合视觉和语言推理任务中也表现出很强的性能。将transformer应用于跨领域的不同任务。尽管将transformer应用于特定领域原创 2021-04-03 23:10:42 · 1477 阅读 · 0 评论 -
CVPR 2021 Conditional Positional Encodings for Vision Transformers
动机最近,在分类和检测等视觉识别任务中,transformer被认为是卷积神经网络(CNNs)的一种强有力的替代方法。与CNNs中的卷积运算具有有限的感受野不同,transformer中的自我注意机制能够捕捉远距离信息,并根据图像内容动态调整感受野。因此,transformer被认为比CNN更灵活、更强大,因此有望在视觉识别方面取得更大进展。transformer中的自我注意力操作是排列不变的,它不能利用输入序列中标签的顺序。为了缓解这一问题,以前的工作添加了绝对位置编码器到输入序列中的每个原创 2021-04-03 22:58:48 · 2397 阅读 · 0 评论 -
CVPR 2021 Multi-view 3D Reconstruction with Transformer
动机基于深度CNN的方法在多视图3D物体重建方面达到了SOTA水平。从多视图图像中学习3D物体的表示是3D建模、虚拟现实和计算机动画中的一个基本而又具有挑战性的问题。近年来,深度学习方法极大地促进了多视图3D重建问题的研究,其中基于深度卷积神经网络(CNN)的方法在该任务中达到了SOTA水平。尽管取得了相当大的进展,但这些方法的两个核心模块,即多视图特征提取和融合通常是单独考察的,很少探究不同视图中的目标关系。为了从多个输入视图中学习有效的3D表示,大多数基于CNN的方法遵循分而治之的设计原原创 2021-04-02 16:52:44 · 2772 阅读 · 3 评论 -
CVPR 2021 An Image is Worth 16x16 Words, What is a Video Worth?
动机视频内容的飞速增长促使人们需要更有效的视频识别。计算负载增加问题。动作识别领域的主要方法都试图从输入视频的空间和时间两方面提取信息。达到SotA(State of the Art)精度的方法通常利用3D卷积层作为从视频帧中提取时间信息的方法。由于3D卷积在计算上是昂贵的,通常的做法是将这些卷积应用于预定数量的短视频剪切视频段上,每个视频剪切视频段由密集采样的帧组成,并且在这些剪切视频段上平均预测。由于视频的剪切视频段要覆盖整个视频,所以这种方法使用了很大一部分视频帧,导致了帧处理和转换的计原创 2021-03-31 23:49:23 · 896 阅读 · 2 评论 -
CVPR 2021 DeepViT: Towards Deeper Vision Transformer
动机视觉transformer(ViTs)在图像分类中得到了成功的应用。ViTs层次加深不利于其性能。与卷积神经网络不同的是,卷积神经网络可以通过增加卷积层来提高其性能,而在ViTs,随着transformer块数量的增加,模型性能并没有相应提高。例如带有32个transformer块的ViT模型比带有24个transformer块的ViT模型更糟糕。这意味着直接堆叠更多的transformer块,在增强ViT模型时效率不高。而当层次越深时,ViTs的性能则会迅速饱和。在ViTs的深层,原创 2021-03-30 23:02:48 · 1484 阅读 · 0 评论 -
CVPR 2021 Can Vision Transformers Learn without Natural Images?
动机计算机视觉界正致力于用一种基于transformer的结构来取代事实上的标准卷积。最有洞察力的架构之一是Vision Transformer(ViT)。尽管ViT在图像输入方面是一个基础的Ctransformer架构,但该模型在几个数据集上的性能与最新的替代方法相当。然而,在表示学习中,ViT需要超过千万阶的标记图像。通过实验验证了在JFT-300M/ImageNet-21K上预训练ViT表现出了良好的精度。随着数据高效图像 Transformer(DeiT)的引入,利用大规模数据集学习的困难得到了原创 2021-03-29 23:52:01 · 412 阅读 · 0 评论 -
CVPR 2021 Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking
动机视觉目标跟踪是计算机视觉中的一项基本任务。尽管最近取得了一些进展,但由于遮挡、变形、外观变化等因素的影响,它仍然是一项具有挑战性的任务。在视频目标跟踪任务中,现有的跟踪器中被忽略了连续帧之间存在着丰富的时间上下文信息。方法为了在独立的视频帧之间建立桥梁,并传递丰富的时间线索。提出了一种新的transformer辅助跟踪框架。由于提出的transformer接收图像特征嵌入,共同将这些图像特征嵌入归一化到实例(图片块)级,以保留有价值的图像幅度信息。将transformer编码器和解码器在这原创 2021-03-28 22:55:13 · 1426 阅读 · 0 评论 -
CVPR 2021 TransFG: A Transformer Architecture for Fine-grained Recognition
动机由于类间存在着细微的差异,细粒度视觉分类(FGVC)是一项非常具有挑战性的任务,它的目标是从子类中识别出目标。近年来的研究主要集中在如何定位最有判别力的图像区域,并依靠这些区域来提高网络捕捉细微差异的能力。这些工作都需要一个专门设计的模块来提取候选区域,并且这些选定的区域需要再次通过主干网络进行传播以进行最终的分类。此外,一些被提取得候选区域往往包含了整个目标,判别力不够。而且,这种策略不可避免地使算法流程复杂化。近年来,视觉transformer(ViT)在传统的分类任务中显示出了强大的性能。原创 2021-03-27 23:18:05 · 2273 阅读 · 1 评论 -
CVPR2021 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
动机1、一个跨计算机视觉和自然语言处理的统一体系结构将有利于两个领域的研究,因为它将促进虚拟信号和文本信号的联合建模,并且两个领域的建模知识可以更深入地共享。计算机视觉中的建模一直由卷积神经网络(CNNs)主导。自然语言处理(NLP)中的网络体系结构的发展走了一条不同的道路,今天流行的体系结构是Transformer。在这篇论文中,试图扩展Transformer的适用性,使其能够像NLP和CNN在视觉中的应用一样,成为计算机视觉的通用骨干网络。2、从语言到视觉转换的挑战来自于这两个领域之间的差异,例如原创 2021-03-27 23:16:49 · 890 阅读 · 2 评论 -
CVPR 2021 Pre-Trained Image Processing Transformer
在图像处理任务中,预训练面临着以下两个挑战:第一,特定任务的数据可能是有限的。如医学图像和卫星图像这一类涉及付费数据或数据隐私的图像。各种不一致的因素(如相机参数、光照、天气等)会进一步干扰捕捉到的训练数据的分布。二、直到测试图像出来,才知道需要哪种类型的图像处理作业。因此,必须在手头准备一系列的图像处理模块。它们有不同的目标,但一些底层操作可以共享。目前计算机视觉和自然语言处理方面的预训练时很普遍的,主要研究的是预测试分类任务,例如目标检测模型的骨干通常是在ImageNet分类上进行预训练。目前计算机视.原创 2021-03-27 12:15:30 · 1283 阅读 · 0 评论 -
CVPR 2021 Sequential Graph Convolutional Network for Active Learning
深度学习在计算机视觉方面展现出非常大的进步,其代价是大规模的标注数据集。数据标注是耗时的,需要人工和雇佣成本。在许多领域,数据标注更具挑战性,如医学成像领域。此外,在优化深层神经网络架构时,数据的代表性存在差距。为了克服这些问题,主动学习已被成功地用于有效地选择最有意义的样本。大多数前人的研究将抽样方法和学习者结合在一起。这将模型限制为特定类型的任务。与这些工作不同的是,本论文提出了一种新的通用序列图卷积网络(GCN)主动学习训练方法。该方法分别训练学习者和抽样方法,是任务无关的。图卷积网络是一种强大.原创 2021-03-27 12:15:10 · 1139 阅读 · 2 评论 -
CVPR2021 Transformer
Transformer Interpretability Beyond Attention Visualization:提出了一种新的计算Transformer网络结构相关性的方法,首次实现Transformer的可视化能针对不同类呈现不同且准确的效果。该方法基于深度泰勒分解原理分配局部相关性,然后将相关性评分传播到各层。通过引入适用于正面和负面归因的相对传播规则,并提出了针对非参数层的归一化项,如矩阵乘法。同时,整合注意力与相关性得分,并将结果整合到多个注意力模块中。与以往方法相比不同的是,它的传播涉及注原创 2021-03-27 12:14:45 · 982 阅读 · 1 评论 -
CVPR 2021 Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition
视觉场景识别对机器人和自主系统来说是一项具有挑战性的任务,它必须在一个不断变化的世界中解决因外观、照明以及视点变化所产生的问题。本论文提出了一种新的条件和视点不变的视觉场景识别系统(Patch-NetVLAD)(如下图所示),它从每幅图像的特征空间的一组小块中提取局部-全局特征,通过局部-全局特征的穷举匹配获得空间得分,以获得两幅图像之间的相似度,从而测量这些图像之间的空间和外观一致性。局部-全局特征是在特征空间中使用一种vpr优化的聚合技术(论文采用NetVLAD)对密集采样的局部小块提取得到,产生一.原创 2021-03-27 12:15:49 · 2081 阅读 · 1 评论 -
CVPR 2021 Exploring Simple Siamese Representation Learning
从理论与实验角度证实了所提方法的有效性;与此同时,还侧面证实了对比学习方法成功的关键性因素:孪生网络目前孪生网络已成为无监督视觉表征学习模型的常见结构。这些模型在满足特定条件(避免孪生网络的所有输出都“崩溃”成一个常量)下,最大限度地提高了同一图像的两个放大部分之间的相似性。目前主要存在3种防止孪生网络崩溃的策略:一、对比学习,例如SimCLR,负对相斥,正对相吸,负样本对排除了来自解空间的恒定输出;二、聚类是另一种避免恒定输出的方法,例如SwAV将在线聚类引入孪生网络中。三、除了对比学习和聚类,BYO.原创 2021-03-26 23:05:28 · 554 阅读 · 0 评论 -
CVPR 2021 Towards Open World Object Detection
动机虽然目标检测技术目前已经发展得较为成熟,但如果要真正能实现让计算机像人眼一样进行识别,有项功能一直尚未达成——那就是像人一样能识别现实世界中的所有物体,并且能够逐渐学习认知新的未知物体。开放集和开放世界图像分类的进展不能简单地适用于开放集和开放世界的目标检测,开放集和开放世界的目标检测的不同之处在于:在目标检测器的训练过程中,将那些未知的目标当做背景。许多未知类的实例已经和已知目标一起引入到目标检测器中。由于它们没有被标注,训练检测模型时,这些未知的实例将被学习为背景。本论文解决了两个挑战:一是在没有原创 2021-03-26 23:02:56 · 900 阅读 · 1 评论 -
CVPR 2021 Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection
动机深度学习算法通常需要大量的标注数据才能获得更好的性能。而大量的标注数据需要收集大量的样本进行标注完成,由于真实世界数据固有的长尾分布,如稀有动物之类的,只有少数样本可用,小样本目标检测是一个迫切而持久的问题。由于小样本目标检测的性能对显性和隐性的样本数量非常敏感,当数据有限时,性能也会急剧下降,很大程度上受到新类数据稀缺的影响。新目标的学习只通过图像,即视觉信息,并且各类之间的学习是独立的,不存在知识传播。然而因为图像数据的稀缺,视觉信息变得有限。但是无论数据的可用性如何,新类和基本类之间的语义关系都原创 2021-03-26 23:01:40 · 2677 阅读 · 8 评论 -
CVPR 2021 End-to-End Video Instance Segmentation with Transformers
动机1、实例分割是计算机视觉的基本任务之一。 虽然在图像分割方面取得了重大进展,在视频中分割实例方面,还需要额外做更多的研究进行攻克。2、最先进的方法通常是开发复杂的流程来解决这项任务。自上而下的方法遵循逐检测跟踪的范式,严重依赖于图像级别的实例分割模型复杂的人工设计规则来关联实例。 自下而上的方法通过聚类学习的像素嵌入来分离对象实例。 因为严重依赖在密集的预测质量上,这些方法通常需要多个步骤来迭代生成掩码,这使得它们变慢。 因此,为了解决VIS任务,使用一个简单的、端到端可训练的VIS框架是大势所趋。原创 2021-03-26 23:00:02 · 1910 阅读 · 0 评论 -
CVPR 2021 Removing the Background by Adding the Background: Towards Background Robust Self-supervise
动机background cheating:目前常用的视频数据集通常对场景和目标结构存在较大的隐性偏差,使得时间结构变得不那么重要,即预测高度依赖于视频背景而不是运动,使得模型容易受到背景变化的影响。这种现象被命名为background cheating。 – 例如,一个训练过的模型可能仅仅因为看到了场地,就把一个动作归类为踢足球,而没有真正理解侧手翻的动作。方法Background Erasing (BE):为了防止模型的背景欺骗,使模型具有更好地泛化,本文提出通过增加背景来减小背景的影响原创 2021-03-26 22:56:22 · 503 阅读 · 0 评论 -
CVPR 2021 AttentiveNAS: Improving Neural Architecture Search via Attentive Sampling
动机1、两阶段NAS在训练过程中需要对搜索空间进行采样,这直接影响最终搜索模型的准确性。神经结构搜索(NAS)在设计最先进的(SOTA)模型方面表现出了巨大的潜力,既准确又快速。近年来,BigNAS等两阶段的NAS将模型训练和搜索过程解耦,取得了良好的搜索效率。两阶段NAS的成功很大程度上依赖于第一阶段的候选网络训练。为了使每个候选网络都有更好的性能,训练的过程是从搜索空间中抽取候选网络,然后通过一步随机梯度下降(SGD)对每个样本进行优化。关键是要弄清楚在每个SGD步骤中采样哪个网络。2、尽管均匀采原创 2021-03-26 22:55:12 · 365 阅读 · 0 评论 -
CVPR 2021 Involution: Inverting the Inherence of Convolution for Visual Recognition
动机卷积操作具有两个显著特性,即spatial-agnostic和channel-specific。spatial-agnostic:图像所有位置都使用同一个卷积核,实现了平移不变性。但它剥夺了卷积核在不同空间位置采用不同视觉模式的能力,从而限制了卷积核提取特征的的能力。此外,它还限制了卷积的感受野,对识别小目标或者模糊图像构成了挑战。channel-specific:每个channel都提取不同类型的特征,产生了数据冗余。这使得卷积核对于不同通道的灵活性受到限制。方法提出了Invo原创 2021-03-26 22:53:55 · 2947 阅读 · 0 评论 -
CVPR2021 MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions
动机1、现实世界的运动是非常复杂的,总是在空间和时间上变化。在降水预报中,要准确预测随时空变化的运动,如雷达回波的变形、积累或消散,具有极大的挑战性。2、最新的已知的视频预测模型,如PredRNN、MIM和Conv-TT-LSTM,主要关注于捕捉随时间的变化简单的状态转换。它们忽略了运动中复杂的变化,所以在高度变化的情况下不能准确地预测。3、基于光流的方法使用局部不变状态转换来捕捉短期的时间依赖性,但缺乏对长期运动趋势的表征。当建模不断变化的运动时,这些方法的效果可能会严重退化。4、本文发现,物理世原创 2021-03-26 22:52:17 · 1409 阅读 · 2 评论 -
CVPR2021 General Instance Distillation for Object Detection
动机知识蒸馏是一种有效的模型压缩方法。这种方法可以使轻量级的学生模型从较大的教师模型中获取有效知识。目标附近的特征区域有相当多的信息,这对于知识蒸馏是有用的。然而,不仅目标附近的特征区域,而且即使是来自背景区域的判别块也有意义的知识。为了应对检测任务中前景和背景区域的不均衡,之前的蒸馏检测方法都需要精心设计正例与负例之间的比例,并且仅蒸馏与GT相关的区域可能会忽略背景中潜在的信息区域。然而,正是师生之间的信息鸿沟,引导模型选择有区别的补丁进行模仿。而且,虽然GT相关的领域几乎是信息丰富的,但极原创 2021-03-26 22:50:18 · 2043 阅读 · 0 评论 -
CVPR2021 Paper Reading——Inception Convolution with Efficient Dilation Search
动机1、空洞卷积核的dilation (空洞率)是一个非常有效的超参数,可以调节不同任务之间的有效感受野(ERF)分布。由于输入图片的尺寸变化以及感兴趣目标的尺寸变化,ERF根据不同任务进行调整是很重要的。即使在相同的任务中,对于一个具体的卷积层ERF的优化也是不同的,不同有效的搜索算法适用于不同的任务。例如,在图像分类中,输入的尺寸往往比较小(例如:224 × 224),而在目标检测中,输入尺寸要大得多,目标的尺度范围也很大。即使对于固定网络的同一任务,某一卷积层的最优ERF也可能与其他标准卷积运算不原创 2021-03-26 22:47:28 · 552 阅读 · 1 评论