Vision Transformers for Dense Prediction
面向实际应用的室内单目深度估计
0 Abstract
我们提出了一种视觉转换器,一种利用视觉转换器代替卷积网络作为密集预测任务的骨干架构。本文将视觉转换器各个阶段的toker(翻译是令牌,但我感觉更像一个图像块)组装成各个分辨率的类图像表示,然后在解码器阶段进行组合,从而生成全分辨率预测。transformer采用恒定且相对较高的分辨率表示,并且在每个阶段都具有全局感受野。与全卷积网络相比,这些特征可以提供更细粒度和更全局连贯的预测。实验在深度估计和图像分割两个方向都产生了显著的效率提升。
1 Introduction
目前几乎所有的密集预测框架都是基于卷积网络的编解码器结构,他们通过编码器来获得更深层次的特征信息,通过解码器来将这些特征进行聚合分析,最终实现密集预测。由于下采样才做,网络的编码器会丢失部分特征,而这些特征在解码器阶段无法得到恢复。虽然特征分辨率和图像粒度对于图像分类等任务无关紧要,但是他们对于密集预测至关重要。密集预测希望能够在与或接近输入图像分辨率的尺度上进行特征解析。
目前提出了许多减轻特征粒度的方法,例如高分辨计算、扩展卷积、跳跃连接和并行连接等,但网络还是受到基本模块:卷积的限制。卷积和非线性一起构成了图像分析网络的基本计算单元,但是卷积是有限感受野的计算单元,为了得到有限的上下文联系和广泛的感受野,需要大量的卷积并行排列,这使得网络需要占据大量的计算机内存。所以采用下采样的方法来缩减中间表示。以减少内存消耗。
在本文中提出了DPT,采用Visio transformer来代替传统网络中的编码器部分,采用transformer来代替卷积作为基本单元,最后将VIT输出的

本文提出了一种名为DPT的视觉转换器,用以替代传统的卷积网络作为密集预测任务的骨干架构。DPT保留了高分辨率表示,避免了下采样造成的特征损失,从而实现更精细、全局一致的预测。通过在深度估计和图像分割任务上的实验,证明了这种方法能显著提高预测效率。
最低0.47元/天 解锁文章
1277

被折叠的 条评论
为什么被折叠?



