Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction 基于Transformer注意力网络连续像素级与估计

MengYa_DreamZ

已于 2022-06-27 18:57:06 修改

阅读量4.5k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：【论文研读-图像处理】文章标签： transformer 网络计算机视觉

于 2021-11-10 14:53:11 首次发布

本文链接：https://blog.youkuaiyun.com/MengYa_Dream/article/details/121247631

仅作学习交流~包含重点翻译，要点归纳，部分扩展

论文地址

GitHub - ygjwd12345/TransDepth: Code for Transformers Solve Limited Receptive Field for Monocular Depth Prediction

1 摘要

虽然卷积神经网络对各种计算机视觉任务产生了巨大的影响，但是卷积自身的局部性，限制了其依赖远距离像素建模的能力。Transformer 最早被提出应用于自然语言处理任务，现已经成为具有固有的全局自注意机制的替代架构来捕获远距离依赖关系。

提出TransDepth，一种得益于卷积神经网络和Transformer的架构。
提出一种新解码器AGD（ Attention Gate Decoder ）,避免网络由于采用Transformer而失去捕获局部细节的能力。

这是第一个将Transformer应用于连续标签的像素级预测问题（即单眼深度预测和表面法线估计）的论文。大量的实验表明，所提出的TransDepth在三个具有挑战性的数据集上取得了最先进的性能。

2 介绍

在过去的十年里，卷积神经网络已经成为一种特殊的方法来处理基本的、具有挑战性的，需要像素级的密集预测的计算机视觉任务，如语义分割、单眼深度估计、表面法线计算。自从开创以来，现有的深度预测模型一直由编码器所主导，如ResNet和VGG-Net等架构。编码器逐步降低空间分辨率，并通过学习更大的接受域来获得更多的概念。由于上下文建模对于像素级预测至关重要，因此深度特征表示学习可以说是最关键的模型组成部分。

然而，深度预测网络要提高其对全局上下文建模的能力仍然具有挑战性。传统上，编码器使用堆叠的卷积层和连续的下采样来生成足够大的深层接受域。这个问题通常在某种程度上被规避，而不是得到解决。因此，现有的策略带来了几个缺点：

非常深的网络训练会受到连续乘法的影响，进而去除了低层次的特征；
随着空间分辨率的逐渐降低，对密集预测任务至关重要的局部信息会被丢弃。

为了克服这些限制，最近提出了几种方法：

一种解决方案是通过使用大的卷积核尺寸、二次卷积和图像/特征金字塔来直接操纵卷积操作。另一个解决方案是将注意力模块集成到完全卷积的网络架构中。这样的模块旨在为特征图中所有像素的全局交互进行建模。当应用于单眼深度预测时，一般的方法是将注意力模块与多尺度融合方法相结合。最近，Huynh等人提出了一个深度注意力体积来纳入网络的非局部共平面约束。