Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction 基于Transformer注意力网络连续像素级与估计

仅作学习交流~包含重点翻译,要点归纳,部分扩展

论文地址

GitHub - ygjwd12345/TransDepth: Code for Transformers Solve Limited Receptive Field for Monocular Depth Prediction

目录

1 摘要

2 介绍

 3 相关工作

4 核心 TransDepth AGD

5 实验结果-数据集

 6.实验结果评估

 7 总结

 8 扩展 


1 摘要

虽然卷积神经网络对各种计算机视觉任务产生了巨大的影响,但是卷积自身的局部性限制了其依赖远距离像素建模的能力Transformer 最早被提出应用于自然语言处理任务,现已经成为具有固有的全局自注意机制的替代架构来捕获远距离依赖关系

  • 提出TransDepth,一种得益于卷积神经网络Transformer的架构。
  • 提出一种新解码器AGD Attention Gate Decoder ,避免网络由于采用Transformer失去捕获局部细节的能力。

这是第一个将Transformer应用于连续标签的像素级预测问题(即单眼深度预测和表面法线估计)的论文。大量的实验表明,所提出的TransDepth在三个具有挑战性的数据集上取得了最先进的性能。


2 介绍

 在过去的十年里,卷积神经网络已经成为一种特殊的方法来处理基本的、具有挑战性的,需要像素级的密集预测的计算机视觉任务,如语义分割、单眼深度估计、表面法线计算。自从开创以来,现有的深度预测模型一直由编码器所主导,如ResNetVGG-Net等架构。编码器逐步降低空间分辨率,并通过学习更大的接受域来获得更多的概念。由于上下文建模对于像素级预测至关重要,因此深度特征表示学习可以说是最关键的模型组成部分

然而深度预测网络要提高其对全局上下文建模的能力仍然具有挑战性。传统上,编码器使用堆叠的卷积层和连续的下采样来生成足够大的深层接受域。这个问题通常在某种程度上被规避,而不是得到解决。因此,现有的策略带来了几个缺点

  • 非常深网络训练会受到连续乘法影响,进而去除了低层次的特征;
  • 随着空间分辨率的逐渐降低,对密集预测任务至关重要的局部信息会被丢弃

为了克服这些限制,最近提出了几种方法

种解决方案是通过使用的卷积核尺寸、二次卷积和图像/特征金字塔来直接操纵卷积操作一个解决方案是将注意力模块集成到完全卷积的网络架构中。这样的模块旨在为特征图中所有像素的全局交互进行建模。当应用于单眼深度预测时,一般的方法是将注意力模块与多尺度融合方法相结合。最近,Huynh人提出了一个深度注意力体积来纳入网络的非局部共平面约束

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MengYa_DreamZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值