AMiner论文推荐

论文名称:Vision Transformers for Dense Prediction
论文地址:https://www.aminer.cn/pub/605da47491e0113c28655816?f=zh
图像语义分割的目标是将图像的每个像素所属类别进行标注。因为是预测图像中的每个像素,这个任务通常被称为密集预测。
当前,密集预测的架构几乎都是基于卷积网络的,且通常遵循一种模式:将网络分为一个编码器和一个解码器,编码器通常基于图像分类网络,也称为主干,它是在一个大型语料库 (如 ImageNet) 上进行预训练的;解码器聚合来自编码器的特征,并将其转换为最终的密集预测。以往的密集预测架构研究通常关注解码器及其聚合策略,但实际上主干架构的选择对整个模型来说非常关键,因为在编码器中丢失的信息不可能在解码器中恢复。
在英特尔的一项研究中,研究者提出了 DPT 架构(dense prediction transformer)。DPT 是一种用于密集预测的新架构,它仍然基于编码器 - 解码器的设计,但其中利用 transformer 作为编码器的基础计算构建块。
具体而言,研究者使用此前的视觉 transformer(ViT)作为主干架构,将由 ViT 提供的词袋表征重组为各种分辨率下的类图像特征表征,并使用卷积解码器逐步将这些特征表征组合到最终的密集预测中。
Transformer 主干网络以一个不变的和相对高的分辨率来处理表征,并在每个阶段都有一个全局接感受野。与全卷积网络相比,这些特性允许 DPT 提供更好的细粒度和更全局一致的预测。
实验表明,这种架构对于密集预测任务有很大的改进,特别是在有大量训练数据可用的情况下。对于单目深度估计,研究者观察到相比于当前 SOTA 全卷积网络,新架构取得了高达 28% 的提升。当应用于语义分割时,DPT 在 ADE20K 上实现了新的 SOTA(49.02% mIoU)。此外,研究者也展示了该架构在较小的数据集上的微调结果,比如在 NYUv2、 KITTI 和 Pascal Context 均实现了新的 SOTA。
AMiner,让AI帮你理解科学!https://www.aminer.cn
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值