【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】

最新推荐文章于 2025-01-14 18:19:51 发布

原创最新推荐文章于 2025-01-14 18:19:51 发布 · 706 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#decoder

深度学习同时被 3 个专栏收录

48 篇文章

订阅专栏

机器学习

45 篇文章

订阅专栏

计算机视觉

26 篇文章

订阅专栏

本文深入探讨了Google关于Decoder结构的研究，对比了多种上采样方法如Transposed Convolution、DepthToSpace等，并提出了一种结合Bilinear Upsampling与Residual Connection的创新上采样方案。文章还详细分析了每种方法的优缺点，为深度学习模型的设计提供了有价值的见解。

一、这是google的一篇探索的文章，探讨decoder结构的一篇文章

二、主要贡献点

1、探讨了不同的几种decoder的优劣，提出自己的上采样方案

2、提出针对上采样的residual connection

3、横向多任务对比各种不同方案

三、不同结构decoder的对比

Transposed Convolution：这个也是我们常说的“反卷积” “上采样卷积”，但是要注意这并不是卷积的“反操作”，而是一种类似普通上采样的操作。具体过程分为两步：1、根据放大倍数，填0；2、普通卷积操作。下面这张图非常清晰的显示了，整个过程，3x3的反卷积，总体stride=2.从结构上谈这个模块的缺点的话，我认为主要是输出map的每个pixel的来源不平衡，有的来源2个，有的4个，有的只有1个。3x3的卷积核能否应对h，w较大时，产生一个较好的soomth系数，对于feature map的每个区域都适用？

Decomposed Transposed Convolution：这个如果熟悉inception的人，其实很好理解，把3x3的卷积拆成1x3，和3x1，这样参数就少了，那么整个操作流程就是：先竖着填0，卷积，横着填0，卷积。这是第一种的严格子集。

Separable Transposed Convolution : 这个就是分离卷积，先通道，在1x1，依然是减少参数。这是第一种的严格子集。

Depth To Space ：可以搜下pixel shuffle，基本上就是这个意思。这个会带入“对齐问题”，因为同一组feature maps，虽然不同通道，但是计算来源都是一样的。The drawback of this approach is that it introduces alignment artifacts.为什么呢？我没办法给出一个理论上的解释。有没有人解释下？