
Transformer大法好!本文从序列到序列的角度重新审视了深度估计问题,以使用位置信息和注意力将cost volume construction替换为密集的像素匹配。表现SOTA!性能优于Bi3D、GwcNet和LEAStereo网络,代码刚刚开源!
Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers

作者单位:约翰·霍普金斯大学
代码:https://github.com/mli0603/stereo-transformer
论文:https://arxiv.org/abs/2011.02910
注:文末附深度估计学习交流群。如果上述论文链接无法访问,可以看文末,论文已上传至百度云,方便下载。
立体深度估计依赖于左右图像中对极线上像素之间的最佳对应匹配来推断深度。在这项工作中,我们没有从各个像素上进行匹配,而是从序列到序列的对应角度重新审视了该问题,以使用位置信息和注意力将cost volume construction替换为密集的像素匹配。这种称为STereo TRansformer(STTR)的方法具有以下优点: