ECCV2018 oral MVSNet 错误公式纠正及正确源代码推导解释

原创

已于 2022-10-12 14:17:01 修改 · 1.1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #ECCV

于 2021-11-06 20:26:28 首次发布

本文分析了ECCV2018 MVSNet论文中关于Homography的错误公式，并提供了正确的推导过程。错误公式影响了后续的CVPR2020 CascadeCostVolume论文。作者详细阐述了从世界坐标系到不同相机坐标的转换，以及Homography矩阵的正确构建方式。源代码分析显示，开源实现遵循了正确的公式。

2022-10-10 更新

这个公式与经典的 homography 的区别就在于用世界坐标系到两个相机分别的旋转、平移替代掉了两个相机之间的旋转、平移。

原文

ECCV2018 的一篇 oral 论文 MVSNet: Depth Inference for Unstructured Multi-view Stereo 开启了用 深度学习做 MVS 的先河，但是在该篇论文的 3.2 Cost Volume 部分，却有一个关于 homography 的错误公式，令人匪夷所思的是，在它的Github 开源代码的相关部分，代码却是按照正确的公式来写的。该论文的错误公式影响了后面的许多论文，比如 CVPR 2020的一篇 oral 论文Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching 。本文会推导正确公式，并且解释 MVSNet 论文 Github 开源代码中相关代码为什么表示了正确了公式。
在这里插入图片描述

图1. ECCV2018 MVSNet: Depth Inference for Unstructured Multi-view Stereo 论文中 3.2 Cost Volume 错误公式

在这里插入图片描述

图2. CVPR2020 Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching 论文中 3.1. Cost volume Formulation 错误公式

首先，在图1 公式中有个明显的错误，就是等式最右边的项 $K_{1}^{T}$ ， 内参矩阵的转置毫无意义，论文中想要表达的是内参矩阵的逆，应该是 $K_{1}^{-1}$ 。
为了推导出正确的公式，本文需要做两个准备

准备1 推导出关于两个视图的R, t

首先，对于数据集中的所有视图（image），共用一个公共的世界（大地）坐标系。在准备数据集的时候，每个视图都会做 calibration，都会得到从世界坐标系到每个视图的相机坐标系下需要做的旋转（ $3\times3$ 旋转矩阵）和平移（ $3\times1$ 平移向量）。论文中是多视图，且有对于每个 3d scene，指定第一张 image 为 reference image。在本文中，只需推导两个视图的情况。针对多视图的公式，只需要固定 reference image的视图，另外一个视图更换成其他的视图即可。