立体匹配（视差估计）评价指标（MiddleBurry、KITTI 2012、KITTI 2015、Scene Flow、ETH3D)

CV科研随想录

已于 2023-12-25 14:50:21 修改

阅读量1.3w

点赞数 47

分类专栏：基于图像的双目立体视觉三维重建文章标签：计算机视觉深度学习人工智能神经网络

于 2022-04-29 12:13:18 首次发布

版权

3 篇文章

订阅专栏

MiddleBurry 数据集：

评估区域：

评估指标：

bad $\delta_{D}$ ： $\frac{1}{N} \sum_{(x, y)\in N}\{|d_{est}(x, y)-d_{gt}(x, y)|>\delta_{D}\}$ ：估计值与真实值相差大于 $\delta_{D}$ 的像素的比例， $\delta_{D}$ 可以取0.5、1.0、2.0、4.0
avgerr： $\frac{1}{N}\sum_{(x,y)\in N}|d_{est}(x,y)-d_{gt}(x,y)|$ ：平均绝对误差
rms： $\sqrt{\frac{1}{N} \sum_{(x, y)\in N}\left|d_{est}(x, y)-d_{gt}(x, y)\right|^{2}}$ ：均方误差

KITTI 2012 是真实驾驶场景的数据集，其包含194个训练图像对和195个测试图像对，图像分辨率为1226×370。该数据集提供了使用激光雷达获得的稀疏真实视差值。

评估区域：

评估指标：

若视差 $|d_{est}-d_{gt}|<\delta_{D}$ ，则视为正确估计，阈值 $\delta_{D}$ 可为2，3，4，5像素

Out-Noc: $\delta_{D}$ ： $\frac{1}{N_{noc}} \sum_{(x, y)\in N_{noc}}\{|d_{est}(x, y)-d_{gt}(x, y)|>\delta_{D}\}$ ：非遮挡区域错误预测像素的比例
Out-All: $\delta_{D}$ ： $\frac{1}{N_{all}} \sum_{(x, y)\in N_{all}}\{|d_{est}(x, y)-d_{gt}(x, y)|>\delta_{D}\}$ ：全部区域错误预测像素的比例
Avg-Noc: $\frac{1}{N_{noc}}\sum_{(x,y)\in N_{noc}}|d_{est}(x,y)-d_{gt}(x,y)|$ ：非遮挡区域的端点误差（EPE-Noc）
Avg-All: $\frac{1}{N_{all}}\sum_{(x,y)\in N_{all}}|d_{est}(x,y)-d_{gt}(x,y)|$ ：全部区域的端点误差（EPE）

KITTI 2015是真实驾驶场景的数据集。KITTI 2015包含200个训练图像对和200个测试图像对，图像分辨率为1242×375，该数据集提供了使用激光雷达获得的稀疏地面真实视差值。

评估图像：

评估区域：

评估指标：

若视差或流端点误差 $d_{est}-d_{gt}|<3$ px或 $\frac{{|d_{est}(x,y)-d_{gt}(x,y)|}}{d_{gt}}<5\%$ 则视为正确估计

Scene Flow是利用软件渲染生成的虚拟立体数据集，包含35454个训练图像对和4370个测试图像对，分辨率为960×540，该数据集提供稠密的视差图真实值。

若视差或流端点误差 $d_{est}-d_{gt}|<3$ px或 $\frac{{|d_{est}(x,y)-d_{gt}(x,y)|}}{d_{gt}}<5\%$ 则视为正确估计

EPE： $\frac{1}{N}\sum_{(x,y)\in N}|d_{est}(x,y)-d_{gt}(x,y)|$ ：全部区域的端点误差（EPE）
>1px： $\frac{1}{N_{all}} \sum_{(x, y)\in N_{all}}\{|d_{est}(x, y)-d_{gt}(x, y)|>1\}$ ：预测误差大于1px的像素的比例
>2px： $\frac{1}{N_{all}} \sum_{(x, y)\in N_{all}}\{|d_{est}(x, y)-d_{gt}(x, y)|>2\}$ ：预测误差大于2px的像素的比例
>3px： $\frac{1}{N_{all}} \sum_{(x, y)\in N_{all}}\{|d_{est}(x, y)-d_{gt}(x, y)|>3\}$ ：预测误差大于3px的像素的比例
D1：对于第一帧图像，预测正确的像素的比例

ETH3D是室内和室外场景中的灰度立体数据集。其包含27个训练图像对与20个测试图像对，该数据集带有稀疏的视差真实值。视差范围在0-64之间。
评估指标：

bad $\delta_{D}$ ： $\frac{1}{N} \sum_{(x, y)\in N}\{|d_{est}(x, y)-d_{gt}(x, y)|>\delta_{D}\}$ ：估计值与真实值相差大于 $\delta_{D}$ 的像素的比例， $\delta_{D}$ 可以取1.0、2.0