计算机视觉与机器学习:图像重建与NeRF技术解析
1. 图像参数计算与处理
在计算机视觉和机器学习领域,我们常常需要处理图像的各种参数。对于某些图像问题,会得到形如 $A \cdot p = 0$ 的方程,这里的矩阵 $p$ 包含 12 个未知参数。这是一个齐次最小二乘问题,可以通过求解特征方程 $A^TAp = \lambda p$ 来得到这 12 个参数,求解需满足两个条件:$||A \cdot p||^2 = \min$ 和 $p^T \cdot p = 1$。我们可以使用 Colmap 和 colmap2nerf.py 自动计算每个图像的这 12 个参数。
2. 使用MLP与高斯傅里叶特征映射重建图像
在任何 NeRF 项目中,最具挑战性的部分是对图像像素 $[u, v]$ 进行预处理,以获取物体的 3D 世界坐标 $[x_w, y_w, z_w]$。而 NeRF 模型及其训练相对容易。
多层感知器(MLP)是一种全连接的多层神经网络,在之前的一些模型中已有应用。我们可以利用图像的像素坐标 $(u, v)$ 和 RGB 颜色 $(r, g, b)$ 作为两个数据集,让 MLP 模型模拟并重建图像。不过,预处理原始输入数据对于机器学习项目至关重要,它往往对模型训练结果起着关键作用。例如,当图像分辨率为 512x512 时,需要将每个像素的 $u$ 和 $v$ 值从 $[0, 511]$ 归一化到 $[-1, 1]$,将其 RGB 值从 $[0, 255]$ 归一化到 $[0, 1]$。
然而,标准的 MLP 模型在学习图像高频细节方面存在问题。通过对比图 12.5A 的真实图像和图 12.5B 未进行位置编码的预测图像,可以发现图
超级会员免费看
订阅专栏 解锁全文
1095

被折叠的 条评论
为什么被折叠?



