【3DGS】从新视角合成到3D Gaussian Splatting

本文介绍了新视角合成任务,着重讲解了3DGS的三维重建方法,通过SFM获取点云并构建高斯点云模型,利用球谐函数表示颜色和形状。与NeRF的体渲染相比,3DGS通过泼溅(splatting)和并行计算优化渲染过程,但存储需求较大。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


引言:什么是新视角合成任务

定义

新视角合成(Novel View Synthesis),属于计算机视觉领域,该任务要求:

  1. 输入源图像(Source)
  2. 输入源姿态(Source Pose)
  3. 输入目标姿态(Target Pose)

最终获得:

  • 目标姿态对应的的图片(Target)

无论是2020ECCV的best paper,NeRF,还是2023年爆火的3DGS,都是为了完成NVS任务。

一般步骤

  1. 三维重建: 从已有视角的图像中推断出场景的三维几何信息,包括物体的形状和位置。

  2. 渲染: 利用三维重建的信息,通过渲染技术生成新视角下的图像,考虑光照和纹理等因素。

这两个步骤是新视角合成的基本框架,涵盖了几何重建和图像合成的关键概念。在实践中,可以根据具体应用的需求进一步细化这些步骤,例如加入光照模型、深度合成等处理,以提高合成图像的质量和真实感。

NeRF的做法

让我们来以NeRF为例子,更加深刻地了解一个新视角合成任务的步骤。当然,笔者不会写的特别详细,否则这篇文章就变成NeRF的介绍了。如果对NeRF特别感兴趣,可以阅读笔者的另一篇文章

在这里插入图片描述

NeRF的三维重建

NeRF成功最大因素就在于它借用了深度学习的东西去进行三维重建。简单地说,NeRF利用多层感知机(MLP)创建了一个函数。

在这里插入图片描述

这个函数接受一个向量 ( x , y , z , θ , ϕ ) (x,y,z,\theta,\phi ) (x,y,z,θ,ϕ)作为输入,其中, ( x , y , z ) (x,y,z) (x,y,z)表示这个点在空间中的坐标, ( θ , ϕ ) (\theta,\phi ) (θ,ϕ)表示观察角度(俯仰角pitch和偏航角yaw)。它的输出是 ( R G B , σ ) (RGB,\sigma ) (RGB,σ)。RGB很好理解,就是这个点的颜色。而 σ \sigma σ,是一个被称为体素密度的计算量。这两个输出的量是为了后面的体渲染做准备。

有了这个函数之后,对于三维空间中指定坐标的任何一点,都可以知道它的 ( R G B , σ ) (RGB,\sigma ) (RGB,σ)。而且,由于使用的是MLP来表示这个函数,那么这个函数就是连续的、可微分的,也就可以用反向传播去优化。

NeRF的渲染

在这里插入图片描述

NeRF的渲染方式采用经典的体渲染。具体的算法本文不再赘述。总而言之,体渲染需要三个参数作为输入:

  1. 目标位姿
  2. 空间中每个位置的体素密度
  3. 空间中每个位置的RGB颜色值

然后输出:

  • 目标位姿对应的图片

当然,这种方法也是可微的。

这种体渲染的方式需要以像素为单位生成光线,然后在光线上对空间内的点进行采样,因此,每个像素点在渲染时都需要计算对应的光线,成本相当高昂,在渲染高分辨率图像时帧率非常低下,无法做到实时渲染。

同样基于这个原因,NeRF优化参数时,在源图像与生成图像上只会选择一些像素点,去计算RGB颜色值的损失,进行反向传播,优化MLP的参数,而不是将所有像素点都拿来计算损失。

3DGS的三维重建

从一组图片估计点云

3DGS使用SFM(Structure from Motion)方法完成了从一组图片估计点云的步骤,甚至不需要给出相机的位姿就可以获得点云。这是一种非常成熟的方法,由Schönberger和Frahm等人于2016年提出,已经封装在COLMAP库中,在3DGS开源的代码中可以直接调用。

在这里插入图片描述

在这里插入图片描述

此方法的具体内容不是本文要探讨的,可阅读原文献

高斯点云模型

3DGS从获得的稀疏点云开始,创建并且优化高斯点云每个高斯点包含以下几个用来渲染的重要属性

  1. 点的坐标,Position,即3D高斯函数的均值(Mean)
  2. 协方差矩阵,Covariance matrix,决定这个高斯点的形状
  3. 不透明度,Opacity α \alpha α,在渲染时用到
  4. 球谐函数,Spherical harmonics,在3DGS中表示这个高斯点在任意视角下的颜色

在这里插入图片描述

球谐函数

球谐函数(Spherical Harmonics, SH)是一组定义在球面上的特殊函数,通常用来表示球面上的函数。球谐函数在图形学、计算机图形学和计算机图像等领域中广泛应用。在3DGS中,球谐函数用于近似光照和颜色分布。

虽然球谐函数是定义在球面上,但是这个函数的输入并不是坐标 ( x , y , z ) (x,y,z) (x,y,z),而是视角 ( θ , ϕ ) (\theta,\phi ) (θ,ϕ),它的输出是RGB颜色值。

在这里插入图片描述

只要给定了欲生成图片的目标位姿之后,就可以知道这个点对应的视角 ( θ , ϕ ) (\theta,\phi ) (θ,ϕ),从而根据这个函数计算这个点在图片上应该呈现出的颜色。因此,球谐函数的参数也是优化的目标之一。

参数优化

在这里插入图片描述

  1. 使用所有的高斯点,使用源图像的位姿,渲染出图像
  2. 根据源图像和渲染图像,计算损失,并反向传播进行优化。优化的对象有:
    • 协方差矩阵,Covariance matrix
    • 不透明度,Opacity α \alpha α
    • 球谐函数,Spherical harmonics
  3. 对高斯点的数量进行控制,即进行克隆、分裂或者删除

损失函数和参数优化

论文中,损失函数定义如下:

L = ( 1 − λ ) L 1 + λ L D-SSIM  \mathcal{L}=(1-\lambda) \mathcal{L}_{1}+\lambda \mathcal{L}_{\text {D-SSIM }} L=(1λ)L1+λLD-SSIM 

其中, L 1 \mathcal{L}_{1} L

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnderTurrets

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值