4D Gaussian Splatting with Scale-aware Residual Field and Adaptive Optimization for Real-time Rendering of Temporally Complex Dynamic Scenes
Abstract
从视频序列中重建动态场景是多媒体领域中一个很有前途的课题。虽然以前的方法已经取得了进展,但它们经常与缓慢的渲染和管理时间复杂性(如重大运动和对象出现/消失)作斗争。在本文中,我们提出了SaRO-GS作为一种新的动态场景表示,能够实现实时渲染,同时有效地处理动态场景中的时间复杂性。为了解决渲染速度慢的问题,我们采用基于高斯基元的表示,并在四维空间中优化高斯分布,从而在三维高斯飞溅的帮助下实现实时渲染。此外,为了处理时间复杂的动态场景,我们引入了尺度感知残差场。该领域在对高斯基元残差特征进行编码时考虑了每个高斯基元的大小信息,并与高斯基元的自分裂行为保持一致。在此基础上,提出了一种自适应优化方案,根据高斯基元不同的时间属性,对其分配不同的优化策略,从而加快了动态区域的重建。通过对单目和多视图数据集的评估,我们的方法已经展示了最先进的性能。请参阅我们的项目页面https://yjb6.github.io/SaROGS.github.io/
1 INTRODUCTION
处理具有时间复杂性的动态场景。 为应对上述挑战,我们提出了SaRO - GS,旨在实现实时渲染,同时保持对具有时间复杂性的动态场景进行高质量重建。SaRO - GS由一组4D空间中的高斯基元(Gaussian primitives)和一个尺度感知残差场(Scale - aware Residual Field)组成。每个高斯基元通过自适应优化策略(Adaptive Optimization strategy)根据其独特的时间属性获得独特的优化方案。为解决渲染速度慢的问题,4D空间中的高斯基元可以基于从尺度感知残差场获得的时间属性和残差特征投影到3D空间。这样我们就能利用3DGS引入的快速可微分光栅化器(fast differentiable rasterizer)实现实时渲染。
对于具有时间复杂性的场景进行高质量建模,我们采用以下策略:首先,每个4D高斯基元都具有时间属性,包括时间位置和生命周期。生命周期使我们能够对动态场景中物体的出现和消失进行建模,而高斯基元的时间位置跨越整个时间范围,而不是像以前的方法那样固定在第0帧。此外,我们将高斯基元的尺度信息纳入残差场,以适应椭圆体性质。通过编码高斯基元所占据的区域,而不仅仅是它们的位置,我们确保了精确的特征提取,并与高斯基元的自分裂行为保持一致。第三,我们引入了一种自适应优化策略,根据每个高斯基元的时间属性为其分配独特的优化策略,有助于更快地重建动态区域。
我们在单目和多视角动态场景数据集上对我们的方法进行了广泛评估,这些数据集包括真实场景和合成场景。定量和定性的结果都表明,我们的方法能够实时实现高质量渲染,并有效处理动态场景中的时间复杂性。我们的贡献总结如下:
- 我们提出了一个尺度感知残差场(Scale - aware Residual Field),将高斯函数的尺度信息纳入其中。考虑到高斯基元(Gaussian primitives)的椭圆体性质和自分裂行为,这使得时空表示更加精确。
- 我们引入了一种自适应优化策略(Adaptive Optimization strategy),根据高斯基元独特的时间属性为其分配独特的优化方案,从而增强了动态区域的重建。
- 我们的SaRO - GS在处理时间复杂场景方面表现出色,在重建质量和渲染速度上都达到了最先进的性能。与基于NeRF的方法相比,它的渲染速度提高了80倍,如图1所示。SaRO - GS具有通用性,适用于单目和多视角场景,并且无需先验知识就能实现动态场景分割。
3 PRELIMINARY
3.1 3D Gaussian Splatting
给定一组静态场景的输入图像及其相应的相机参数,3D Gaussian Splitting从初始点云开始重建静态场景,采用3D高斯函数作为基元。这种方法能够实现高质量的实时新视角合成。 在3DGS中,每个高斯基元包含一组属性,包括3D位置、不透明度
和协方差矩阵
。一个3D高斯
可以表示为:
为了便于优化,3DGS采用一个缩放矩阵和一个旋转矩阵
来表示协方差,将其存储为用于缩放的3D向量
和用于旋转的四元数
。
此外,3DGS利用球谐(SH)系数来表示与视角相关的颜色。 基于3DGS实现的快速可微分光栅化器,我们可以通过高斯散点法实现快速图像渲染。为了从给定视角获取渲染图像,我们首先应该将3D高斯基元投影到2D。具体来说,对于给定的视角变换矩阵和投影矩阵
,我们可以得到2D空间中的协方差和位置:
其中是投影变换的雅可比近似。并且我们可以基于公式(1)得到2D高斯
。 在根据深度将高斯基元在2D空间中排序后,我们可以得到图像中指定像素的颜色:
这里,表示通过将
的球谐系数与视角方向相结合而获得的与视角相关的颜色。
3.2 基于六面体平面的4D体表示
之前利用平面场编码器对动态场景进行建模的工作大多采用六面体平面,它包含空间平面
和时空平面
。