ICCV 2025 Highlight|降低190倍内存,渲染质量不减反增!MEGA刷新4DGS性能极限

导读
4D Gaussian Splatting 火了,但你知道它背后的“代价”吗?尽管这种技术能用“会呼吸的点云”高效重建动态3D场景,渲染又快又精致,但也付出了沉重的内存代价——几百万个高斯点,每个都挂着一堆参数,动辄几十G显存。本文作者另辟蹊径,提出一种极致压缩的4DGS框架:不仅把颜色属性从球谐系数砍到3个参数,还通过“共享预测器+变形场+熵正则”控制点数量,压缩比高达190倍!更关键的是,速度没降,质量还在,用更少的点,描绘更丰富的世界。可以说,这是继原始4DGS之后,这条技术路径上的又一次重要跃迁。

论文出处:ICCV2025 (Highlight)

论文标题:MEGA: Memory-Efficient 4D Gaussian Splatting for Dynamic Scenes

论文作者:Xinjie Zhang, Zhening Liu, Yifan Zhang, Xingtong Ge, Dailan He, Tongda Xu, Yan Wang, Zehong Lin, Shuicheng Yan, Jun Zhang

图1|作者提出的方法在保持与 4D Gaussian Splatting(4DGS)相当的真实感质量与实时渲染速度的同时,显著降低了存储需求。其核心思想是构建一种内存高效的 4D 高斯表示形式,并尽可能使用更少数量的高斯来精准拟合动态场景。图(a)中展示了在渲染 Birthday 场景时,4DGS 需要多达 1300 万个高斯点,而该方法仅需约 91 万个。图(b)则呈现了在 Technicolor 数据集上,与多个强有力的对比方法在渲染质量、存储空间和渲染速度等方面的量化对比结果

视角视频的动态场景重建,正成为计算机视觉与图形学中的研究热点,广泛应用于虚拟现实(VR)、增强现实(AR)以及3D内容生产领域。NeRF(神经辐射场)的出现使得从多视图图像合成新视角成为可能,但其基于光线上密集采样的特性导致渲染速度较慢,限制了实际应用。

近年来,3D Gaussian Splatting(3DGS) 技术提出了一种显式的3D高斯表示配合可微分的光栅化渲染方式,大幅提升了渲染速度。基于此,4D Gaussian Splatting(4DGS) 应运而生,将时间维度纳入高斯表示中,将一个动态场景建模为一个4D的时空高斯超柱体。在任意时间戳下,4DGS会将其切片为3D高斯点,再通过不透明度过滤来保留当前可见部分,实现对出现/消失物体的建模,最终通过光栅化方式进行快速渲染。

然而,4DGS 的一个关键瓶颈是其巨大的内存需求。以 Birthday 场景为例,需约 1300 万个高斯点,单个场景占用约 7.79GB 存储,严重限制其在边缘设备(如AR/VR头显)上的部署。为解决这个问题,本文提出了一种面向内存优化的4D Gaussian Splatting 框架(MEGA)。

本方法主要创新包括:

颜色压缩机制

将每个高斯的颜色属性拆解为:

 一个仅需3个参数的DC(直流)颜色分量;

 一个AC(交流)颜色预测器,可根据时间和视角动态预测颜色变化。该预测器为一个轻量三层MLP。

这一设计避免了原始方法中多达144维的球谐系数表示,实现约8倍压缩。

熵约束的高斯变形机制

为提升每个高斯的有效覆盖范围,作者引入了一个基于时间和视角的高斯形变场,可建模高斯的运动与转瞬变化。同时,加入基于空间不透明度的熵损失,将高斯点的不透明度推向二值状态,从而剔除对最终渲染贡献较小的高斯,减少总数量并提升利用率。

轻量化存储

使用 16位浮点数(FP16) 存储配合 zip delta 压缩技术,实现进一步压缩。

综合上述方法,作者在 Technicolor 和 Neural 3D Video 两个数据集上分别实现了 约190倍和125倍的存储压缩率,同时保持了与原始4DGS方法相当的渲染速度与场景重建质量,成为该领域中的新一代轻量化标准

2图示展示了 4D Gaussian Splatting 中的时间切片过程,为简洁起见省略了 z 轴。一个 4D 高斯可以被看作是 4D 空间中的超柱体。当给定特定时间点后,系统会从该超柱体中提取出对应的 3D 高斯椭球。椭球的颜色深度表示其时间不透明度。对于那些时间不透明度低于预设阈值的 3D 高斯椭球,将被排除在渲染场景之外

本研究的方法基于先前提出的 4D Gaussian Splatting 技术。这项技术通过可微的光栅化方法,优化一组高维高斯分布,进而高效表达动态场景,并实现高质量的新视角图像实时渲染。

每一个 4D 高斯实体包含以下几个属性:

 空间和时间上的四维中心位置(x、y、z 及时间 t)。

 描述旋转的四元数(分别为左旋与右旋两个向量)。

 对应四个维度的缩放因子。

 用于建模颜色变化的高维球谐系数,用来表达时间和视角变化下的 RGB 颜色。

 空间不透明度值(介于0到1之间)。

在渲染任意时间点的图像时,系统会将每个 4D 高斯“切片”为一个时间相关的三维高斯。这一切片过程包含:

 根据当前时间,对高斯的位置和密度进行调节,使其只在与其中心时间接近的区域内有效;

 每个高斯的中心位置随时间线性移动,其密度也随时间距离呈现高峰衰减的特性;

接着,这些切片后的高斯会投影到图像平面,并通过可微光栅化完成最终图像渲染。

该方法虽可合成高质量视图,但为了完整表达场景,需要大量高斯点,这使得存储需求高、压缩困难。因此,作者提出了内存优化的增强版本:MEGA

3|全文方法总览

Memory-Efficient 4D Gaussian Splatting

总体思路

如图3所示,作者设计了一种轻量化的4D高斯框架,从两个方面着手减小模型大小:

 一是减少每个高斯的存储参数;

 二是通过几何变形扩展高斯的“作用范围”,以更少的高斯数量表达复杂动态。

具体地,在渲染前,每个高斯都会根据具体时间和视角进行颜色预测与几何变形。这一变换不仅提高了每个高斯在渲染中的参与度,也显著降低了总体高斯数量需求。

渲染过程仍遵循原始 4DGS 的流程,包括时间切片、投影、光栅化等步骤。

一)轻量化的颜色表示:DC-AC 表达方法

在标准4DGS中,用于表达颜色变化的球谐系数占据了大部分存储空间(约占参数总量的 90%)。尽管已有工作尝试用神经场代替球谐系数,但实验显示该方式会显著损失渲染质量。

因此,本文提出了一种混合颜色建模方式:将颜色属性分为两部分:

 DC分量:为每个高斯分配一个固定颜色(仅包含3个RGB值);

 AC分量:使用一个轻量多层感知机(MLP)作为预测器,基于高斯位置、观察视角、时间与DC颜色来预测颜色变化。

这种方式保留了个体颜色特征(DC),同时用神经网络补充时间和视角变化(AC),在保证渲染质量的同时,将存储开销降低至原始方案的 1/8。

二)限制熵的高斯几何变形机制

标准4DGS默认高斯的运动为线性,旋转和缩放保持不变。这种近似虽然简化了计算,但难以表达复杂非线性变化,因而需要引入大量冗余高斯才能补足表达能力。

同时,由于时间衰减机制的限制,在每一帧图像中,往往只有约6%的高斯真正参与渲染,导致资源浪费严重。

为此,作者引入了一个时间-视角相关的几何变形预测器。它基于:高斯中心位置、当前视角方向、当前时间,对每个高斯的中心位置、尺度因子、旋转参数进行变形预测。这样,每个高斯的“活动范围”得以扩展,避免因作用范围过窄而冗余生成多个相似高斯。

此外,为了防止在优化过程中高斯数量膨胀,作者还引入了一个基于空间不透明度的熵约束损失,使得每个高斯的空间不透明度趋向于0或1(即要么完全参与渲染,要么完全被剔除)。训练时,系统定期剪除低影响高斯,从而维持高效表达与紧凑存储。

实验显示,在该机制下,每帧图像中参与渲染的高斯比例可从原来的不到50%提升到75%左右,表达效率显著增强。

4(a) 在不同时间步下参与渲染的 Gaussians 在 Birthday 场景中的比例。蓝色曲线表示在不使用每个 Gaussian 的变换操作时,MEGA 模型中实际参与渲染的 Gaussians 数量。(b) 训练过程中,在 Birthday 场景中参与渲染的 Gaussians 数量随时间变化的可视化结果。

训练与压缩流程

损失函数设计

训练过程中采用以下三种损失项:

 图像重建损失:包括L1损失与结构相似性(SSIM)损失,用于衡量渲染图像与真实图像之间的差异;

 不透明度正则项:即前文提到的熵约束损失,鼓励不透明度收敛到极端值,从而便于剪枝。

 三者加权组合形成总损失,其中各项的权重通过超参数控制。

模型压缩策略

在训练阶段使用半精度(FP16)参数格式,优化完成后将模型存储为16位浮点格式,并应用 zip delta 无损压缩算法,进一步压缩存储空间,平均可再减小约10%。

整体而言,该方法以“压缩颜色表示 + 提高几何表达能力 + 剪枝冗余点 + 压缩格式存储”为核心,系统性解决了4DGS在大规模动态重建任务中“质量与体积难兼得”的问题

作者在两个真实世界的动态场景数据集上评估了MEGA的性能:

 Technicolor Light Field Dataset:多视角时间同步视频数据,采用5个典型场景(如Birthday、Painter等),图像分辨率为2048×1088。

 Neural 3D Video Dataset(Neu3DV):包含6个高分辨率室内动态场景,场景中包含多个物体的复杂运动,渲染分辨率为原始尺寸的一半。

评估指标包括:

 PSNR(峰值信噪比):衡量像素级误差;

 DSSIM(结构相似性反指标):衡量结构差异,提供两个版本(DSSIM1 / DSSIM2)用于公平对比;

 LPIPS(感知相似度):基于神经网络的高层视觉质量评估;

 FPS(渲染帧率):衡量渲染速度;

 存储空间(Storage):衡量模型压缩比。

对比方法涵盖:

原始的 4DGS 方法;

 多种 NeRF 系列代表方法(如 DyNeRF、HyperReel、MixVoxels);

 高斯渲染体系的最新扩展(如 Dynamic 3DGS、STG、E-D3DGS 等)

主要实验结果

Technicolor 数据集(图5

在五个动态场景中,MEGA 在多项指标上显著超越基线方法:

相较于原始 4DGS:

 PSNR 提升 1.2 dB;

 DSSIM 和 LPIPS 分别下降 0.006 和 0.018,图像结构更清晰;

 存储需求减少 190 倍,渲染速度提升 50%。

相较于 NeRF 系方法 HyperReel:

 PSNR 提升约 0.87 dB;

 渲染速度快 20 倍,存储空间减半。

 相较于最强高斯方法 STG:

 PSNR 提高 0.22 dB,质量更高;存储需求再降 40%。

5Technicolor数据集定量实验结果

6中的定性可视化也表明,MEGA能更清晰地保留场景细节,避免伪影产生。

6渲染定性实验结果

Neu3DV 数据集(图7

MEGA 在六个更复杂的动态场景中同样展现强大表现:

相比 4DGS,平均压缩比高达 125×;

 相较于最优 NeRF 系方法 MixVoxels:

 存储降低 20 倍;

 推理速度提升 16 倍;

 渲染质量保持一致或略优。

该结果显示 MEGA 在高压缩比下依然具有强大的视觉还原能力,适合复杂动态场景部署。

7Neu3DV定量实验结果

消融实验

为了分析不同模块的贡献,作者在 Technicolor 和 Neu3DV 中的代表场景上开展了消融实验,得出以下关键结论:

1. DC-AC颜色建模模块

替代球谐系数后,若仅使用 grid-based 网络表示颜色,尽管参数减少 10 倍,但渲染质量大幅下降;采用 MEGA 的 DC-AC 结构后,既保持压缩比,又显著优于 grid 方法,几乎恢复原4DGS 的渲染质量;原因在于 DC 保留静态颜色,AC 预测动态变化,两者协同兼顾细节与变化。

2. 高斯变形与熵约束机制

 仅使用高斯变形时,尽管表达力增强,但高斯数量会明显增加;

 仅使用不透明度熵损失,则高斯作用范围受限,表达不足;

两者结合后,即能维持高表达质量,又能大幅减少高斯数量,验证了压缩机制的核心贡献。

小结

MEGA 在保持与原始4DGS近似的图像质量的同时,大幅压缩模型大小与加速渲染效率,在两个动态场景数据集上均优于现有 NeRF 和高斯方法,展现出极强的实用性和可部署性。特别是在资源受限或需要实时渲染的应用场景中,MEGA提供了当前最具性价比的解决方案。

8消融实验结果

在本研究中,作者提出了一种面向 4D 高斯渲染的全新记忆优化框架。该方法通过将颜色属性拆解为每个高斯点的直流分量(DC)与一个共享的、轻量级的交流颜色预测器(AC),显著压缩了每个高斯点所需的参数量,同时不影响渲染性能。

为了进一步减少 4D 高斯之间的冗余,作者引入了熵约束的高斯变形机制,有效扩展了每个高斯的作用范围,从而提高了其利用率。这使得模型能够以更少的高斯点完成高质量的动态场景重建。

大量实验结果验证了该方法的有效性——在保持重建质量和实时渲染速度的前提下,存储需求相比原始 4DGS 实现了 百倍以上的压缩。该成果在高性能、轻量化和实时渲染三个维度上树立了新的基准

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值