ICCV 2025 Highlight｜降低190倍内存，渲染质量不减反增！MEGA刷新4DGS性能极限-优快云博客

导读

4D Gaussian Splatting 火了，但你知道它背后的“代价”吗？尽管这种技术能用“会呼吸的点云”高效重建动态3D场景，渲染又快又精致，但也付出了沉重的内存代价——几百万个高斯点，每个都挂着一堆参数，动辄几十G显存。本文作者另辟蹊径，提出一种极致压缩的4DGS框架：不仅把颜色属性从球谐系数砍到3个参数，还通过“共享预测器+变形场+熵正则”控制点数量，压缩比高达190倍！更关键的是，速度没降，质量还在，用更少的点，描绘更丰富的世界。可以说，这是继原始4DGS之后，这条技术路径上的又一次重要跃迁。

论文出处：ICCV2025 (Highlight)

论文标题：MEGA: Memory-Efficient 4D Gaussian Splatting for Dynamic Scenes

论文作者：Xinjie Zhang, Zhening Liu, Yifan Zhang, Xingtong Ge, Dailan He, Tongda Xu, Yan Wang, Zehong Lin, Shuicheng Yan, Jun Zhang

图1｜作者提出的方法在保持与 4D Gaussian Splatting（4DGS）相当的真实感质量与实时渲染速度的同时，显著降低了存储需求。其核心思想是构建一种内存高效的 4D 高斯表示形式，并尽可能使用更少数量的高斯来精准拟合动态场景。图（a）中展示了在渲染 Birthday 场景时，4DGS 需要多达 1300 万个高斯点，而该方法仅需约 91 万个。图（b）则呈现了在 Technicolor 数据集上，与多个强有力的对比方法在渲染质量、存储空间和渲染速度等方面的量化对比结果

视角视频的动态场景重建，正成为计算机视觉与图形学中的研究热点，广泛应用于虚拟现实（VR）、增强现实（AR）以及3D内容生产领域。NeRF（神经辐射场）的出现使得从多视图图像合成新视角成为可能，但其基于光线上密集采样的特性导致渲染速度较慢，限制了实际应用。

近年来，3D Gaussian Splatting（3DGS）技术提出了一种显式的3D高斯表示配合可微分的光栅化渲染方式，大幅提升了渲染速度。基于此，4D Gaussian Splatting（4DGS）应运而生，将时间维度纳入高斯表示中，将一个动态场景建模为一个4D的时空高斯超柱体。在任意时间戳下，4DGS会将其切片为3D高斯点，再通过不透明度过滤来保留当前可见部分，实现对出现/消失物体的建模，最终通过光栅化方式进行快速渲染。

然而，4DGS 的一个关键瓶颈是其巨大的内存需求。以 Birthday 场景为例，需约 1300 万个高斯点，单个场景占用约 7.79GB 存储，严重限制其在边缘设备（如AR/VR头显）上的部署。为解决这个问题，本文提出了一种面向内存优化的4D Gaussian Splatting 框架（MEGA）。

本方法主要创新包括：

颜色压缩机制：

将每个高斯的颜色属性拆解为：

● 一个仅需3个参数的DC（直流）颜色分量；

● 一个AC（交流）颜色预测器，可根据时间和视角动态预测颜色变化。该预测器为一个轻量三层MLP。

这一设计避免了原始方法中多达144维的球谐系数表示，实现约8倍压缩。

熵约束的高斯变形机制：

为提升每个高斯的有效覆盖范围，作者引入了一个基于时间和视角的高斯形变场，可建模高斯的运动与转瞬变化。同时，加入基于空间不透明度的熵损失，将高斯点的不透明度推向二值状态，从而剔除对最终渲染贡献较小的高斯，减少总数量并提升利用率。

轻量化存储：

使用 16位浮点数（FP16）存储配合 zip delta 压缩技术，实现进一步压缩。

综合上述方法，作者在 Technicolor 和 Neural 3D Video 两个数据集上分别实现了约190倍和125倍的存储压缩率，同时保持了与原始4DGS方法相当的渲染速度与场景重建质量，成为该领域中的新一代轻量化标准。

图2｜图示展示了 4D Gaussian Splatting 中的时间切片过程，为简洁起见省略了 z 轴。一个 4D 高斯可以被看作是 4D 空间中的超柱体。当给定特定时间点后，系统会从该超柱体中提取出对应的 3D 高斯椭球。椭球的颜色深度表示其时间不透明度。对于那些时间不透明度低于预设阈值的 3D 高斯椭球，将被排除在渲染场景之外

本研究的方法基于先前提出的 4D Gaussian Splatting 技术。这项技术通过可微的光栅化方法，优化一组高维高斯分布，进而高效表达动态场景，并实现高质量的新视角图像实时渲染。

每一个 4D 高斯实体包含以下几个属性：

● 空间和时间上的四维中心位置（x、y、z 及时间 t）。

● 描述旋转的四元数（分别为左旋与右旋两个向量）。

● 对应四个维度的缩放因子。

● 用于建模颜色变化的高维球谐系数，用来表达时间和视角变化下的 RGB 颜色。

● 空间不透明度值（介于0到1之间）。

在渲染任意时间点的图像时，系统会将每个 4D 高斯“切片”为一个时间相关的三维高斯。这一切片过程包含：

● 根据当前时间，对高斯的位置和密度进行调节，使其只在与其中心时间接近的区域内有效；

● 每个高斯的中心位置随时间线性移动，其密度也随时间距离呈现高峰衰减的特性；

接着，这些切片后的高斯会投影到图像平面，并通过可微光栅化完成最终图像渲染。

该方法虽可合成高质量视图，但为了完整表达场景，需要大量高斯点，这使得存储需求高、压缩困难。因此，作者提出了内存优化的增强版本：MEGA。

图3｜全文方法总览

Memory-Efficient 4D Gaussian Splatting

总体思路

如图3所示，作者设计了一种轻量化的4D高斯框架，从两个方面着手减小模型大小：

● 一是减少每个高斯的存储参数；

● 二是通过几何变形扩展高斯的“作用范围”，以更少的高斯数量表达复杂动态。

具体地，在渲染前，每个高斯都会根据具体时间和视角进行颜色预测与几何变形。这一变换不仅提高了每个高斯在渲染中的参与度，也显著降低了总体高斯数量需求。

渲染过程仍遵循原始 4DGS 的流程，包括时间切片、投影、光栅化等步骤。

一）轻量化的颜色表示：DC-AC 表达方法

在标准4DGS中，用于表达颜色变化的球谐系数占据了大部分存储空间（约占参数总量的 90%）。尽管已有工作尝试用神经场代替球谐系数，但实验显示该方式会显著损失渲染质量。

因此，本文提出了一种混合颜色建模方式：将颜色属性分为两部分：

● DC分量：为每个高斯分配一个固定颜色（仅包含3个RGB值）；

● AC分量：使用一个轻量多层感知机（MLP）作为预测器，基于高斯位置、观察视角、时间与DC颜色来预测颜色变化。

这种方式保留了个体颜色特征（DC），同时用神经网络补充时间和视角变化（AC），在保证渲染质量的同时，将存储开销降低至原始方案的 1/8。

二）限制熵的高斯几何变形机制

标准4DGS默认高斯的运动为线性，旋转和缩放保持不变。这种近似虽然简化了计算，但难以表达复杂非线性变化，因而需要引入大量冗余高斯才能补足表达能力。

同时，由于时间衰减机制的限制，在每一帧图像中，往往只有约6%的高斯真正参与渲染，导致资源浪费严重。

为此，作者引入了一个时间-视角相关的几何变形预测器。它基于：高斯中心位置、当前视角方向、当前时间，对每个高斯的中心位置、尺度因子、旋转参数进行变形预测。这样，每个高斯的“活动范围”得以扩展，避免因作用范围过窄而冗余生成多个相似高斯。

此外，为了防止在优化过程中高斯数量膨胀，作者还引入了一个基于空间不透明度的熵约束损失，使得每个高斯的空间不透明度趋向于0或1（即要么完全参与渲染，要么完全被剔除）。训练时，系统定期剪除低影响高斯，从而维持高效表达与紧凑存储。

实验显示，在该机制下，每帧图像中参与渲染的高斯比例可从原来的不到50%提升到75%左右，表达效率显著增强。

图4｜(a) 在不同时间步下参与渲染的 Gaussians 在 Birthday 场景中的比例。蓝色曲线表示在不使用每个 Gaussian 的变换操作时，MEGA 模型中实际参与渲染的 Gaussians 数量。(b) 训练过程中，在 Birthday 场景中参与渲染的 Gaussians 数量随时间变化的可视化结果。

训练与压缩流程

损失函数设计

训练过程中采用以下三种损失项：

● 图像重建损失：包括L1损失与结构相似性（SSIM）损失，用于衡量渲染图像与真实图像之间的差异；

● 不透明度正则项：即前文提到的熵约束损失，鼓励不透明度收敛到极端值，从而便于剪枝。

● 三者加权组合形成总损失，其中各项的权重通过超参数控制。

模型压缩策略

在训练阶段使用半精度（FP16）参数格式，优化完成后将模型存储为16位浮点格式，并应用 zip delta 无损压缩算法，进一步压缩存储空间，平均可再减小约10%。

整体而言，该方法以“压缩颜色表示 + 提高几何表达能力 + 剪枝冗余点 + 压缩格式存储”为核心，系统性解决了4DGS在大规模动态重建任务中“质量与体积难兼得”的问题

作者在两个真实世界的动态场景数据集上评估了MEGA的性能：

● Technicolor Light Field Dataset：多视角时间同步视频数据，采用5个典型场景（如Birthday、Painter等），图像分辨率为2048×1088。

● Neural 3D Video Dataset（Neu3DV）：包含6个高分辨率室内动态场景，场景中包含多个物体的复杂运动，渲染分辨率为原始尺寸的一半。

评估指标包括：

● PSNR（峰值信噪比）：衡量像素级误差；

● DSSIM（结构相似性反指标）：衡量结构差异，提供两个版本（DSSIM1 / DSSIM2）用于公平对比；

● LPIPS（感知相似度）：基于神经网络的高层视觉质量评估；

● FPS（渲染帧率）：衡量渲染速度；

● 存储空间（Storage）：衡量模型压缩比。

对比方法涵盖：

原始的 4DGS 方法；

● 多种 NeRF 系列代表方法（如 DyNeRF、HyperReel、MixVoxels）；

● 高斯渲染体系的最新扩展（如 Dynamic 3DGS、STG、E-D3DGS 等）

主要实验结果

Technicolor 数据集（图5）

在五个动态场景中，MEGA 在多项指标上显著超越基线方法：

相较于原始 4DGS：

● PSNR 提升 1.2 dB；

● DSSIM 和 LPIPS 分别下降 0.006 和 0.018，图像结构更清晰；

● 存储需求减少 190 倍，渲染速度提升 50%。

相较于 NeRF 系方法 HyperReel：

● PSNR 提升约 0.87 dB；

● 渲染速度快 20 倍，存储空间减半。

● 相较于最强高斯方法 STG：

● PSNR 提高 0.22 dB，质量更高；存储需求再降 40%。

图5｜Technicolor数据集定量实验结果

图6中的定性可视化也表明，MEGA能更清晰地保留场景细节，避免伪影产生。

图6｜渲染定性实验结果

Neu3DV 数据集（图7）

MEGA 在六个更复杂的动态场景中同样展现强大表现：

相比 4DGS，平均压缩比高达 125×；

● 相较于最优 NeRF 系方法 MixVoxels：

● 存储降低 20 倍；

● 推理速度提升 16 倍；

● 渲染质量保持一致或略优。

该结果显示 MEGA 在高压缩比下依然具有强大的视觉还原能力，适合复杂动态场景部署。

图7｜Neu3DV定量实验结果

消融实验

为了分析不同模块的贡献，作者在 Technicolor 和 Neu3DV 中的代表场景上开展了消融实验，得出以下关键结论：

1. DC-AC颜色建模模块

替代球谐系数后，若仅使用 grid-based 网络表示颜色，尽管参数减少 10 倍，但渲染质量大幅下降；采用 MEGA 的 DC-AC 结构后，既保持压缩比，又显著优于 grid 方法，几乎恢复原4DGS 的渲染质量；原因在于 DC 保留静态颜色，AC 预测动态变化，两者协同兼顾细节与变化。

2. 高斯变形与熵约束机制

● 仅使用高斯变形时，尽管表达力增强，但高斯数量会明显增加；

● 仅使用不透明度熵损失，则高斯作用范围受限，表达不足；

两者结合后，即能维持高表达质量，又能大幅减少高斯数量，验证了压缩机制的核心贡献。

小结

MEGA 在保持与原始4DGS近似的图像质量的同时，大幅压缩模型大小与加速渲染效率，在两个动态场景数据集上均优于现有 NeRF 和高斯方法，展现出极强的实用性和可部署性。特别是在资源受限或需要实时渲染的应用场景中，MEGA提供了当前最具性价比的解决方案。

图8｜消融实验结果

在本研究中，作者提出了一种面向 4D 高斯渲染的全新记忆优化框架。该方法通过将颜色属性拆解为每个高斯点的直流分量（DC）与一个共享的、轻量级的交流颜色预测器（AC），显著压缩了每个高斯点所需的参数量，同时不影响渲染性能。

为了进一步减少 4D 高斯之间的冗余，作者引入了熵约束的高斯变形机制，有效扩展了每个高斯的作用范围，从而提高了其利用率。这使得模型能够以更少的高斯点完成高质量的动态场景重建。

大量实验结果验证了该方法的有效性——在保持重建质量和实时渲染速度的前提下，存储需求相比原始 4DGS 实现了百倍以上的压缩。该成果在高性能、轻量化和实时渲染三个维度上树立了新的基准。