加速近八倍!理想汽车提出均GPU均衡算法Balanced 3DGS~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享Li Auto和NVIDIA的最新工作—Balanced 3DGS 中文简介!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心3DGS技术交流群

论文作者 | Hao Gui

编辑 | 自动驾驶之心

3899896dc76f51385a85063333274cce.png

  • 论文题目:Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling

  • 论文链接:https://arxiv.org/pdf/2412.17378

方案简介

尽管3DGS技术取得了很大的进步,训练3DGS模型仍然是一项充满挑战且耗时的任务,尤其是在负载不平衡的情况下。当像素和高斯球之间的工作负载不均衡时,会影响训练性能。具体来说,图形处理器(GPU)设计用于处理规则且同质化的任务,并以SIMT(单指令多线程)方式运行。因此,当像素和高斯球之间的工作负载存在差异时,一些线程会处于活动状态,而另一些线程则会处于空闲状态,从而降低整体性能。据我们所知,目前尚无研究在渲染计算层面解决这些不均衡问题。

在对3DGS训练过程进行深入分析和实验的基础上,本文确定并归纳了三种显著的负载不平衡问题:

  1. CUDA静态分配导致的流处理器(SM)负载不平衡:如果使用静态分配方法,在不同的SM之间会出现负载不平衡问题。尽管在不同的SM之间线程块任务的数量相同,但每个线程块的工作负载可能会有很大的差异。这是一个被忽视的性能因素,导致了SM之间的负载不均衡。

  2. 分块中的负载不平衡:在3DGS中,为避免每个像素派生高斯球的计算成本,图像最初被划分为多个不重叠的分块。每个分块包含16×16个像素。然而,如果基本的CUDA分配和分块策略保持不变,一些分块可能会拥有极大的工作负载,而其他分块的工作负载则很轻,从而导致SM之间出现严重的负载不平衡。

  3. 训练阶段的负载不平衡:在3DGS训练过程中,不同阶段的数据特性会发生显著变化。在初始阶段,像高斯分布这样的度量在不同块或线程之间存在显著差异。随着训练的进行,这些不平衡随着数据特性的变化而改善。在经过多次迭代后,极端的数据特性变得更加平衡。

如下图所示,是3DGS训练过程中不同计算每个线程和每个负载块对应的高斯球分布,可以看到不同线程、不同块及不同训练阶段负载分布都有显著差异,故需要针对这些负载分配的特点做高效的负载均衡方案。

c647bb1d796ec5b26573e5056e69c144.png

为了解决上述负载不均衡问题,本文提出了Balanced 3DGS,其亮点包括:

  1. 首次提出了基于高斯球维度并行的负载均衡技术,以优化Warp内前向计算的渲染算子;

  2. 此外,创新性地提出了块间动态工作负载分配技术,通过在计算块之间均匀分配任务,最大限度地减少线程的空闲时间并最大化硬件资源利用率;

  3. 精细化复合负载均衡方法结合了以上两种技术,提供了一个完美的负载不平衡问题解决方案;

  4. 提出了一种基于实验的自适应渲染算子选择策略。这种策略克服了手动选择度量标准的局限性,能够更准确地反映训练过程的实际情况,并确保更好的性能和效率。

如下图所示,通过CUDA负载动态分配技术,使负载高的硬件单元SM分配的tiles任务少,负载低的硬件单元分配的tiles任务多,显著减少了因负载不均衡导致的硬件资源SM空转的时间,从而提高硬件利用率,加快渲染速度;

50dcc465329ad57cc75d9e934d895328.png

如下图所示,通过将warp内的32threads在高斯球维度做并行,在对应的在32个像素点维度做串行,这样就能很好的保证warp内32threads的负载均衡,从而提高硬件利用率,也提高了渲染速度;

b9e808c952631852017fdd68744dd440.png

如下图所示,结合上述CUDA负载动态分配技术和高斯球维度并行渲染技术,通过将tiles切分的更小,有效增强CUDA 负载动态分配的能力,完美解决了极端的负载不均衡的问题;

3ecca744e2040d25c52208601ee4d45d.png

最后,如下图所示,与传统的神经网络训练不同,单一且固定的渲染算子已无法满足3DGS训练过程负载均衡分配的要求,考虑到训练过程负载分配多样性的特点,这里采用基于实验的自适应的渲染算子选择策略,来实现训练全过程负载自适应均衡分配。

1566bccf0e24dda15fa9947f8bb1604f.png

实验结果

负载不均衡场景下,前向渲染计算算子性能最高提升7.52x;结合基于实验的自适应渲染算子选择策略,3DGS 端到端训练效率也有明显提升。

6dad5f6b4a95f46ca53300907ac179d6.png a5dc0f0926515300710979d03033f702.png 180e41e083a753cdb3af06852e39e410.png

总结

我们引入了Balanced 3DGS(Balanced 3DGS),这是一种在 3DGS 训练过程中采用精细分块方法的高斯球维度并行渲染技术,完美地解决了负载不均衡问题。在负载不均衡的场景下,借助块间负载动态分配、高斯球维度并行渲染以及精细粒度的组合式负载均衡技术,前向渲染计算算子的性能能够得到显著提升。同时,3DGS 在训练过程中可以根据不同的负载均衡状况自适应地选择最佳的渲染算子,这有效地提高了训练效

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。

d81e878f0fa679b8802a684aaa2239de.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

8af62e103cf4badd3697af222c7bf038.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

c9bd8a69cbfde88da518cd0bdfb94e9a.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

3d6a932b6fa91cb99a38b131d7da298e.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值