- 博客(126)
- 收藏
- 关注

原创 【三维重建工具】NeRFStudio、3D GaussianSplatting、Colmap安装与使用指南
Nerfstudio,一个用于NeRF开发的模块化PyTorch框架。框架中用于实现基于NeRF的方法的组件即插即用,使得研究人员和相关从业者可以轻松地将NeRF集成到自己的项目中。框架的模块化设计支持实时可视化工具,导入用户真实世界捕获的数据集外(in-the-wild)数据,以及导出为视频,点云和网格表示的工具。近期,还导入了InstantNGP、3D Gaussian Splatting等最新重建算法。
2024-04-08 23:05:42
10726
28
原创 【三维重建】Proc-GS:使用3DGS的程序性城市建筑生成
Proc-GS建模是第一个能够使用3DGS实现过程建模的管道。Proc-GS框架包括两个阶段: (1) 资产获取阶段 ,指导3DGS遵循预定义的布局来约束它的优化。例如,当使用3DGS建模时,首先生成它的过程代码,或者手动或使用现成的分割模型。此代码用于为建筑的每个基本资产初始化一组高斯分布。然后根据程序代码对这些特定资产的高斯进行组装,并使用渲染损失对组装的高斯进行整体进行优化,如图3。重复的基本资产将同步更新;为了捕捉几何中各种细微变化,我们还学习了每个资产的方差代码。(2) 资产组装阶段 ,我们使
2025-03-11 11:25:07
1277
原创 【三维生成】StarGen:基于视频扩散模型的可扩展的时空自回归场景生成
近年来,大型重建和生成模型的研究进展显著改善了场景重建和新的视图生成。然而,由于计算的限制,这些大型模型的每个推理都局限在一个小的区域内,这使得长期一致的场景生成具有挑战性。为了解决,StarGen使用了一个预训练的视频扩散模型,以自回归的方式进行远程场景生成。每个视频clip 的条件是(空间上)相邻图像和先前生成的clip 的(时间上的)重叠图像的 3D warping,通过精确的姿态控制提高远程场景生成的时空一致性。时空条件与各种输入条件兼容,促进了各种任务,包括稀疏视点插值永久视角生成。
2025-03-04 09:54:17
1249
原创 【三维分割】LangSplat: 3D Language Gaussian Splatting(CVPR 2024 highlight)
早期构建三维特征场的尝试包括蒸馏特征场[20]和神经特征融合场[43]。他们通过跨多个视图将LSeg [21]或DINO [4]特征提炼为一个NeRF,学习了3D一致特征。Shen等人[39]通过将clip征提取成NeRF,进一步提取特征场进行few-shot 语言引导的自动操作。[Panoptic lifting for 3d scene understandingwith neural fields. CVPR 2023][In-place scene labelling and understa
2025-02-25 10:12:43
1134
原创 【大模型】DeepSeek使用与原理解析:从V3到R1
DeepSeek R1 是深度求索(DeepSeek,成立于2023年)公司开发的一款智能体(Agent)产品,它能够通过自然语言交互,帮助用户完成各种任务。各种性能评估:2000快阉割版H800,花费557亿美元(大约是使用1.6万个GPU的Llama3.1的1/10,GPT-4o的1/20),登顶了开源之最。来源于幻方量化,2023年4月成立的全资子公司。
2025-02-16 21:50:26
1183
原创 【三维重建】FeatureGS:特征值优化的几何精度和伪影减少3DGS的重构
三维高斯溅射(3DGS)是一种功能强大的利用三维高斯数据重建三维场景的方法。然而,高斯模型的中心和表面都不能精确地对齐,这使得它们在点云和网格重建中的直接使用复杂化。此外,3DGS通常会产生artifacts,从而增加高斯数和存储需求。为了解决这些问题,我们提出了FeatureGS,它将一个基于特征值导出的三维形状特征的附加几何损失项合并到3DGS的优化过程中。目的是提高局部三维邻域的几何精度,提高平面表面结构熵的性质。
2025-02-14 12:04:19
1510
原创 【三维分割】Gaga:通过3D感知的 Memory Bank 分组任意高斯
Gaga,一个通过利用zero shot分割模型预测的不一致的2D mask来重建和分割开放世界的3D场景的框架。与之前严重依赖于视频物体跟踪的3D场景分割方法相比,Gaga利用了空间信息,并有效地关联了不同相机pose中的物体mask。通过消除训练图像中连续视图变化的假设,Gaga展示了对相机姿态变化的鲁棒性,特别有利于稀疏采样的图像,确保了精确的mask标签的一致性。此外,Gaga适应了来自不同来源的二维分割mask,并在不同的开放世界zero shot分割模型中表现出了稳健的性能,增强了其通用性。
2025-01-21 22:25:45
1540
原创 【AIGC】SYNCAMMASTER:多视角多像机的视频生成
视频扩散模型的最新进展在模拟真实世界的动态和保持三维一致性方面显示出了特殊的能力,能够确保不同视点间的动态一致性。不像现有方法(专注于多视图生成单个对象的四维重建),我们从任意视点生成开放世界视频,结合6自由度摄像机姿态。提出一个即插即用模块,即多视图同步模块,以保持这些视点的外观和几何一致性。针对训练数据,设计一个混合训练方案,利用多像机图像和单目视频来补充UE渲染的多像机视频。此外扩展了从新视角重新渲染视频,还发布了一个多视图SynCam数据集。
2025-01-15 23:00:15
1244
2
原创 【三维场景生成】DepthLab:从部分到完整(图像深度补全,下游代码未开源)
DepthLab是一个由图像扩散先验驱动的深度补全模型,具有两个优势:(1)它展示了对深度缺失区域的弹性,为连续区域和孤立点提供了可靠的重建,;(2)在填充缺失值时,它忠实地保持了与条件已知深度的尺度一致性。基于这些优点,我们的方法在各种下游任务中证明了其价值,包括三维场景重绘、文本到-三维场景生成、DUST3R稀疏视图重建和激光雷达深度重建,在数值性能和视觉质量上都超过了当前的解决方案。
2025-01-15 10:48:19
1495
原创 【动态重建】时间高斯分层的长体积视频
本文从多视点RGB视频中重建长体积视频。最近的动态视图合成方法利用强大的四维表示,如特征网格或点云序列,来实现高质量的渲染结果。然而,它们通常被限制在较短的(1∼2s)视频剪辑中,并且在处理较长的视频时经常遭受较大的内存占用。为了解决这一问题,我们提出了一种新的四维表示,称为 时间高斯分层,能够紧凑地建模长的体积视频 。由于动态场景中通常存在不同程度的时间冗余,由不同速度变化的区域组成。基于此,我们的方法建立了一个 四维的高斯原语层,其中,(1).每个层次分别描述具有不同内容变化程度的场景区域,并自适应地共
2025-01-03 10:22:56
1220
原创 【三维重建】去除瞬态物体Distractor汇总(从HybridGS到T-3DGS)
3D高斯溅射(3DGS)由于其高质量的渲染、效率和低内存成本,最近在新型视图合成领域得到了广泛的应用。它的应用跨越了虚拟现实、增强现实和机器人技术等。但该方法假设输入图像是静态没有噪声的,往往难以满足。例如,用手机随意拍摄的图像通常包含混乱的动态物体,或瞬态物体。因此,由于总是存在许多瞬态遮挡,因此很难对场景进行建模。从技术上讲,3DGS能够有效地建模静态场景,因为图像中的静态对象满足不同视点之间的几何一致性约束。然而,瞬态对象并不遵循这个假设。如果在训练中包含瞬态对象的图像被简单地使用于3DGS,这种变化
2024-12-25 22:50:45
1714
原创 【3D AIGC】Img-to-3D、Text-to-3D、稀疏重建(2024年文章汇总)
汇总今年以来所有的Text-to-3D、Image-to-3D等三维AIGC的重要成果。
2024-12-04 16:25:59
1629
原创 【三维生成】DiffusionGS:基于GS的可扩展单阶段图像生成GS模型
现有的前向图像到三维的方法主要依赖于二维多视图扩散模型,不能保证三维的一致性。这些方法在更改提示视图方向时很容易崩溃,并且主要处理以对象为中心的提示图像。本文提出了一种新的单阶段三维扩散模型,DiffusionGS,用于从单一视图生成对象和场景,在每个时间步长直接输出三维高斯点云,以加强视图的一致性,并允许模型生成任何方向的提示性视图,而不是以对象为中心的输入。此外,为了提高扩散gs的能力和泛化能力,我们通过开发一种场景-对象混合训练策略来扩展三维训练数据。实验结果表明,与SOTA方法相比,该方法具有更好的
2024-12-04 10:52:51
1438
原创 【三维生成】LLaMA-Mesh: 用语言模型统一3D Mesh 生成
本文在一个统一的模型中生成3D网格(mesh)。这提供了 (1)利用已经嵌入在LLM中的空间知识(来源自3D教程等文本),以及(2)支持会话3D生成和网格理解的关键优势 。一个主要的挑战是有效地将3D网格数据标记为LLM可以无缝处理的离散token。为了解决这个问题,LLAMA-MESH将三维网格的顶点坐标和面定义表示为纯文本,允许与LLM直接集成而不扩展词汇表。我们构建了一个带监督的微调(SFT)数据集,使预训练的LLM能够(1)从文本提示生成三维网格,(2)根据需要生成交互文本问答
2024-11-26 00:13:39
1693
原创 【三维生成】Edify 3D:可扩展的高质量的3D资产生成(英伟达)
Edify 3D,一种为高质量的3D资产生成而设计的高级解决方案。我们的方法首先使用扩散模型在多个视点上合成所描述对象的RGB和表面法线图像。然后使用多视图观测来重建物体的形状、纹理和PBR材料。我们的方法可以在2分钟内生成具有详细的几何图形、干净的形状拓扑、高分辨率拓扑的高质量纹理和材料
2024-11-25 16:36:25
2232
原创 【人物动态重建】Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos
Volumetric video 代表了视觉媒体的一种变革性进步,使用户能够自由地导航沉浸式虚拟体验,并缩小了数字世界和现实世界之间的差距。然而,由于需要广泛的人工干预来稳定mesh序列,以及防止在工作流中产生过大的资产,阻碍更广泛的应用。在本文中,我们提出了一种新的基于高斯分布的方法,称为DualGS,用于实时和高保真回放复杂的人类性能与良好的压缩比。我们在DualGS中的关键思想是使用相应的 skin gaussian和 joint gaussian分布来分别表示运动和外观。这种显式的解纠缠可以显著减少
2024-11-15 14:50:32
748
原创 【三维重建】DiffGS: Functional Gaussian Splatting Diffusion(NeurIPS 2024)
三维高斯溅射(3DGS)在渲染速度和保真度方面表现出了令人信服的性能,但高斯溅射由于其离散性和非结构化性质的生成仍然是一个挑战。DiffGS是一种基于潜在扩散模型的三维生成模型,它能够以任意数生成高斯原语,用于使用栅格化的高保真渲染。关键的见解是通过三个新的函数来表示高斯溅来模拟高斯的 probabilities, colors and transforms。通过新的3DGS的解耦,我们表示了具有连续高斯溅射函数的离散和非结构化的3DGS,然后我们训练了一个无条件和有条件地生成这些高斯溅射函数的潜在扩散模型
2024-11-06 13:11:26
2305
2
原创 【三维重建】Semantic Gaussians:开放词汇的3DGS场景理解
开放词汇的三维场景理解是计算机视觉中的一个重大挑战,在具体化代理和增强现实系统中有着广泛的应用。现有的方法采用神经渲染方法作为三维表示,联合优化颜色和语义特征,同时实现渲染和场景理解。本文介绍了一种基于三维高斯溅射的开放词汇场景理解方法语义高斯。我们的关键思想是 将知识从二维预训练模型提取为三维高斯模型 。与现有的方法不同,我们设计了一种通用的投影方法,将预先训练好的图像编码器映射到一个新的三维高斯的语义component ,这是基于空间关系,不需要额外的训练。我们 进一步建立了一个三维语义网络,直接从原始
2024-11-05 15:46:31
2508
原创 【动态三维重建】MonST3R:运动中的几何估计
Motion DUSt3R(MonST3R),一种几何优先方法,可以直接从动态场景中估计每个时间步的几何。关键是通过简单地估计每个时间步长的pointmap,可以有效地将DUSt3R的表示适应于动态场景,它以前只用于静态场景。然而,这种方法提出了一个重大的挑战:缺乏合适的训练数据,即具有深度标签的带pose的视频。尽管如此,我们表明,通过将问题作为一个微调任务,识别几个合适的数据集,并在这个有限的数据上有策略地训练模型,使模型能够处理动态,即使没有明确的运动表示。在此基础上,我们为几个下游视频特定任务引入了
2024-10-29 12:19:15
1294
4
原创 【三维重建】PhotoReg:光度测量三维高斯溅模型
构建准确的环境表示法对于智能机器人在部署过程中做出决策至关重要。最近引入的三维高斯溅射(3DGS)可以实时渲染,它描述了多达数百万个原始的椭球体。3DGS已经迅速崛起。然而,一个尚未解决的关键问题仍然存在:如何将多个3DGS融合成一个单一的相干模型?这项工作的一个关键见解是利用逼真重建之间的二元性(duality),从三维结构渲染真实的二维图像,和三维基础模型,从图像对预测三维结构。为此,我们开发了PhotoReg,一个框架来注册多个逼真的3DGS模型与3D基础模型。由于3DGS模型通常是由单眼相机图像构建
2024-10-29 12:18:16
1301
原创 【AIGC视频生成】视频扩散模型(综述+最新进展)
随着扩散模型的火爆,视频扩散模型带来的video generation视频生成任务也是新算法层出不穷,其中以sora效果最为炸裂。接下来就分享一下基本概念、原理、Pika、Runway等算法的最新进展
2024-10-20 22:31:43
8170
原创 【AIGC】AI绘画本地部署教程及原理简介(ComfyUI+flux.1)
这篇博客主要介绍一款非常强大的开源AI绘画(文生图)工具ComfyUI。ComfyUI是一个基于节点流程式的AI绘图工具WebUI,它通过将Stable Diffusion的流程拆分成节点,实现了工作流的定制和可复现性。最直观的体现就是,你定义和设置的任何工作流都可以以json文件的格式进行保存,反之其他人创建的好的工作流只要分享出了其json文件,你也可以瞬间导入使用并在此基础上进行修改编辑。
2024-09-29 11:13:59
1585
原创 【三维重建】2D Gaussian Splatting:几何准确的2D辐射场(更新中)
3D Gaussian Splatting (3DGS) 最近革新了辐射场重建,实现了高质量新视角合成和快速渲染速度。然而,由于3D高斯的多视图不一致性,3DGS无法准确表示表面。我们提出了2D Gaussian Splatting (2DGS),这是一种从多视图图像中建模和重建几何精确辐射场的新方法。关键思路是将3D体积压缩成一组2D定向平面高斯圆盘。与3D高斯不同,2D高斯在内在建模表面的同时提供了视图一致的几何形态。
2024-08-21 23:25:24
2501
原创 【三维重建汇总】NeRF和GS重建中,如何排除干扰物?(提升质量)
汇总了最近两年提升NeRF与GS重建质量的文章,包括去除瞬态物体干扰、不一致照明的消除等,包括SpotlessSplats、RobustBeRF、NeRF on the go、PixelNeRF等
2024-08-19 23:17:26
1360
原创 【分割大模型】SAM2(Segment Anything2)新的分割一切大模型(原理+安装+代码)
Segment Anything Model 2(SAM 2)是由Meta公司发布的一个先进的图像和视频分割模型。它是Segment Anything Model(SAM)的升级版本,SAM是Meta的FAIR实验室发布的一款用于图像分割的基础模型,能够在给定提示的情况下生成高质量的对象mask。
2024-08-14 17:17:48
12054
3
原创 【三维重建】InstantSplat:稀疏视角的无SfM高斯泼溅 (3D Gaussian Splatting)
InstantSplat 旨在在几秒钟内从稀疏视图,未设置的图像重建场景。我们的方法利用多视点立体(MVS)的能力,粗场景初始化,并提出了一个基于梯度的高斯属性和相机参数的联合优化,以自监督的方式。与以前性能最好的无姿态方法[5,10]相比,我们将所需的视图数量从数百个[5,10]减少到几个,从而使大规模3D建模仅具有最少数量的图像和无姿态视图
2024-08-12 23:28:13
2454
原创 【三维重建】Pixel-GS:三维高斯泼溅的像素感知的梯度密度控制(去除浮点,提升精度)
三维高斯溅射(3DGS)在提高实时渲染性能的同时,展示了令人印象深刻的新视图合成性能。然而,它的有效性在很大程度上依赖于初始点云的质量,导致在初始化点不足的区域出现模糊和针状伪影( needle-like artifacts)。这个问题主要是由于点云的增长条件,它只考虑了可观测视点的splats的平均梯度大小,因此对于许多只覆盖在边界内的可观测的大高斯值无法增长。为了解决这个问题,Pixel-GS将被覆盖的像素数,视为动态平均不同视角的梯度的权重,从而促进大高斯分布的增长。
2024-08-12 22:34:41
2857
8
原创 【三维重建】SpotlessSplats:去除瞬态干扰物的三维高斯喷溅(3DGS)
三维高斯喷溅(3DGS)是一种最新的三维重建技术,提供了高效的训练和渲染速度,使其适用于实时应用。然而,目前的方法需要高度控制的环境——没有移动的人或风吹的元素,以及一致的照明——以满足3DGS的视图间一致性假设。这使得重建现实世界的捕获成为问题。我们提出了无斑点斑图,一种利用预训练和通用特征结合鲁棒优化来有效地忽略瞬态干扰物的方法。我们的方法实现了最先进的重建质量。利用神经辐射场(NeRF)和最近的三维高斯喷溅(3DGS)从二维图像中重建三维场景一直是视觉研究的热点。
2024-08-12 22:11:43
2765
1
原创 【三维重建】FastScene:基于GS的文本驱动室内场景生成(IJCAI-2024)
文本驱动的3D室内场景生成拥有广泛的应用,从游戏和智能家居到AR/VR应用。快速和高保真度的场景生成对于确保用户友好的体验至关重要。然而,现有的方法的特点是漫长的生成过程,或需要复杂的手动规范的运动参数,这给用户带来了不便。这些方法往往依赖于 narrow-field viewpoint iterative generations,影响了全局一致性和整体场景质量。为了解决这些问题,我们提出了FastScene,一个快速和更高质量的3D场景生成框架,同时保持场景的一致性。
2024-07-26 16:24:25
1304
原创 【语言大模型微调】LoRA — 尖端的大模型微调技术
讨论了微调的概念,以及LoRA如何将微调视为学习参数变化,而不是迭代学习新参数。我们学习了线性独立性和秩,以及由于大多数权重矩阵的秩较低,变化矩阵可以用小因子表示。我们将所有内容整合在一起,逐步介绍了LoRA,然后使用HuggingFace PEFT模块在问答任务中实现了LoRA
2024-07-23 10:21:48
6515
1
原创 【扩散模型】【图像生成】FreeU:扩散 U-Net 模型的免费午餐(CVPR 2024 Oral))
本文作者发现了扩散 U-Net 模型的一个未开发的潜力,即:一种 “免费的午餐”,可以即时地,显著地提高生成的质量。 作者一开始研究了 U-Net Backbone 对去噪过程的主要贡献,并确定其 Backbone 部分有利于去噪,而其 Skip connection 部分会在 Decoder 中引入高频特征,导致网络忽略掉 Backbone 语义信息。利用这一发现,作者提出了一种简单有效的方法:FreeU,在不增加训练或微调的情况下提高模型的生成质量。本文关键的 insight 是对来自 Skip
2024-07-13 10:20:58
1343
原创 【三维AIGC】扩散模型LDM辅助3D Gaussian重建三维场景
本文**提出一个三维场景的潜在扩散模型**,它仅使用2D图像数据训练。文章首先设计了一个 **1.自动编码器,将多视图图像映射到三维GS** ,同时构建这些splats的压缩潜在表示。然后,我们 **2.在潜在空间上训练一个多视图扩散模型来学习一个有效的生成模型** 。该管道不需要对象的mask 或深度,并且适用于具有任意摄像机位置的复杂场景。我们在两个复杂真实场景的
2024-07-12 12:20:58
2211
原创 【NeRF】ExtraNeRF:基于扩散模型的NeRF可见性视角外延
ExtraNeRF,利用NeRF建模特定于场景的、细粒度的细节,同时利用扩散模型来推理超出观察的数据。**一个关键的因素是跟踪可见性**,以确定场景的哪些部分没有被观察到,并专注于与扩散模型一致地重建这些区域。我们的主要贡献包括一个基于**可见性感知扩散模型的inpainting模块**,它微调输入图像,初始化一个NeRF,以及中等质量的(通常模糊)inpaint区域;然后第二个扩散模型训练输入图像,以持续增强,特别是锐化前面的inpaint 图像。文章展示了高质量的结果,推断出少量(通常是6个或更少)的输
2024-06-28 13:16:18
1432
原创 【稀疏三维重建】Flash3D:单张图像重建场景的GaussianSplatting
Flash3D,一种通用的单一图像场景重建。模型从一个单目深度估计的“基础”模型开始,扩展到一个完整的三维形状和外观重建器。为了高效,基于前向的GS进行扩展。具体的,模型预测了深度图表面的第一层GS,然后添加一层空间中的额外的高斯偏移,允许模型完成遮挡和截断后的重建。Flash3D高效,只需在单一GPU上训练一天。训练和测试在 RealEstate10k数据集上。当转移到NYU和KITTI的未知数据集时,其表现远优于竞争对手。
2024-06-21 15:04:00
1992
原创 【三维修复、分割与编辑】InFusion、Bootstrap 3D、GaussianGrouping、GaussianEditor等(论文总结)
总结了最近两年基于Gaussian Splating的编辑、分割与修复原理,涵盖了Infusion、Bootstrap 3D 、GaussianGrouping、GaussianEditer等算法原理
2024-05-22 10:44:47
2205
原创 【稀疏三维重建】pixelSplat:仅需两张图,重建3D Gaussian Splats
pixelSplat能够从两张图像中,重建(由三维高斯原语参数化的)三维辐射场。其中,Epipolar line(也就是极线)用于添加场景的深度(尺度)信息;为了克服稀疏和局部支持表示所固有的局部极小值,pixelSplat为3D预测了密集概率分布,并从中采样高斯均值。论文采用重参数化的技巧使采样可微,可通过GS 反向传播梯度。在现实世界的和ACID数据集上进行基准测试,表现超过了最先进的,并加速渲染2.5个数量级,得到可解释和可编辑的三维辐射场。
2024-05-15 11:41:27
3901
原创 【valse 2024】开幕式内容汇总
valse2024在重庆召开,VALSE 2024聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向,精彩呈现3场主旨报告、4场特邀报告、12场年度进展评述 (APR)报告、4个讲习班 (Tutorial)、19个研讨会 (Workshop),以及400余篇近一年顶会顶刊论文海报 (Poster)展示,共计140余位CV/PR/NLP/ML/MM等AI领域学术精英与会呈现了精彩的学术报告。
2024-05-10 12:09:58
983
3
原创 【三维重建】中科院最新3DGS综述(近期进展更新中)
三维Gaussian Splatting(3DGS)的出现,大大加快了新视图合成的渲染速度。与神经辐射场(NeRF)等神经隐式表示表示具有位置和视点条件神经网络的三维场景不同,3DGS利用一组高斯椭球来建模场景,从而通过将高斯椭球栅格化成图像来实现有效的渲染。**除了快速的渲染速度外,3DGS的显式表示促进了下游任务,如动态重建、几何编辑和物理模拟**。本文对近年来的3DGS 方法进行了文献综述,大致可分为三维重建、三维编辑等下游应用。
2024-04-30 12:24:43
19794
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人