
三维重建与场景生成
文章平均质量分 94
三维重建与场景生成
Struart_R
人工智能专业 研0 三维视觉方向
Github:https://github.com/Kkevindd
展开
-
L4GM: Large 4D Gaussian Reconstruction Model 论文解读
该论文提出了第一个4D大型重建模型L4GM,从单视图视频中生成动画物体的4D模型,并仅需一次前馈传递即可完成,只需要一秒钟。我们直接建立在一个预训练的三维大型重建模型LGM上,L4GM可以从较低fps采样视频帧,得到每一帧的3DGS表示,之后上采样到更高的fps,来保证时间平滑性。L4GM的关键在于设计了一个新的大规模数据集,来自于Objaverse 1.0的包含1200w个视频渲染动画,包含44k不同物体,和11w种动画,并在48个视角呈现,共计3亿帧。原创 2025-01-07 16:05:43 · 868 阅读 · 0 评论 -
VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model 论文解读
该论文介绍了一种新的高质量多视图一致的图像生成方法VideoMV,从现有的视频生成模型中进行微调,来用于多视图的合成。提到预训练的数据和模型决定了学习的特征类型,底层的三维模型决定了是否多视图一致。提出了一种新颖的3D-aware的去噪策略(基于视频的多视图生成的前馈模型),进一步提高生成图像的多视图一致性。实验结果表明,VideoMV在效率和质量上显著优于现有多视图合成方法(MVDream)。原创 2025-01-06 22:33:13 · 781 阅读 · 0 评论 -
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation 论文解读
MotionCtrl是一个统一和灵活的视频生成运动控制器可以独立控制相机运动和物体运动,解决了以往方法中要么只关注一种类型的运动,要么无法区分两者之间的差异性。MotionCtrl提供了三个优势:(1)它可以有效且独立地控制相机和物体运动,实现细粒度调整和多样化的运动组合(2)它使用相机姿态和轨迹作为运动条件,这不会影响物体的视觉外观(3)它是一个相对通用的模型,可以适应各种相机姿态和轨迹,无需进一步微调原创 2025-01-04 22:40:59 · 809 阅读 · 0 评论 -
CameraCtrl: Enabling Camera Control forText-to-Video Generation 论文解读
该论文介绍了一个即插即用模块,可以在文本到视频生成模型中实现相机视角的精确控制,考虑到无缝集成到T2V模型中,我们研究了如何有效精确控制相机运动。并通过Plucker射线来表示相机姿态,提供对相机参数的全面几何描述。该论文在AnimateDiff上实现了CameraCtrl,并在各种个性化视频生成中实现精确的相机控制,证明了其在各种视频创作环境上的通用性和实用性。原创 2025-01-03 23:59:34 · 743 阅读 · 0 评论 -
DepthLab: From Partial to Complete 论文解读
该论文介绍了一个基于RGB图像的深度修复模型,但是这个模型可以用于各种场景下的下游任务,包括3D场景填充,文本到场景的生成,稀疏视图重建,LiDAR深度估计。DepthLab模型在填充缺失值中保持了对缺失区域(mask)的弹性,并且保持了与条件已知深度的尺度一致性。具体来说DepthLab引入了双分支的深度扩散框架,利用RGB图像作为条件输入,将已知深度和mask区域输入到深度估计U-Net中,并且训练中对已知深度进行随机尺度归一化,来缓解已知区域的非全局极值引起的正则化溢出。原创 2025-01-03 21:30:41 · 1480 阅读 · 0 评论 -
Scene123: One Prompt to 3D Scene Generation via Video-Assisted andConsistency-Enhanced MAE 论文解读
该论文提出了一种名为Scene123的3D场景生成框架,并结合了视频生成框架作为assist,以及增强一致性的MASK Auto Encoder(MAE)。实现从单个输入图像或文本提示到生成逼真且一致的3D场景。大量实验表明,Scene123在表面重建精度、视图真实性和纹理质量方面优于现有的最先进方法。原创 2024-12-29 16:31:19 · 1012 阅读 · 0 评论 -
Marigold:Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
Marigold是一个扩散模型和通过微调手段的单目深度估计方法,可以利用预先训练好的Stable Diffusion中的视觉知识,来实现更好更通用的深度估计,实现仿射不变性。由于LDM的优势,Marigold也表现出出色的zero-shot泛化能力,未知真实深度图情况下,在几个真实数据集中获得SOTA性能。原创 2024-12-29 14:34:11 · 2298 阅读 · 0 评论 -
CAT3D: Create Anything in 3D with Multi-View Diffusion Models 论文解读
该论文提出一种CAT3D方法,实现单视图,稀疏视图,文本提示生成图像创建3D场景。可以利用多视图扩散模型生成大量一致的新视图,并且用作3D重建的输入,通过有效的并行采样策略生成任何视角下三维一致渲染的3D表示。创新在于将欠约束的3D重建问题首次表述为生成问题,提供更多的视角来实现完全约束下的重建。并且可以实现1分钟生成场景和对象级的逼真结果,在多个benchmarks上,相比以往的SOTA快一个数量级。原创 2024-12-29 00:05:47 · 1041 阅读 · 0 评论 -
ReconFusion: 3D Reconstruction with Diffusion Priors 论文解读
提出可以利用三张图片生成实景三维重建的方法ReconFusion。并且在合成数据集和多视图数据集上进行训练,来规范基于NeRF的3D生成管道。该方法可以在欠约束区域合成逼真的几何形状和纹理,同时保留观察区域的外观,即使输入视图有限也能如此。原创 2024-12-28 22:20:25 · 1054 阅读 · 0 评论 -
ReconX: Reconstruct Any Scene from Sparseviews with Video Diffusion Model 论文解读
本文提出了一种名为ReconX的新型稀疏视图三维场景重建框架,将模糊的重建问题重新定义为时间生成任务。其核心思想是利用预训练的大型视频扩散模型的强大生成先验,为下游3D重建任务创造更多观测数据。为解决生成视频帧3D视图一致性差的挑战,ReconX首先从稀疏输入视图构建全局点云,并将其编码为3D结构条件。这个3D条件被纳入视频扩散模型,引导合成细节丰富且3D一致性高的帧。最后,通过基于置信度的3D高斯散射优化方案,从生成的视频中重建3D场景。原创 2024-12-26 22:53:25 · 931 阅读 · 0 评论 -
MoGe---最新单目3D几何估计方法
该论文提出了一个从单张单目图像中直接预测场景三维点云表示的模型MoGe。利用仿射不变性,不受真实尺度和位移的影响,从而消除了相机焦距产生的歧义。另外提出一种新颖的全局和局部几何监督技术,使模型学习到高质量的几何信息。该模型在包括3D点图,深度图,FoV(视场角)单目估计中都显著优于最先进的方法。原创 2024-12-24 23:03:08 · 1624 阅读 · 0 评论 -
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer 论文解读
该论文提出了一个基于Diffusion Transformer的大规模文本到视频模型CogVideoX,可以实现生成与文本对齐的10s连续视频,分辨率为768*1360 pixels。为了解决现有视频模型存在移动空间有限,持续时间短,难以生成基于文本的连续视频问题,该论文提出了几种方法。原创 2024-12-22 00:09:16 · 2031 阅读 · 0 评论 -
VAR:Visual Autoregressive Modeling: Scalable ImageGeneration via Next-Scale Prediction 论文解读
该论文提出了一种新的生成范式VAR视觉自回归模型,这种自回归模型实现coarse to fine的方法进行生成,或者说是next-scale prediction的方式,从低分辨率逐渐生成到高分辨率图像,并且将逐层拼接在一起。而这种生成的模型采用的是类似于GPT-style的transformers方法。而VAR在ImgaNet上做基于class-conditioned的工作,最终超过了AR,Diifsuion,Mask,GAN等基础生成模型架构。原创 2024-12-21 17:22:55 · 1273 阅读 · 0 评论 -
Diffusion Transformer 相关框架解释
DiT(Diffuison Transformer)的相关解释原创 2024-12-21 00:25:47 · 1203 阅读 · 0 评论 -
See3D--You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale 论文解读
该论文提出了一种可扩展的视觉条件多视图扩散模型See3D,用于开放世界的3D创作,该模型在无姿态标注的大规模互联网视频数据集上训练的。原创 2024-12-19 23:59:26 · 441 阅读 · 0 评论 -
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models 论文解读
该论文提出在数据层面从分离运动和外观来从没有高质量视频中训练高质量的视频模型,另外设计了一个基于现有观察结果的有效的pipeline,首先获得完全训练过的视频模型(即所有模块完整训练要比仅仅训练时间模块能够实现外观和运动之间的最强的耦合。),之后用合成的高质量图像来微调空间模块。原创 2024-12-19 00:26:28 · 948 阅读 · 0 评论 -
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation 论文解读
该论文提出了视频扩散模型(VDM),并且提出了两个高质量视频生成扩散模型:文本到视频模型(T2V)和图像到视频模型(I2V)。T2V模型基于给定的文本输入来生成视频,I2V模型通过在这基础上另外增加图像的输入生成视频。原创 2024-12-18 20:50:35 · 686 阅读 · 0 评论 -
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors 论文解读
提出一种利用视频扩散模型为开放域图像添加动画视频的方法DynamiCrafter,通过text-to-video的扩散模型作为运动先验,把图像放入生成过程中作为引导,并且采用双流图像作为输入,包括文本对齐上下文,以及视觉细节引导,确保视频扩散模型以互补的方式合成保留细节的动态内容。原创 2024-12-09 15:51:58 · 1111 阅读 · 0 评论 -
MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model论文解读
该论文提出了一种使用增强了三维先验的多视图扩散模型的方法MVGenMaster,用于解决多样化的NVS任务,MVGenMaster利用度量深度和相机姿态进行扭曲的3D先验,显著增强了NVS中的泛化能力和3D一致性。MVGenMaster在in-domain和OOD情况下的基准测试都优于当前SOTA方法。原创 2024-12-01 21:13:39 · 790 阅读 · 0 评论 -
LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors 论文解读
该论文提出了一种利用大规模视觉模型的先验知识从稀疏视角图像生成高质量3D模型的方法。传统的3D Gaussian Splatting (3DGS)方法依赖于预先计算的相机位姿和点云,但在稀疏视角设置下,传统的SfM技术由于输入图像之间缺乏足够重叠,无法成功处理稀疏视图设置,导致3DGS初始化产生的相机位姿和点云不准确。由于缺乏足够的图像约束,3DGS倾向于过拟合稀疏输入图像,从而产生严重的伪影。原创 2024-11-29 21:44:51 · 1052 阅读 · 0 评论 -
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis 论文解读
该论文介绍了一个支持直接3DGS生成和编辑的框架SplatFlow,主要由多视角修正流(RF)和高斯溅射解码器(GSDecoder)。多视图RF模型可以同时生成多视图图像、深度图和相机姿态,并以文本提示为条件,解决了现实世界场景中复杂的相机轨迹和多样的场景尺度等挑战。GSDecoder则通过一种前馈的3DGS方法,将这些潜在输出高效地转换为3DGS表示。SplatFlow利用无需训练的反演和修复技术,实现了无缝的3DGS编辑,并在统一框架内支持物体编辑、新视角合成和相机姿态估计等广泛的3D任务。原创 2024-11-29 16:39:18 · 824 阅读 · 0 评论 -
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion 论文解读
该论文提出了DimensionX框架,该框架提出从单个图像扩散到可控视频再到生成逼真的3D和4D场景,通过学习面向时间和空间维度的模块,来分离视频扩散中的空间和时间因素,从而生成过程中保证精确控制时间和空间动态。原创 2024-11-27 21:06:54 · 1132 阅读 · 0 评论 -
Zero-Shot Scene Reconstruction from Single Images with Deep Prior Assembly 论文解读
该论文提出了深度先验组装(deep prior assembly)框架,利用大语言模型和视觉模型的不同的多样化深度先验组装在一起,以零样本的方法从单图像中重建场景。关键思想是通过将单图像场景重建任务分解为一系列子任务,并且每个子任务均通过大模型来解决。原创 2024-11-26 19:10:23 · 1299 阅读 · 0 评论 -
Epipolar-Free 3D Gaussian Splatting for Generalizable Novel View Synthesis 论文解读
该论文设计了一种不依赖于极线约束的情况实现可推广的新视角合成。与现有依赖于极线约束的方法不同,eFreeSplat利用自监督的ViT和跨视角交叉自注意力完成预训练来捕捉跨稀疏视角的3D结构信息。原创 2024-11-24 23:02:08 · 1315 阅读 · 0 评论 -
SplatFormer: Point Transformer for Robust3D Gaussian Splatting 论文解读
该论文提出一种新的模型SplatFormer用于减少训练数据分布之外的视角数据(Out-of-Distribution,OOD)下进行新视图合成情况下的泛化性差,存在视角伪影的情况。SplatFormer通过利用PointTransformer学习输入视角中的包含的多视角信息,学习一个3D渲染先验来提高最终渲染质量。原创 2024-11-24 17:11:21 · 1550 阅读 · 0 评论 -
Edify 3D: Scalable High-Quality 3D Asset Generation 论文解读
Edify 3D是一种NVIDIA提出的一种高质量的3D资产生成而设计的高级解决方案,该模型利用扩散模型合成所描述对象的RGB和表面法线图像。然后,多视图的观测结果被用于重新构造物体的形状、4k分辨率的纹理和基于物理的渲染(PBR)材质。Edify 3D可以在2分钟之内生成具有详细几何形状、干净拓扑结构、高分辨率纹理的高质量3D资产。原创 2024-11-23 18:23:41 · 1567 阅读 · 1 评论 -
Large Spatial Model:End-to-end Unposed Images to Semantic 3D 论文解读
该论文提出一种大型空间模型(Larget Spatial Model,LSM)的统一框架,可以直接从无姿态的RGB图像中重建神经辐射场。LSM可以单次前向传递中同时估计几何、外观和语义,统一了多个三维视觉任务,首次实现实时的语义3D重建和渲染,无需显式的相机参数。原创 2024-11-21 22:51:27 · 1295 阅读 · 0 评论 -
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models 论文解读
该论文首次提出了一个通过大语言模型(LLM)来生成3D对象的模型LLaMA-Mesh,扩展了在文本上预训练的LLM的能力,来生成一个3D Mesh,有效地统一了3D和文本,并且仍然保持了原有LLaMA的文本生成性能。原创 2024-11-20 21:45:13 · 1774 阅读 · 0 评论 -
Normal-GS: 3D Gaussian Splatting with Normal-Involved Rendering 论文解读
Normal-GS的论文解读,Normal-GS的目的,训练过程,损失函数,实验等。原创 2024-11-09 23:49:56 · 1924 阅读 · 2 评论 -
LVSM: A LARGE VIEW SYNTHESIS MODEL WITH MINIMAL 3D INDUCTIVE BIAS 论文解读
该论文提出大视角合成模型LVSM,基于Transformer方法,用于场景中或对象级层次从稀疏视角(或单视角)作为输入,进行可扩展和泛化的新视角合成。原创 2024-11-08 19:03:06 · 1399 阅读 · 0 评论 -
No Pose, No Problem: Surprisingly Simple 3DGaussian Splats From Sparse Unposed Images 论文解读
该论文提出一种NoPoSplat的前馈模型,用于在没有姿态情况下的稀疏多视图图像中构建三维场景。相较于以往需要将精确的相机姿态作为输入不同,NoPoSplat直接从一个局部摄像机的坐标(标准空间)中预测高斯基元,消除姿态估计及其相关误差的需求。原创 2024-11-05 23:47:09 · 1154 阅读 · 0 评论 -
最新三维视觉下的扩散模型综述——Diffusion Models in 3D Vision: A Survey
该文章为三维视觉下的扩散模型综述,包括但不限于三维视觉,三维扩散生成任务,三维数据集,评估指标,未来发展方向等工作。原创 2024-11-05 19:26:56 · 4927 阅读 · 0 评论 -
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis 论文解读
该论文提到一种单张或稀疏图像合成高保真的新视角图像的方法ViewCrafter。提出利用视频扩散模型的生成能力和基于点云的表示的粗糙3D先验相结合,解决现有方法局限性。ViewCrafter精确控制6自由度相机姿态,生成高保真且一致的新视角。原创 2024-11-04 22:50:59 · 1188 阅读 · 0 评论 -
WonderWorld: Interactive 3D Scene Generation from a Single Image 论文解读
WonderWorld的论文解读,该论文提出WonderWorld,用于交互式3D场景生成,通过单个图像生成广阔的沉浸式3D场景,实现用户交互地指定场景内容和布局,并实现低延迟创建场景。WonderWorld在A6000 上不到10秒就可以生成多样的3D场景,也为用户驱动内容创建和探索提供了新的潜力。原创 2024-11-01 23:47:35 · 1528 阅读 · 0 评论 -
CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model 论文解读
该论文提出高保真的单图像生成3D纹理网格的卷积重建模型(CRM),通过单输入图像生成六正交视图图像,并且利用U-Net网络生成高分辨率的三平面表示,再采用Flexicubes作为几何表示,来端到端的优化纹理网格。CRM模型可以在10秒钟生成高保真的纹理网格。原创 2024-10-30 23:34:57 · 1085 阅读 · 0 评论 -
DepthSplat: Connecting Gaussian Splatting and Depth 论文解读
该文章为DepthSplat的论文解读,本文提出一种将高斯溅射和深度估计结合来提高两者性能的深度估计方法DepthSplat,并能够在稀疏视角下实现高质量的深度预测和新视角合成,并且在处理纹理不明显的区域、遮挡场景和反射表面下表现更出色。原创 2024-10-24 22:06:28 · 999 阅读 · 0 评论 -
VistaDream: Sampling multi view consistent imagesfor single-view scene reconstruction 论文解读
本文对于VistaDream进行解读,提到用于单视图图像重建3D场景的框架VistaDream,专注于生成图像之间的一致性。VistaDream采用两阶段框架。原创 2024-10-24 20:59:11 · 1549 阅读 · 0 评论 -
Director3D: Real-world Camera Trajectory and 3DScene Generation from Text 论文解读
该论文提出利用真实世界数据集,设计一个从文本生成真实世界3D场景和自适应相机轨迹的强大的开放世界文本到3D生成框架Director3D。原创 2024-10-20 23:51:20 · 1006 阅读 · 0 评论 -
单个图像自动创建高质量的3D汽车资产--RGM
RGM论文提出一种Carvers的大规模合成汽车数据集,包含超过1000个高精度的3D车辆模型。提出前馈模型,通过图像输入,输出全局照明和重照明3DGS原语融合BRDF参数来表示3D重建物体,实现快速精确3D汽车资产重建。RGM方法生成的高逼真3D汽车资产可以无缝集成到不同照明条件下道路场景中,为工业应用提供实质性的实用价值。原创 2024-10-20 00:05:34 · 957 阅读 · 0 评论 -
ReLitLRM: Generative Relightable Radiance for Large Reconstruction Models 论文解读
ReLitLRM论文解读,该论文提出ReLitLRM生成式大型重建模型,实现从仅4-8张未知光照下的输入图像中高效重建出高质量的可重新照明的3D物体。原创 2024-10-19 21:29:54 · 1057 阅读 · 0 评论