Struart_R-优快云博客

原创最新三维视觉下的扩散模型综述——Diffusion Models in 3D Vision: A Survey

该文章为三维视觉下的扩散模型综述，包括但不限于三维视觉，三维扩散生成任务，三维数据集，评估指标，未来发展方向等工作。

2024-11-05 19:26:56 4421

原创 BEV感知（1）--BEV感知算法

BEV感知算法、BEV开源数据集、BEV感知方法，算法优缺点

2024-01-31 15:02:58 7492

原创 DepthCrafter: Generating Consistent Long Depth Sequencesfor Open-world Videos 论文解读

该论文提出了一种基于预训练I2V扩散模型的深度估计单目视频模型，可以实现对于不同开放世界视频下时间一致的长深度序列，而不需要任何诸如光流估计等额外信息。在时间长度问题上，大多现有视频扩散模型都只能生成一个固定的帧数或者少量的帧。但是很难实现太长帧数的开放世界的视频深度估计。

2025-03-18 18:21:48 598

原创 MagicArticulate: Make Your 3D Models Articulation-Ready 论文解读

该论文提出MagicArticulate框架，旨在将静态的3D模型自动转换为支持动画的articulation-ready资产。以往的3D模型都是静态模型，转换成可连接的关节模型需要专业人员手动放置骨骼，定义联合层次结构。而后续的自动骨架提取方法，对于复杂的形状很难实现，或者依赖于固定的模版，有很差的通用性。主要贡献：（1）第一个包含over 33k的高质量关节注解数据集（2）一个两阶段的框架，用于有效地处理骨架的生成和蒙皮权重预测（3）在现实世界的动画pipeline中展示出SOTA性能。

2025-03-02 22:41:55 1052

原创 SimVS: Simulating World Inconsistencies for Robust View Synthesis 论文解读

该论文提出了一种名为SimVS的视频模型方法，旨在解决稀疏多视角图像捕捉中因动态变化（光照变化、物体运动）导致的视图合成鲁棒性问题。动机：现有方法在动态场景下需要依赖静态假设信息（比如NeRF），而实际的应用中输入的图像存在动态干扰，导致重建质量下降，或者使用了很少的数据，最后重建结果出现残影或者几何错乱（如下图CAT3D近期的NVS模型都是从一组一致性的图像作为输入，场景几何形状和照明。

2025-03-02 16:48:32 643

原创 PhotoDoodle: Learning Artistic Image Editing from Few-Shot Examples 论文解读

介绍了，一个基于扩散模型的图像编辑框架，旨在通过少量示例学习艺术家的风格，实现照片的创意涂鸦（如添加装饰元素、艺术化处理），同时保持背景的完整性和一致性。该论文的动机：将普通图片转换成富有创意的艺术作品（比如添加手绘线条，几何图案，3D效果等），但以往的传统方法依赖于艺术家的手动操作，耗时且门槛高。全局风格迁移（如风格迁移模型）会全局修改图像纹理和颜色，导致背景内容被破坏，如人脸变成油画风格而失去真实感。局部修复方法。

2025-02-27 22:04:47 717

原创 Step-Video-T2V 论文解读

Step-video-T2V是一个T2V模型，具有30B参数，能够生成最多204帧的视频（分辨率544*992），基于DiT模型设计，使用rectified flow进行训练，并在原有的VAE上实现了16x16的空间压缩比和8x的时间压缩比，包括两个双语文本编码器，能够直接理解中文或英文提示，引入了级联训练过程，包括文本到图像的预训练、文本到视频预训练、监督微调（SFT）、之际偏好优化（DPO），来加速模型收敛并充分利用不同质量的视频数据集。

2025-02-26 22:00:30 860

原创 StyleMaster: Stylize Your Video with Artistic Generation and Translation 论文解读

该论文提出了一种用于视频风格迁移和生成具有艺术风格的视频StyleMaster。现有方法在生成给定风格的视频中，容易存在内容泄露，或者很难将风格迁移。所以风格提取阶段尤为重要，而现有方法强调全局风格，但忽略了局部纹理。

2025-01-22 17:22:29 1037

原创 StyleGaussian: Instant 3D Style Transferwith Gaussian Splatting 论文解读

提出了StyleGaussian，一种新的3D风格化迁移技术，允许每秒10fps的速度，将任何风格即时传输到3D场景中。利用3DGS执行风格迁移，不会影响实时渲染能力和多视图一致性。（1）提出了StyleGaussian，一种新颖的三维风格化迁移手段。（2）设计了一种有效的特征渲染策略，可以在渲染高维特征中，将学习到的特征嵌入到冲减的三维高斯特征中。（3）设计了一个基于KNN的3D CNN，可以在不影响多视图一致性的同时，解码3DGS格式为RGB。

2025-01-17 14:56:29 1218

原创 StyleCrafter: Taming Stylized Video Diffusion with Reference-Augmented Adapter Learning 论文解读

该论文提出StyleCrafter，一种增强预训练文本到视频的方法，通过添加一个风格控制器，可以从文本提示（内容）和参考图像（风格）中生成具有特定风格的视频。（1）提出一种自适应融合模块，来平衡基于文本的内容特征和基于图像的风格特征的影响（2）使用富含风格化的图像数据集训练风格控制器，并通过微调来将图像中学习到的风格能力迁移到T2V中，克服了缺乏具有风格的视频数据的问题，也不需要对风格化视频进行监督。（3）在图像生成和视频生成的风格化中显著优于当前SOTA性能。

2025-01-16 17:18:57 639

原创 Open-Sora: Democratizing Efficient Video Production for All 论文解读

Open-Sora是一个开源的视频生成模型,旨在生成高保真度的视频内容。它支持广泛的视觉生成任务,包括文本到图像、文本到视频和图像到视频的生成。该模型利用先进的深度学习架构和训练/推理技术,能够生成长达15秒、分辨率达720p、任意宽高比的灵活视频。其中的关键创新包括空间-时间扩散变换器(STDiT)和高度压缩的3D自编码器。通过这个项目,研究人员希望促进AI内容创作领域的创新、创造力和包容性。开源原则使Open-Sora民主地开放了所有的训练/推理/数据准备代码以及模型权重。

2025-01-11 14:43:00 1189

原创 HunyuanVideo: A Systematic Framework For LargeVideo Generative Models 论文解读

该论文介绍了HunyuanVideo，一个新颖的最大的开源视频基础模型，并在视频生成方面的性能，优于领先的闭源模型。该框架涵盖了训练基础框架、数据管理、模型架构优化、模型训练等，并提出一种有效的扩展策略，在不降低所需模型性能的情况下，减少5倍的计算资源需求。基于这一扩展方法和基础框架，训练了一个130亿参数的大规模视频模型，并在互联网规模的图像和视频上进行预训练，并经过专门的渐进式微调策略后，在视觉质量、动态运动、视频文字对齐度、语义场景剪辑中都表现出色。

2025-01-08 23:49:53 921

原创 L4GM: Large 4D Gaussian Reconstruction Model 论文解读

该论文提出了第一个4D大型重建模型L4GM，从单视图视频中生成动画物体的4D模型，并仅需一次前馈传递即可完成，只需要一秒钟。我们直接建立在一个预训练的三维大型重建模型LGM上，L4GM可以从较低fps采样视频帧，得到每一帧的3DGS表示，之后上采样到更高的fps，来保证时间平滑性。L4GM的关键在于设计了一个新的大规模数据集，来自于Objaverse 1.0的包含1200w个视频渲染动画，包含44k不同物体，和11w种动画，并在48个视角呈现，共计3亿帧。

2025-01-07 16:05:43 799

原创 VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model 论文解读

该论文介绍了一种新的高质量多视图一致的图像生成方法VideoMV，从现有的视频生成模型中进行微调，来用于多视图的合成。提到预训练的数据和模型决定了学习的特征类型，底层的三维模型决定了是否多视图一致。提出了一种新颖的3D-aware的去噪策略（基于视频的多视图生成的前馈模型），进一步提高生成图像的多视图一致性。实验结果表明，VideoMV在效率和质量上显著优于现有多视图合成方法（MVDream）。

2025-01-06 22:33:13 728

原创 MotionCtrl: A Unified and Flexible Motion Controller for Video Generation 论文解读

MotionCtrl是一个统一和灵活的视频生成运动控制器可以独立控制相机运动和物体运动，解决了以往方法中要么只关注一种类型的运动，要么无法区分两者之间的差异性。MotionCtrl提供了三个优势：（1）它可以有效且独立地控制相机和物体运动，实现细粒度调整和多样化的运动组合（2）它使用相机姿态和轨迹作为运动条件，这不会影响物体的视觉外观（3）它是一个相对通用的模型，可以适应各种相机姿态和轨迹，无需进一步微调

2025-01-04 22:40:59 717

原创 CameraCtrl: Enabling Camera Control forText-to-Video Generation 论文解读

该论文介绍了一个即插即用模块，可以在文本到视频生成模型中实现相机视角的精确控制，考虑到无缝集成到T2V模型中，我们研究了如何有效精确控制相机运动。并通过Plucker射线来表示相机姿态，提供对相机参数的全面几何描述。该论文在AnimateDiff上实现了CameraCtrl，并在各种个性化视频生成中实现精确的相机控制，证明了其在各种视频创作环境上的通用性和实用性。

2025-01-03 23:59:34 700

原创 DepthLab: From Partial to Complete 论文解读

该论文介绍了一个基于RGB图像的深度修复模型，但是这个模型可以用于各种场景下的下游任务，包括3D场景填充，文本到场景的生成，稀疏视图重建，LiDAR深度估计。DepthLab模型在填充缺失值中保持了对缺失区域（mask）的弹性，并且保持了与条件已知深度的尺度一致性。具体来说DepthLab引入了双分支的深度扩散框架，利用RGB图像作为条件输入，将已知深度和mask区域输入到深度估计U-Net中，并且训练中对已知深度进行随机尺度归一化，来缓解已知区域的非全局极值引起的正则化溢出。

2025-01-03 21:30:41 1437

原创 Scene123: One Prompt to 3D Scene Generation via Video-Assisted andConsistency-Enhanced MAE 论文解读

该论文提出了一种名为Scene123的3D场景生成框架，并结合了视频生成框架作为assist，以及增强一致性的MASK Auto Encoder（MAE）。实现从单个输入图像或文本提示到生成逼真且一致的3D场景。大量实验表明，Scene123在表面重建精度、视图真实性和纹理质量方面优于现有的最先进方法。

2024-12-29 16:31:19 981

原创 Marigold：Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

Marigold是一个扩散模型和通过微调手段的单目深度估计方法，可以利用预先训练好的Stable Diffusion中的视觉知识，来实现更好更通用的深度估计，实现仿射不变性。由于LDM的优势，Marigold也表现出出色的zero-shot泛化能力，未知真实深度图情况下，在几个真实数据集中获得SOTA性能。

2024-12-29 14:34:11 2117

原创 CAT3D: Create Anything in 3D with Multi-View Diffusion Models 论文解读

该论文提出一种CAT3D方法，实现单视图，稀疏视图，文本提示生成图像创建3D场景。可以利用多视图扩散模型生成大量一致的新视图，并且用作3D重建的输入，通过有效的并行采样策略生成任何视角下三维一致渲染的3D表示。创新在于将欠约束的3D重建问题首次表述为生成问题，提供更多的视角来实现完全约束下的重建。并且可以实现1分钟生成场景和对象级的逼真结果，在多个benchmarks上，相比以往的SOTA快一个数量级。

2024-12-29 00:05:47 932

原创 ReconFusion: 3D Reconstruction with Diffusion Priors 论文解读

提出可以利用三张图片生成实景三维重建的方法ReconFusion。并且在合成数据集和多视图数据集上进行训练，来规范基于NeRF的3D生成管道。该方法可以在欠约束区域合成逼真的几何形状和纹理，同时保留观察区域的外观，即使输入视图有限也能如此。

2024-12-28 22:20:25 968

原创 ReconX: Reconstruct Any Scene from Sparseviews with Video Diffusion Model 论文解读

本文提出了一种名为ReconX的新型稀疏视图三维场景重建框架，将模糊的重建问题重新定义为时间生成任务。其核心思想是利用预训练的大型视频扩散模型的强大生成先验，为下游3D重建任务创造更多观测数据。为解决生成视频帧3D视图一致性差的挑战，ReconX首先从稀疏输入视图构建全局点云，并将其编码为3D结构条件。这个3D条件被纳入视频扩散模型，引导合成细节丰富且3D一致性高的帧。最后，通过基于置信度的3D高斯散射优化方案,从生成的视频中重建3D场景。

2024-12-26 22:53:25 872

原创 MoGe---最新单目3D几何估计方法

该论文提出了一个从单张单目图像中直接预测场景三维点云表示的模型MoGe。利用仿射不变性，不受真实尺度和位移的影响，从而消除了相机焦距产生的歧义。另外提出一种新颖的全局和局部几何监督技术，使模型学习到高质量的几何信息。该模型在包括3D点图，深度图，FoV（视场角）单目估计中都显著优于最先进的方法。

2024-12-24 23:03:08 1383

原创 CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer 论文解读

该论文提出了一个基于Diffusion Transformer的大规模文本到视频模型CogVideoX，可以实现生成与文本对齐的10s连续视频，分辨率为768*1360 pixels。为了解决现有视频模型存在移动空间有限，持续时间短，难以生成基于文本的连续视频问题，该论文提出了几种方法。

2024-12-22 00:09:16 1791

原创 VAR:Visual Autoregressive Modeling: Scalable ImageGeneration via Next-Scale Prediction 论文解读

该论文提出了一种新的生成范式VAR视觉自回归模型，这种自回归模型实现coarse to fine的方法进行生成，或者说是next-scale prediction的方式，从低分辨率逐渐生成到高分辨率图像，并且将逐层拼接在一起。而这种生成的模型采用的是类似于GPT-style的transformers方法。而VAR在ImgaNet上做基于class-conditioned的工作，最终超过了AR，Diifsuion，Mask，GAN等基础生成模型架构。

2024-12-21 17:22:55 1135

原创 Diffusion Transformer 相关框架解释

DiT（Diffuison Transformer）的相关解释

2024-12-21 00:25:47 1085

原创 See3D--You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale 论文解读

该论文提出了一种可扩展的视觉条件多视图扩散模型See3D，用于开放世界的3D创作，该模型在无姿态标注的大规模互联网视频数据集上训练的。

2024-12-19 23:59:26 417

原创 VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models 论文解读

该论文提出在数据层面从分离运动和外观来从没有高质量视频中训练高质量的视频模型，另外设计了一个基于现有观察结果的有效的pipeline，首先获得完全训练过的视频模型（即所有模块完整训练要比仅仅训练时间模块能够实现外观和运动之间的最强的耦合。），之后用合成的高质量图像来微调空间模块。

2024-12-19 00:26:28 914

原创 VideoCrafter1: Open Diffusion Models for High-Quality Video Generation 论文解读

该论文提出了视频扩散模型（VDM），并且提出了两个高质量视频生成扩散模型：文本到视频模型（T2V）和图像到视频模型（I2V）。T2V模型基于给定的文本输入来生成视频，I2V模型通过在这基础上另外增加图像的输入生成视频。

2024-12-18 20:50:35 641

原创 DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors 论文解读

提出一种利用视频扩散模型为开放域图像添加动画视频的方法DynamiCrafter，通过text-to-video的扩散模型作为运动先验，把图像放入生成过程中作为引导，并且采用双流图像作为输入，包括文本对齐上下文，以及视觉细节引导,确保视频扩散模型以互补的方式合成保留细节的动态内容。

2024-12-09 15:51:58 1064

原创 MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model论文解读

该论文提出了一种使用增强了三维先验的多视图扩散模型的方法MVGenMaster，用于解决多样化的NVS任务，MVGenMaster利用度量深度和相机姿态进行扭曲的3D先验，显著增强了NVS中的泛化能力和3D一致性。MVGenMaster在in-domain和OOD情况下的基准测试都优于当前SOTA方法。

2024-12-01 21:13:39 759

原创 LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors 论文解读

该论文提出了一种利用大规模视觉模型的先验知识从稀疏视角图像生成高质量3D模型的方法。传统的3D Gaussian Splatting (3DGS)方法依赖于预先计算的相机位姿和点云,但在稀疏视角设置下，传统的SfM技术由于输入图像之间缺乏足够重叠，无法成功处理稀疏视图设置，导致3DGS初始化产生的相机位姿和点云不准确。由于缺乏足够的图像约束，3DGS倾向于过拟合稀疏输入图像，从而产生严重的伪影。

2024-11-29 21:44:51 988

原创 SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis 论文解读

该论文介绍了一个支持直接3DGS生成和编辑的框架SplatFlow，主要由多视角修正流（RF）和高斯溅射解码器（GSDecoder）。多视图RF模型可以同时生成多视图图像、深度图和相机姿态,并以文本提示为条件,解决了现实世界场景中复杂的相机轨迹和多样的场景尺度等挑战。GSDecoder则通过一种前馈的3DGS方法，将这些潜在输出高效地转换为3DGS表示。SplatFlow利用无需训练的反演和修复技术，实现了无缝的3DGS编辑，并在统一框架内支持物体编辑、新视角合成和相机姿态估计等广泛的3D任务。

2024-11-29 16:39:18 767

原创 DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion 论文解读

该论文提出了DimensionX框架，该框架提出从单个图像扩散到可控视频再到生成逼真的3D和4D场景，通过学习面向时间和空间维度的模块，来分离视频扩散中的空间和时间因素，从而生成过程中保证精确控制时间和空间动态。

2024-11-27 21:06:54 1078

原创 Zero-Shot Scene Reconstruction from Single Images with Deep Prior Assembly 论文解读

该论文提出了深度先验组装（deep prior assembly）框架，利用大语言模型和视觉模型的不同的多样化深度先验组装在一起，以零样本的方法从单图像中重建场景。关键思想是通过将单图像场景重建任务分解为一系列子任务，并且每个子任务均通过大模型来解决。

2024-11-26 19:10:23 1243

原创 Epipolar-Free 3D Gaussian Splatting for Generalizable Novel View Synthesis 论文解读

该论文设计了一种不依赖于极线约束的情况实现可推广的新视角合成。与现有依赖于极线约束的方法不同，eFreeSplat利用自监督的ViT和跨视角交叉自注意力完成预训练来捕捉跨稀疏视角的3D结构信息。

2024-11-24 23:02:08 1245

原创 SplatFormer: Point Transformer for Robust3D Gaussian Splatting 论文解读

该论文提出一种新的模型SplatFormer用于减少训练数据分布之外的视角数据（Out-of-Distribution，OOD）下进行新视图合成情况下的泛化性差，存在视角伪影的情况。SplatFormer通过利用PointTransformer学习输入视角中的包含的多视角信息，学习一个3D渲染先验来提高最终渲染质量。

2024-11-24 17:11:21 1480

原创 Edify 3D: Scalable High-Quality 3D Asset Generation 论文解读

Edify 3D是一种NVIDIA提出的一种高质量的3D资产生成而设计的高级解决方案，该模型利用扩散模型合成所描述对象的RGB和表面法线图像。然后，多视图的观测结果被用于重新构造物体的形状、4k分辨率的纹理和基于物理的渲染（PBR）材质。Edify 3D可以在2分钟之内生成具有详细几何形状、干净拓扑结构、高分辨率纹理的高质量3D资产。

2024-11-23 18:23:41 1459 2