自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(147)
  • 收藏
  • 关注

原创 【三维重建工具】NeRFStudio、3D GaussianSplatting、Colmap安装与使用指南

Nerfstudio,一个用于NeRF开发的模块化PyTorch框架。框架中用于实现基于NeRF的方法的组件即插即用,使得研究人员和相关从业者可以轻松地将NeRF集成到自己的项目中。框架的模块化设计支持实时可视化工具,导入用户真实世界捕获的数据集外(in-the-wild)数据,以及导出为视频,点云和网格表示的工具。近期,还导入了InstantNGP、3D Gaussian Splatting等最新重建算法。

2024-04-08 23:05:42 14803 31

原创 【无标题】GAP: 用文本指导对任何点云进行高斯化(ICCV 2025)

《GAP: 文本引导的点云高斯化方法》 摘要:南京大学、复旦大学与华为诺亚实验室联合提出GAP框架,将无颜色点云高效转化为高质量3D高斯泼溅(3DGS)。该方法创新性地采用多视图优化策略,通过深度感知扩散模型保证视角一致性,并引入表面锚定机制约束高斯分布始终位于物体表面。为解决遮挡问题,GAP整合了基于扩散的修复技术,针对不可见区域进行智能补全。实验验证了该方法在合成数据、真实扫描场景及大规模环境中的有效性,展现出卓越的几何精度和视觉保真度。该技术为点云数据的高效可视化与编辑提供了新思路。

2025-08-22 00:05:30 397

原创 【无标题】π3:可扩展的Permutation-Equivariant(置换等变)视觉几何学习

摘要: π3是一种创新的置换等变视觉几何学习框架,通过消除传统方法对固定参考视角的依赖,实现了仿射不变的相机位姿估计和尺度不变的点云重建。该模型采用全置换等变架构,支持单目、视频和无序图像输入,在相机位姿估计、深度预测等任务中性能领先。实验表明,π3在Sintel基准测试中显著优于现有方法(ATE从0.167降至0.074),推理速度达57.4帧/秒,且具备优异的扩展性和鲁棒性。其核心创新包括局部坐标系预测、统一尺度优化和相对位姿监督,为视觉几何重建提供了更高效、稳定的解决方案。

2025-07-25 09:26:45 883

原创 【会议】中国空间智能大会

中国空间智能大会(ChinaSI 2025)在深圳召开,聚焦空间智能领域十大前沿问题,涵盖理论构建、数据获取、多模态融合、智能体协同等关键方向。武汉大学龚健雅教授探讨了时空智能大模型的发展挑战,指出语言大模型与地理空间认知存在三大矛盾。北京大学陈宝权教授分享了现实世界数据获取与增强仿真的最新研究,浙江大学章国锋教授介绍了高效三维场景重建技术。会议展示了我国在空间智能基础理论、技术突破与产业应用的最新进展,为人工智能与空间计算的融合发展指明方向。

2025-07-20 15:52:06 794 2

原创 【三维重建】LODGE:谷歌DeepMind发布大场景超快3DGS!分层渲染,移动设备均可!

本文提出LODGE方法,一种创新的3D高斯喷洒(3DGS)细节层次(LOD)技术,可实现在内存受限设备上高效渲染大规模场景。通过构建分层LOD表示,结合深度感知平滑滤波器和重要性剪枝,LODGE显著降低了渲染时间和GPU内存占用。该方法还采用场景分块策略动态加载高斯子集,并引入不透明度混合机制消除视觉伪影。实验证明,LODGE在户外和室内数据集上均取得领先效果,以更低延迟和内存需求呈现高质量渲染。核心创新包括:1) 无需每帧重新计算的高效LOD表示;2) 自动优化LOD分割参数;3) 基于空间分块的动态加载

2025-07-18 11:16:27 1362

原创 【三维生成】FlashDreamer:基于扩散模型的单目图像到3D场景

摘要 FlashDreamer提出了一种创新的单目3D场景补全方法,通过结合扩散模型和视觉语言模型,从单张输入图像生成多视角视图,实现完整的三维重建。该方法利用Flash3D初始化场景,使用预训练的扩散模型在视觉语言模型生成的文本提示引导下,修复新视角图像并解决一致性问题。实验表明,FlashDreamer无需额外训练即可高效补全3D场景,显著提升了单目重建能力。该方法为虚拟现实、机器人等应用提供了更便捷的三维场景重建解决方案。

2025-07-10 23:50:30 1489 1

原创 【三维重建】Flow Distillation Sampling:使用匹配先验的正则3DGS[ICLR 2025]

本文提出Flow Distillation Sampling (FDS)方法,通过引入预训练光流模型的匹配先验来优化3D高斯泼溅(3DGS)的几何重建质量。针对3DGS在稀疏观测场景中几何重建效果欠佳的问题,FDS利用预训练模型生成输入视角与未观测视角间的光流(先验流),指导3DGS解析计算的光流(辐射流),从而提升重建精度。该方法还提出自适应相机采样方案,控制视角间重叠度以优化先验流计算。实验表明,FDS在深度渲染、网格重建和新视角合成等任务上显著优于现有方法,有效解决了3DGS在低观测区域的几何缺陷问题

2025-07-04 11:22:32 1134

原创 【三维重建】【深度预测】DepthSplat:将高斯泼溅与深度建立关联

本文提出NexusGS方法,通过将深度信息直接嵌入3D高斯溅射(3DGS)点云,显著提升了稀疏视角下的新视角合成质量。该方法利用3DGS的极线几何特性,提出创新的点云致密化策略,包括极线深度关联、鲁棒深度融合和深度修剪三个步骤,有效缓解传统光流方法的误差。实验表明,NexusGS在深度精度与渲染质量上均优于现有方法,生成的点云质量更高。该方法通过多视图特征匹配与单目深度特征融合,结合层次匹配架构,实现了高效准确的深度预测与视图合成。在RealEstate10K等数据集上的实验验证了其优越性能,为稀疏视角3D

2025-07-03 15:16:45 874 2

原创 【三维重建】Triangle Splatting:实时的三角形泼溅场

本文提出了一种基于三角形图元的可微分渲染方法——三角泼溅技术(Triangle Splatting),实现了实时辐射场渲染。该方法将每个三角形渲染为可微分泼溅单元,结合了三角形的高效性与自适应密度表征的优势。实验表明,在Mip-NeRF360数据集上,该技术超越了同期非体素化图元方案,在室内场景中甚至优于最先进的Zip-NeRF。三角形图元的兼容性使其在传统渲染管线中表现出色:在1280×720分辨率下达到2400帧/秒的渲染速度。这项研究首次实现了对三角形图元的直接优化,为现代可微分渲染与传统图形管线架设

2025-07-03 15:03:28 887

原创 【三维重建】Deformable Beta Splatting

摘要 南加州大学团队提出可变形贝塔喷溅(DBS)方法,突破3D高斯喷溅在几何与颜色建模上的局限。DBS采用可变形贝塔核替代高斯核,通过有限支撑范围和自适应频率控制,以45%参数量实现更高保真度的几何细节捕捉;同时引入球形贝塔模型改进颜色编码,用线性增长的反射波瓣参数高效模拟镜面高光。理论证明其核无关的MCMC优化策略仅需调整不透明度即可维持分布,实验显示DBS渲染速度比3DGS快1.5倍,达到SOTA视觉质量。该项目开源地址:https://semanticsplat.github.io/。

2025-06-29 22:46:16 1178

原创 【综述】AI FOR SCIENCE

AI助力科学研究的现状与展望 人工智能(AI)正加速推动科学研究的变革,在生命科学、物质科学等领域取得显著成果。在生命科学方面,AI已应用于蛋白质结构预测(如AlphaFold)、药物设计等,但目前准确率仍有提升空间。物质科学中,AI帮助发现新型材料、优化化学合成路径,并展现出跨学科迁移学习的潜力。关键技术包括深度学习、强化学习和生成式AI,但面临可解释性、数据质量等挑战。未来趋势将聚焦自动化实验室、AI科研助手和多模态技术融合。随着AI与各学科的深入结合,科学发现效率有望实现质的飞跃。

2025-06-28 11:21:50 1459

原创 【物理重建】SPLART:基于3D高斯泼溅的铰链估计与部件级重建

SPLART:基于3D高斯泼溅的无监督铰接物体重建与运动估计 本文提出SPLART框架,利用3D高斯泼溅技术实现铰接物体的部件级重建与运动学估计。该方法仅需两组不同关节状态的RGB图像,通过多阶段优化策略:(1)独立重建各状态;(2)估计高斯元素的移动性参数实现部件分割;(3)联合优化关节参数。创新性地引入几何自监督机制,无需3D标注或类别先验,即可实现实时照片级渲染。实验表明,SPLART在真实场景中优于现有方法,为AR/VR和机器人应用提供了实用解决方案。主要贡献包括:扩展3DGS的可微分移动参数、鲁棒

2025-06-20 11:01:28 986

原创 【无标题】世界模型

摘要:Meta发布了首个基于视频训练的世界模型V-JEPA 2,该模型通过自监督学习理解物理世界的视觉规律,并具备预测和规划能力。世界模型让AI系统像人类一样掌握物理常识(如物体运动轨迹预判),是提升自动驾驶和机器人智能的关键。相比当前编程预设动作的机器人,具备世界模型的AI能自主推理解决新问题。Meta采用两阶段训练:先用百万小时视频数据构建基础认知,再用少量机器人数据微调动作规划能力。实验显示,该模型在零样本环境下处理新物体时成功率高达80%。HuggingFace提出物理推理新基准MVPBench来评

2025-06-17 15:06:27 677

原创 【三维重建】无位姿图像的大场景On-the-fly重建

《即时重建:未标定图像的大规模新视角合成》提出了一种快速重建相机姿态和3D高斯辐射场的方法,适用于有序图像序列和大规模场景。核心贡献包括:1)基于学习的轻量级初始姿态估计,采用GPU友好的小束调整;2)高斯基元直接采样技术,通过像素级概率控制位置与形状,避免冗余初始化;3)高效的姿态与3D高斯联合优化流程;4)可扩展的锚点聚类策略处理大规模场景。实验表明,该方法能在拍摄后立即生成结果,显著快于传统SfM+3DGS流程,同时保持高质量重建效果。

2025-06-14 17:39:20 993

原创 【valse2025】CV与ML领域重要进展

几大进展的标题来源于1.评选2024年5月-2025年4月之间,世界范围内视觉与学习领域的重要学术进展。2.责任AC提名候选进展共16个,通过组委会评议;VALSE2024-2025全体AC投票(选择6-12个进展)。截止5月18日,共收集有效选票128份,超过2/3的AC参与了投票。3.加权计算得分:若某个AC投票N个进展,则该AC为其投票的每个进展贡献1/N投票分。4.每个候选项总得分等于所有AC投票分之和,得票率等于总得分除以最大可能投票分。

2025-06-10 23:46:52 1017

原创 【三维重建】DropGaussian:用于稀疏视角高斯溅射的结构正则化(CVPR2025|)

摘要: 《DropGaussian》提出一种针对稀疏视角3D高斯溅射(3DGS)的结构正则化技术,通过随机移除部分高斯分布(DropGaussian)提升剩余高斯的可见性与梯度更新机会,有效缓解训练过拟合问题。该方法创新性包括:1)无需依赖外部先验,仅通过简单修改3DGS框架实现;2)自适应渐进式丢弃策略,在训练后期动态增强正则化强度。实验表明,该方法在LLFF、Mip-NeRF360和Blender等基准数据集上,仅需3-12视图输入即可达到与复杂先验方法相当的渲染质量,且不增加额外计算成本。核心优势在于

2025-06-10 18:13:22 1034

原创 【三维生成】MVSAnywhere:零样本的多视立体重建

从多视角计算准确的深度是计算机视觉中一个基本且长期存在的挑战。然而,现有的大多数方法在不同领域和场景类型(如室内与室外)之间泛化能力较差。训练通用多视图立体模型具有挑战性,并引发了一些问题,例如如何最好地利用基于Transformer的架构,当输入视图数量变化时如何整合额外的元数据,以及如何估计有效深度范围,这一范围可能因不同场景而异,通常事先未知?MVSA是一种新的多功能的多视图立体架构,旨在通过泛化不同域(domains)和深度范围(depth range)来实现“随处可用”。

2025-06-10 17:33:26 1032

原创 【生成重建】生成式三维重建方法汇总

介绍了2025年的生成式重建算法,从3DGS- enhancer到Genfusion

2025-05-28 10:34:30 1283

原创 【三维重建】三维场景生成:综述

三维场景生成旨在为沉浸式媒体、机器人技术、自动驾驶和具身人工智能等应用合成空间结构化、语义丰富且逼真的环境。早期基于程序规则的方法虽然提供了可扩展性,但多样性有限。近年来,深度生成模型(如GANs、扩散模型)和三维表示(如NeRF、三维高斯分布)的进步使得学习真实世界场景分布成为可能,提高了保真度、多样性和视角一致性。最近的进展如扩散模型通过将生成问题重新定义为图像或视频合成问题,弥合了三维场景生成与逼真度之间的差距。

2025-05-14 23:12:00 1683

原创 【大场景建模】BlockGaussian:通过自适应块GS的大规模场景新视图合成

近期在三维高斯喷射(3DGS)领域的进展展示了其在新型视图合成任务中的巨大潜力。分而治之的范式使得大规模场景重建成为可能,但在场景分割、优化和合并过程中仍面临重大挑战。本文介绍了一种新的框架——BlockGaussian,结合了内容感知的场景分割策略和可见性感知的块优化,以实现高效且高质量的大规模场景重建。具体而言,我们的方法考虑不同区域之间的内容复杂度变化,并在场景分割时平衡计算负载,从而实现高效的场景重建。为了应对独立块优化期间的监督不匹配问题,我们在单个块优化中引入辅助点来对齐真实监督。

2025-04-21 16:17:10 1826

原创 【三维重建与生成】GenFusion:SVD统一重建和生成

最近,3D重建和生成展示了令人印象深刻的新型视图合成结果,实现了高保真度和高效性。然而,在这两个领域之间可以观察到显著的条件差距,例如,可扩展的3D场景重建通常需要密集捕捉的视图,而3D生成则通常依赖于单个或没有输入视图,这极大地限制了它们的应用。原因在于3D约束与生成先验之间的不匹配。为了解决这个问题,我们提出了一种重建驱动的视频扩散模型,该模型学习讲易产生伪影的RGB-D渲染图像作为视频帧的条件。此外,我们。

2025-04-15 17:03:31 1328

原创 【AIGC】零样本学习方法综述(TPAMI 2023 研究综述)

广义零样本学习 ,即 Generalized Zero-Shot Learning(GZSL)的目的是在监督学习过程中某些输出类未知的条件下,训练一个模型来对数据样本进行分类;GZSL利用已看到(源)和看不见(目标)类的语义信息来弥补看见类和看不见类之间的差距。自其引入以来,许多GZSL模型已经被制定出来。在这篇综述论文中,我们对GZSL进行了全面的综述。首先,提供了一个GZSL的概述,包括问题和挑战。然后,我们引入了GZSL方法的分类,并讨论了每个类别中的代表性方法。此外,

2025-04-07 19:41:03 2267 5

原创 【三维重建】Proc-GS:使用3DGS的程序性城市建筑生成

Proc-GS建模是第一个能够使用3DGS实现过程建模的管道。Proc-GS框架包括两个阶段: (1) 资产获取阶段 ,指导3DGS遵循预定义的布局来约束它的优化。例如,当使用3DGS建模时,首先生成它的过程代码,或者手动或使用现成的分割模型。此代码用于为建筑的每个基本资产初始化一组高斯分布。然后根据程序代码对这些特定资产的高斯进行组装,并使用渲染损失对组装的高斯进行整体进行优化,如图3。重复的基本资产将同步更新;为了捕捉几何中各种细微变化,我们还学习了每个资产的方差代码。(2) 资产组装阶段 ,我们使

2025-03-11 11:25:07 2181

原创 【三维生成】StarGen:基于视频扩散模型的可扩展的时空自回归场景生成

近年来,大型重建和生成模型的研究进展显著改善了场景重建和新的视图生成。然而,由于计算的限制,这些大型模型的每个推理都局限在一个小的区域内,这使得长期一致的场景生成具有挑战性。为了解决,StarGen使用了一个预训练的视频扩散模型,以自回归的方式进行远程场景生成。每个视频clip 的条件是(空间上)相邻图像和先前生成的clip 的(时间上的)重叠图像的 3D warping,通过精确的姿态控制提高远程场景生成的时空一致性。时空条件与各种输入条件兼容,促进了各种任务,包括稀疏视点插值永久视角生成。

2025-03-04 09:54:17 1570

原创 【三维分割】LangSplat: 3D Language Gaussian Splatting(CVPR 2024 highlight)

  早期构建三维特征场的尝试包括蒸馏特征场[20]和神经特征融合场[43]。他们通过跨多个视图将LSeg [21]或DINO [4]特征提炼为一个NeRF,学习了3D一致特征。Shen等人[39]通过将clip征提取成NeRF,进一步提取特征场进行few-shot 语言引导的自动操作。[Panoptic lifting for 3d scene understandingwith neural fields. CVPR 2023][In-place scene labelling and understa

2025-02-25 10:12:43 1739

原创 【大模型】DeepSeek使用与原理解析:从V3到R1

  DeepSeek R1 是深度求索(DeepSeek,成立于2023年)公司开发的一款智能体(Agent)产品,它能够通过自然语言交互,帮助用户完成各种任务。各种性能评估:2000快阉割版H800,花费557亿美元(大约是使用1.6万个GPU的Llama3.1的1/10,GPT-4o的1/20),登顶了开源之最。来源于幻方量化,2023年4月成立的全资子公司。

2025-02-16 21:50:26 1666

原创 【三维重建】FeatureGS:特征值优化的几何精度和伪影减少3DGS的重构

三维高斯溅射(3DGS)是一种功能强大的利用三维高斯数据重建三维场景的方法。然而,高斯模型的中心和表面都不能精确地对齐,这使得它们在点云和网格重建中的直接使用复杂化。此外,3DGS通常会产生artifacts,从而增加高斯数和存储需求。为了解决这些问题,我们提出了FeatureGS,它将一个基于特征值导出的三维形状特征的附加几何损失项合并到3DGS的优化过程中。目的是提高局部三维邻域的几何精度,提高平面表面结构熵的性质。

2025-02-14 12:04:19 2281

原创 【三维分割】Gaga:通过3D感知的 Memory Bank 分组任意高斯

Gaga,一个通过利用zero shot分割模型预测的不一致的2D mask来重建和分割开放世界的3D场景的框架。与之前严重依赖于视频物体跟踪的3D场景分割方法相比,Gaga利用了空间信息,并有效地关联了不同相机pose中的物体mask。通过消除训练图像中连续视图变化的假设,Gaga展示了对相机姿态变化的鲁棒性,特别有利于稀疏采样的图像,确保了精确的mask标签的一致性。此外,Gaga适应了来自不同来源的二维分割mask,并在不同的开放世界zero shot分割模型中表现出了稳健的性能,增强了其通用性。

2025-01-21 22:25:45 1804

原创 【AIGC】SYNCAMMASTER:多视角多像机的视频生成

视频扩散模型的最新进展在模拟真实世界的动态和保持三维一致性方面显示出了特殊的能力,能够确保不同视点间的动态一致性。不像现有方法(专注于多视图生成单个对象的四维重建),我们从任意视点生成开放世界视频,结合6自由度摄像机姿态。提出一个即插即用模块,即多视图同步模块,以保持这些视点的外观和几何一致性。针对训练数据,设计一个混合训练方案,利用多像机图像和单目视频来补充UE渲染的多像机视频。此外扩展了从新视角重新渲染视频,还发布了一个多视图SynCam数据集。

2025-01-15 23:00:15 1564 2

原创 【三维场景生成】DepthLab:从部分到完整(图像深度补全,下游代码未开源)

DepthLab是一个由图像扩散先验驱动的深度补全模型,具有两个优势:(1)它展示了对深度缺失区域的弹性,为连续区域和孤立点提供了可靠的重建,;(2)在填充缺失值时,它忠实地保持了与条件已知深度的尺度一致性。基于这些优点,我们的方法在各种下游任务中证明了其价值,包括三维场景重绘、文本到-三维场景生成、DUST3R稀疏视图重建和激光雷达深度重建,在数值性能和视觉质量上都超过了当前的解决方案。

2025-01-15 10:48:19 2136

原创 【动态重建】时间高斯分层的长体积视频

本文从多视点RGB视频中重建长体积视频。最近的动态视图合成方法利用强大的四维表示,如特征网格或点云序列,来实现高质量的渲染结果。然而,它们通常被限制在较短的(1∼2s)视频剪辑中,并且在处理较长的视频时经常遭受较大的内存占用。为了解决这一问题,我们提出了一种新的四维表示,称为 时间高斯分层,能够紧凑地建模长的体积视频 。由于动态场景中通常存在不同程度的时间冗余,由不同速度变化的区域组成。基于此,我们的方法建立了一个 四维的高斯原语层,其中,(1).每个层次分别描述具有不同内容变化程度的场景区域,并自适应地共

2025-01-03 10:22:56 1804

原创 【三维重建】去除瞬态物体Distractor汇总(从HybridGS到T-3DGS)

3D高斯溅射(3DGS)由于其高质量的渲染、效率和低内存成本,最近在新型视图合成领域得到了广泛的应用。它的应用跨越了虚拟现实、增强现实和机器人技术等。但该方法假设输入图像是静态没有噪声的,往往难以满足。例如,用手机随意拍摄的图像通常包含混乱的动态物体,或瞬态物体。因此,由于总是存在许多瞬态遮挡,因此很难对场景进行建模。从技术上讲,3DGS能够有效地建模静态场景,因为图像中的静态对象满足不同视点之间的几何一致性约束。然而,瞬态对象并不遵循这个假设。如果在训练中包含瞬态对象的图像被简单地使用于3DGS,这种变化

2024-12-25 22:50:45 2484

原创 【3D AIGC】Img-to-3D、Text-to-3D、稀疏重建(2024年文章汇总)

汇总今年以来所有的Text-to-3D、Image-to-3D等三维AIGC的重要成果。

2024-12-04 16:25:59 2175

原创 【三维生成】DiffusionGS:基于GS的可扩展单阶段图像生成GS模型

现有的前向图像到三维的方法主要依赖于二维多视图扩散模型,不能保证三维的一致性。这些方法在更改提示视图方向时很容易崩溃,并且主要处理以对象为中心的提示图像。本文提出了一种新的单阶段三维扩散模型,DiffusionGS,用于从单一视图生成对象和场景,在每个时间步长直接输出三维高斯点云,以加强视图的一致性,并允许模型生成任何方向的提示性视图,而不是以对象为中心的输入。此外,为了提高扩散gs的能力和泛化能力,我们通过开发一种场景-对象混合训练策略来扩展三维训练数据。实验结果表明,与SOTA方法相比,该方法具有更好的

2024-12-04 10:52:51 1749

原创 【三维生成】LLaMA-Mesh: 用语言模型统一3D Mesh 生成

本文在一个统一的模型中生成3D网格(mesh)。这提供了 (1)利用已经嵌入在LLM中的空间知识(来源自3D教程等文本),以及(2)支持会话3D生成和网格理解的关键优势 。一个主要的挑战是有效地将3D网格数据标记为LLM可以无缝处理的离散token。为了解决这个问题,LLAMA-MESH将三维网格的顶点坐标和面定义表示为纯文本,允许与LLM直接集成而不扩展词汇表。我们构建了一个带监督的微调(SFT)数据集,使预训练的LLM能够(1)从文本提示生成三维网格,(2)根据需要生成交互文本问答

2024-11-26 00:13:39 1992

原创 【三维生成】Edify 3D:可扩展的高质量的3D资产生成(英伟达)

Edify 3D,一种为高质量的3D资产生成而设计的高级解决方案。我们的方法首先使用扩散模型在多个视点上合成所描述对象的RGB和表面法线图像。然后使用多视图观测来重建物体的形状、纹理和PBR材料。我们的方法可以在2分钟内生成具有详细的几何图形、干净的形状拓扑、高分辨率拓扑的高质量纹理和材料

2024-11-25 16:36:25 2471

原创 【人物动态重建】Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos

Volumetric video 代表了视觉媒体的一种变革性进步,使用户能够自由地导航沉浸式虚拟体验,并缩小了数字世界和现实世界之间的差距。然而,由于需要广泛的人工干预来稳定mesh序列,以及防止在工作流中产生过大的资产,阻碍更广泛的应用。在本文中,我们提出了一种新的基于高斯分布的方法,称为DualGS,用于实时和高保真回放复杂的人类性能与良好的压缩比。我们在DualGS中的关键思想是使用相应的 skin gaussian和 joint gaussian分布来分别表示运动和外观。这种显式的解纠缠可以显著减少

2024-11-15 14:50:32 872

原创 【三维重建】DiffGS: Functional Gaussian Splatting Diffusion(NeurIPS 2024)

三维高斯溅射(3DGS)在渲染速度和保真度方面表现出了令人信服的性能,但高斯溅射由于其离散性和非结构化性质的生成仍然是一个挑战。DiffGS是一种基于潜在扩散模型的三维生成模型,它能够以任意数生成高斯原语,用于使用栅格化的高保真渲染。关键的见解是通过三个新的函数来表示高斯溅来模拟高斯的 probabilities, colors and transforms。通过新的3DGS的解耦,我们表示了具有连续高斯溅射函数的离散和非结构化的3DGS,然后我们训练了一个无条件和有条件地生成这些高斯溅射函数的潜在扩散模型

2024-11-06 13:11:26 2994 2

原创 【三维重建】Semantic Gaussians:开放词汇的3DGS场景理解

开放词汇的三维场景理解是计算机视觉中的一个重大挑战,在具体化代理和增强现实系统中有着广泛的应用。现有的方法采用神经渲染方法作为三维表示,联合优化颜色和语义特征,同时实现渲染和场景理解。本文介绍了一种基于三维高斯溅射的开放词汇场景理解方法语义高斯。我们的关键思想是 将知识从二维预训练模型提取为三维高斯模型 。与现有的方法不同,我们设计了一种通用的投影方法,将预先训练好的图像编码器映射到一个新的三维高斯的语义component ,这是基于空间关系,不需要额外的训练。我们 进一步建立了一个三维语义网络,直接从原始

2024-11-05 15:46:31 3339

原创 【动态三维重建】MonST3R:运动中的几何估计

Motion DUSt3R(MonST3R),一种几何优先方法,可以直接从动态场景中估计每个时间步的几何。关键是通过简单地估计每个时间步长的pointmap,可以有效地将DUSt3R的表示适应于动态场景,它以前只用于静态场景。然而,这种方法提出了一个重大的挑战:缺乏合适的训练数据,即具有深度标签的带pose的视频。尽管如此,我们表明,通过将问题作为一个微调任务,识别几个合适的数据集,并在这个有限的数据上有策略地训练模型,使模型能够处理动态,即使没有明确的运动表示。在此基础上,我们为几个下游视频特定任务引入了

2024-10-29 12:19:15 1791 4

Vjepa v2是meta发布的新的世界模型

Vjepa v2是meta发布的新的世界模型

2025-06-17

Vjepa v2是meta发布的新的世界模型

Vjepa v2是meta发布的新的世界模型

2025-06-17

机械臂展示,VJEPA2的效果展示

机械臂展示,VJEPA2的效果展示

2025-06-17

图像图形学报:2023年第一期:图像融合综述

主要分为 通用影像融合、医学影像融合、遥感影像融合三大类

2023-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除