自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 基础深度补全模型DepthLab: From Partial to Complete

DepthLab一个基于图像扩散先验的基础深度修复模型,它能够有效应对在深度数据的广泛应用中的数据缺失问题。数据缺失问题在许多任务中非常常见,其根源在于数据采集不完整、视角变化等多种因素。DepthLab模型有两个显著优势:1.它对深度缺失区域具有很强的适应性,能够为连续区域和孤立点提供可靠的修复结果。2.在填充缺失值时,它能够最大程度上保持与已知深度条件下的尺度一致性。

2025-05-19 21:57:30 734 1

原创 一文理解扩散模型(生成式AI模型)(2)

第二期内容主要是扩散模型的架构,其中包括用于扩散模型的U-Net架构和用于扩散模型的transformer架构。(transformer架构非常重要)扩散模型需要训练一个神经网络来学习加噪数据的分数函数,或者学习加在数据上的噪声(这对应上文所展示的扩散模型的两种训练范式,详情请见并且因为分数函数是对输入数据的似然函数的导数,所以其维度和输入数据的维度相同;同理,对输入数据的每一个维度都加入独立的标准高斯噪声,所以神经网络预测的噪声的维度与输入数据相同。

2025-05-14 22:26:58 730

原创 一文理解扩散模型(生成式AI模型)(1)

图片扩散模型运作的大致流程如下:1.加噪过程:给定一张原始图片,一步步地在这张图片中添加噪声,图片在加噪过程中逐渐失去所有信息,变成无法辨识的白噪声(用物理现象来理解这个过程的话可以理解为在清水中加入墨汁,墨汁不断在水中扩散开来)。2.去噪过程:在白噪声图片的基础上,模型逐渐对数据进行去噪,可辨识的信息越来越多,直到所有噪声全部被去除,最终产生新的图片数据。

2025-05-10 22:44:44 812

原创 High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion(SplatDiff)

现有的基于点元绘制(splatting)的方法,常常由于点元绘制误差而产生扭曲的几何形状。虽然基于扩散的方法利用了丰富的三维先验信息来改善几何形状,但它们往往存在纹理幻觉的问题。SplatDiff,这是一种由像素点元绘制引导的视频扩散模型,旨在从单张图像中合成高保真度的新视角。具体而言,提出了一种对齐合成策略,用于精确控制目标视角,并实现几何一致的视角合成。为了缓解纹理幻觉问题,设计了一个纹理桥接模块,该模块通过自适应特征融合实现高保真度的纹理生成。

2025-05-08 20:46:55 665

原创 PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment

相机姿态估计是一个长期存在的计算机视觉问题,到目前为止,它常常依赖于经典方法,例如手工设计的关键点匹配、随机抽样一致性(RANSAC)以及光束法平差。在PoseDiffusion中,作者提议在概率扩散框架(probabilistic diffusion framework)内构建运动恢复结构(SfM)问题,对给定输入图像下相机姿态的条件分布进行建模。对这一老问题的这种全新视角具有多个优点。1.扩散框架的本质反映了光束法平差的迭代过程。2.

2025-04-28 22:01:39 976

原创 FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views阅读笔记

FLARE,是一种前馈模型,旨在从未经校准的稀疏视角图像(即最少仅需 2 到 8 张输入图像)中推断出高质量的相机姿态和三维几何信息,这在现实世界的应用中是一个具有挑战性但又切实可行的设定。FLARE的解决方案采用了以相机姿态作为关键桥梁的级联学习范式认识到相机姿态在将三维结构映射到二维图像平面中所起的关键作用。具体而言,FLARE 从相机姿态估计开始,其结果为后续几何结构和外观的学习提供条件,并通过几何重建和新视角合成的目标进行优化。

2025-04-24 20:48:40 747

原创 3DGStream阅读笔记

从多视角视频构建动态场景的具有照片级真实感的自由视角视频(FVVs)仍然是一项具有挑战性的任务。尽管当前的神经渲染技术已经取得了显著进展,但这些方法通常需要完整的视频序列来进行离线训练,并且无法实现实时渲染。为了解决这些限制,这里引入了 3DGStream,这是一种为现实世界动态场景的高效自由视角视频流设计的方法。此方法能够在 12 秒内快速完成逐帧的即时重建,并以每秒 200 帧的速度实现实时渲染。

2025-04-19 19:08:19 764

原创 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering-4DGS阅读笔记

为了实现实时动态场景渲染,同时还能具备较高的训练和存储效率,作者提出了四维高斯溅射(4D-GS)方法,将其作为动态场景的一种整体表示方式,而不是对每个单独的帧应用三维高斯溅射(3D-GS)方法。在 4D-GS 中,提出了一种新颖的显式表示方法,它同时包含三维高斯模型和四维神经体素。受 HexPlane 启发,提出了一种分解的神经体素编码算法,以高效地从四维神经体素构建高斯特征,然后应用一个轻量级多层感知器(MLP)来预测在新时间戳下的高斯变形。

2025-04-17 21:00:26 1078 1

原创 Recent Advances in 3D Gaussian Splatting阅读笔记

三维高斯溅射(3DGS)的出现极大地加快了新视图合成的渲染速度。与神经辐射场(NeRF)等神经隐式表示方法不同,神经隐式表示方法使用基于位置和视角条件的神经网络来表示三维场景,而三维高斯溅射则利用一组高斯椭球体对场景进行建模,这样就可以通过将高斯椭球体光栅化为图像来实现高效渲染。这里只展示3DGS的总体概述,具体细节请参阅我的往期博客三维高斯溅射(3D Gaussian Splatting,3DGS)-优快云博客。

2025-04-09 19:41:06 712

原创 推荐一篇非常出色的3DGS综述:Recent Advances in 3D Gaussian Splatting

今天为大家推荐一篇由中国科学院的高林教授领导的团队撰写的3DGS综述,这篇综述不仅对最新的技术进行分类和总结,更多重要内容请大家阅读原文!,以便读者对各种算法的质量和性能有更深入的了解。还非常可贵地对各种算法进行了定量的测试。

2025-03-29 21:41:56 179

原创 LHM:Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

各位观众老爷大家好!三连入场,神清气爽!今天为大家带来一篇最新的工作,是阿里通义Lab开源的LHM项目,该项目旨在从单张图像生成可驱动的3D人体模型。而LHM模型采用3DGS表示,利用大规模重建模型的优势,高效推断高保真度的3D虚拟形象。其中的多模态Body-Head Transformer架构能显著提升了对脸部和衣物细节的还原能力。基于Pytorch实现。此方法能够在几秒钟内通过单次前馈传递重建出一个可进行动画操作的人体虚拟形象。最终生成的模型支持实时渲染以及姿势控制的动画效果。

2025-03-26 21:54:47 955

原创 2D Gaussian Splatting for Geometrically Accurate Radiance Fields(用于实现几何精确辐射场的二维高斯溅射)

受上面这些研究工作的启发,作者提出了用于三维场景重建和新视角合成的二维高斯溅射法,该方法结合了两者的优势,同时克服了它们的局限性。与三维高斯溅射法(3DGS)不同,作者的方法使用二维高斯基元来表示三维场景,每个基元定义一个具有方向的椭圆盘。二维高斯相对于三维高斯的显著优势在于其在渲染过程中能够精确表示几何形状。具体而言,3DGS 在像素光线与三维高斯的交点处评估高斯值 ,这导致从不同视点渲染时深度不一致。相比之下,作者的方法采用显式的光线 - 溅射相交计算,实现了透视正确的溅射效果。

2025-03-24 22:38:38 1075

原创 Mip-Splatting: Alias-free 3D Gaussian Splatting(多尺度点云溅射)

作者在原文摘要中说明了3DGS出现以上现象的原因:缺乏三维频率约束以及使用了二维扩展滤波器。而为了解决这个问题,作者引入了一种三维平滑滤波器它根据输入视角所产生的最大采样频率来限制三维高斯基元的大小,从而消除了放大时出现的高频伪影。此外,用二维 Mip 滤波器(模拟二维盒式滤波器)取代二维扩展滤波器,能有效地减轻走样和扩展问题。同时作者也在单尺度图像上进行训练并在多尺度上进行测试等场景,验证了他们所提出方法的有效性。

2025-03-19 21:35:01 917

原创 pip,conda的清华镜像源使用

1.临时使用:(这里以opencv-python joblib包为例,并使用清华镜像源,并且后面的地址就是清华镜像源地址)2.永久配置:输入以下代码即可。

2025-03-17 20:37:29 1589

原创 三维高斯溅射(3D Gaussian Splatting,3DGS)

它通过使用3D高斯函数来表示场景中的点,并将这些高斯函数投影到2D图像平面上进行渲染。这项技术自2023年由Kerbl等人在 ACM Siggraph会议上首次提出以来,因其出色的渲染质量和实时性能而受到学术界和工业界的广泛关注。下图为3DGS算法的流程以下为原文中3DGS效果的展示备注:峰值信噪比(Peak Signal to Noise Ratio,PSNR)是图像质量评价领域最常用且历史最悠久的算法,基于两张图像之间的均方误差,可以进一步计算两张图像之间的PSNR值;

2025-03-14 14:01:07 2608 1

原创 三维视觉新范式:神经辐射场(Neural Radiance Field)(2)

前言环节对于回顾NeRF还是有一定帮助。首先 NeRF 将场景用 MLP 表示,使用坐标x推测出密度σ和中间特征,然后用这个中间特征e和视角d推测出这个点的颜色c。然后用体渲染的方式得到像素点的值其中,是光线在第 i 个点终止的概率;是从近平面到第 i 个点的累积透射率;是到相邻采样点的距离,是预先定义的背景颜色。给定已知姿态的训练图像,NeRF 模型通过最小化观测像素颜色C(r)与渲染颜色之间的光度均方误差(MSE)进行训练:其中,R表示采样小批量中的光线集合。

2025-03-11 22:15:49 876 1

原创 计算机视觉方面的顶级会议与顶级期刊

选择期刊时需根据研究方向、创新性类型及职业发展阶段综合判断,例如:博士论文扩展适合 IJCV,工业界技术落地适合 TIP。计算机视觉会议论文下载,其中包括ICCV、CVPR、ECCV、ACCV等。IPOL图像处理分析经典在线(文献+C/C++源码):​​​​​​​。

2025-03-08 19:23:05 5632 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除