小寒学姐学AI-优快云博客

原创深度补全（Depth Completion）算法顶会论文、开源代码汇总！（持续更新）

从零开始学习深度估计（Depth Estimation）、深度补全（Depth Completion），从稀疏的激光雷达深度到稠密深度图

2024-09-02 13:13:45 709 1

原创 3DGS 论文阅读笔记和个人讲解（3D Gaussian Splatting）

这篇论文提出了一种新方法实现了辐射场的实时渲染，能够在较少的训练时间中，实现SOTA级别的视觉效果，针对用多张照片和视频拍摄的场景，允许以 1080p 分辨率进行高质量的实时（≥ 30 fps）新视图合成。可以先用一句话表达 3D Gaussian Splatting 干了什么：使用 3D Gaussian 球表示三维模型，并通过 Splatting 技术渲染出来。

2024-12-24 11:24:06 923 1

原创 2025 年 3D Gaussian Splatting（3DGS）论文和代码资源汇总

这是一个关于 3D Gaussian Splatting 的论文和开源资源列表。

2024-12-24 11:01:54 387

原创【手把手教程】基于未标定双目相机（立体匹配）的 3D 重建 1.1

在本研究中，我们评估了多视角立体 (MVS) 和结构光恢复 (SFM) 技术在3D重建方面的准确性和效率。我们使用了公开的在线数据集，评估了这些方法在生成详细3D模型时的表现。结果显示，多视角立体 (MVS) 在生成高密度且复杂的重建方面表现出色，而结构光恢复 (SFM) 在涉及多视角的场景中效率更高。为了在无人机上实现3D重建，我们将在无人机下方安装一个单目相机或立体相机。无人机飞行时，相机将从不同视角捕获环境的多幅图像。

2024-12-17 16:50:37 129

原创【CT/电镜重建教程 1.2】一种用于高分辨率3D成像的广义傅里叶迭代重建算法（GENFIRE）

在此，我们提出了一种称为广义傅里叶迭代重建（GENFIRE）的断层扫描算法，用于从有限数量的二维投影中进行高分辨率的三维重建。GENFIRE 首先通过过采样构建三维傅里叶网格，然后在实空间和倒易空间之间迭代，以同时满足测量数据和一般物理约束的全局解决方案为目标

2024-09-14 13:33:25 512 1

原创【CT/电镜重建教程 1.1】层析成像的精确实空间迭代重建算法（RESIRE）

在此，我们报告了RESIRE算法的发展用于准确的断层重建。与实空间迭代算法相比，RESIRE使用傅里叶切片定理或Radon变换作为正向投影，使用线性变换作为反向投影，两者都具有高精度。与EST和GENFIRE相比，RESIRE是一种实空间迭代算法，可以在并行计算中实现快速运行时间。

2024-09-14 12:00:15 604

原创【小白深度教程 1.32】手把手教你从多视角图像进行 3D 重建（SfM 算法）

重建的目标是从一组照片中推导场景的几何结构，假设摄像机位置和内部参数是已知的或可以从图像集中猜测。这是通过使用多个照片，在其中应用运动结构法（Structure from Motion，SfM）来解决像素级对应问题，部分地恢复3D信息来实现的。

2024-09-14 10:46:44 1034

原创【小白深度教程 1.31】手把手教你使用 Open3D（14）对激光雷达（点云）数据进行车道线分割

为了实现车道线分割，我们决定将问题分解为两个不同的子问题：1. **可通行表面提取**：这包括提取仅供汽车行驶的沥青路面，不包括人行道和便道等元素。2. **道路标记分割算法**：在可通行表面上应用一种独特的分割算法，精确提取道路标记。通过有效地解决第一个子问题并准确提取可通行表面，我们为接下来的道路标记分割步骤的最佳表现奠定了基础。

2024-09-13 20:30:54 386

原创【小白深度教程 1.30】手把手教你使用 Open3D（13）使用双目视觉实现目标检测和测距（Yolov8，Python 代码）

这篇文章中，我们尝试使用双目视觉实现逐像素深度估算，并通过结合 YOLOv8 实现目标检测和距离测量。通过使用块匹配和半全局块匹配（SGBM）算法，我们展示了如何利用立体计算机视觉技术来准确确定深度信息。块匹配算法高效地在立体相机图像之间建立对应关系，而SGBM算法优化了视差图估计过程。我们接收所有左右的图像计算视差创建深度图运行 YOLOv8 目标检测显示距离及其边界框。

2024-09-13 16:03:33 1181

原创【小白深度教程 1.29】手把手教你使用 Open3D（12）点云聚类、分割和 3D 目标检测实战，使用 KITTI 数据集（含 Python 代码）

本项目深入研究了如何使用 KITTI 数据集进行实际的点云分析。- 我们首先使用 Open3D 进行可视化，并使用体素网格进行下采样。- 接着，我们应用 RANSAC 算法来分割障碍物和道路表面，从而增强对场景的理解。利用 DBSCAN 聚类算法，我们对相似障碍物进行了聚类分析，以获得更准确的空间洞察。- 为实现跟踪功能，我们为每个障碍物创建了 3D 边界框。

2024-09-13 15:03:03 802

原创【小白深度教程 1.28】手把手教你使用 Open3D（11）地面分割+点云聚类来实现目标分割（Python 代码）

在这篇文章中，我们将学习如何使用 Open3D 对自动驾驶中获取的激光雷达数据（点云），进行地面分割+点云聚类来实现目标分割。在这个教程中，我们将学习如何对点云数据进行处理，首先分割地面，然后通过设置高度阈值去除地面点，最终对非地面部分进行聚类分析。我们将使用Open3D库来完成这个任务。

2024-09-13 11:14:48 452

原创【小白深度教程 1.27】手把手教你使用 Open3D（10）点云地面拟合与地面分割（Python 代码）

在这篇文章中，我们将学习如何使用 Open3D 对自动驾驶中获取的激光雷达数据（点云），进行地面拟合与分割。

2024-09-13 10:40:54 371

原创【小白深度教程 1.26】手把手教你使用 Open3D（9）对点云进行语义分割（完整代码在最后）

在这篇文章中，我们将学习如何使用 Open3D 对自动驾驶目的的点云进行实时语义分割。此外，我们会展示如何实现最大的精度和运行时性能，以及 Open3D 如何帮助简化这一过程。

2024-09-12 20:16:21 811

原创【小白深度教程 1.25】手把手教你使用 Open3D（8）对三维模型、点云数据进行体素化

点云和三角网格是非常灵活但不规则的几何类型。体素网格是另一种 3D 几何类型，它定义在规则的 3D 网格上，可以将体素看作是 2D 中像素的 3D 对应物。下面的代码演示了如何使用这些方法，首先从几何体渲染深度图，然后使用这些深度图雕刻出一个密集的体素网格。方法，可从三角网格创建体素网格。该方法返回一个体素网格，其中所有与三角形相交的体素设置为 1，其余的设置为 0。如果体素内至少有一个点云中的点，则该体素被占据。体素的颜色是体素内所有点的平均颜色。体素网格也可以用于测试点是否位于已占据的体素内。

2024-09-12 19:45:46 310

原创【小白深度教程 1.24】手把手教你使用 Open3D（7）对 RGBD 数据进行集成（Marching Cubes）

Open3D 实现了可扩展的 RGBD 图像集成算法。

2024-09-12 16:44:27 195

原创【小白深度教程 1.23】手把手教你使用 Open3D（6）对点云数据进行全局配准（RANSAC 算法）

ICP 配准和彩色点云配准都属于局部配准方法，因为它们依赖于粗略对齐作为初始化。本教程展示了另一类配准方法，称为全局配准。该类算法不需要对齐作为初始化，通常生成较不紧密的对齐结果，并用于局部方法的初始化。

2024-09-12 16:28:31 222

原创【小白深度教程 1.22】手把手教你使用 Open3D（5）对彩色点云数据进行配准

本教程演示了一种结合几何和颜色进行配准的 ICP 变体，采用了 [Park2017] 的算法。颜色信息可以锁定切平面上的对齐，因此该算法比之前的点云配准算法更加精确且更具鲁棒性，同时运行速度与传统的 ICP 配准相当。本教程中使用了来自 ICP 配准的符号和表示方法。

2024-09-12 16:00:46 511

原创【小白深度教程 1.21】手把手教你使用 Open3D（4）去除点云数据中的噪声点（离散点）

在使用扫描设备采集数据时，生成的点云往往包含噪声和伪影，这些都是我们希望去除的。本教程介绍了 Open3D 的离群点去除功能。方法用于移除在给定球体范围内邻居较少的点。该函数接受一个二进制掩码，仅输出被选择的点。选中的点和未选中的点会被分别可视化。方法用于移除比点云平均距离更远的点。

2024-09-12 15:51:31 347

原创【小白深度教程 1.20】手把手教你使用 Open3D（3）从点云数据进行三维表面重建

在许多场景中，我们需要生成密集的 3D 几何体，例如三角网格。然而，从多视图立体方法或深度传感器中，我们只能获得非结构化的点云。为了从这些非结构化输入中生成三角网格，我们需要执行表面重建。

2024-09-12 15:44:01 594

原创【小白深度教程 1.19】手把手教你使用 Pytorch3D（4）使用 NeRF 来进行三维重建和新视角合成

本教程展示了如何使用可微分隐式函数渲染（differentiable implicit function rendering），来拟合给定一组场景视图的神经辐射场（Neural Radiance Field，简称 NeRF）。更具体地说，本教程将解释如何:用图像网格或蒙特卡罗射线采样创建一个可微分隐式函数渲染器。创建场景的隐式模型。利用可微隐式渲染器对输入图像拟合隐式函数（Neural Radiance Field）。把学习后的内隐函数形象化。

2024-09-12 13:33:13 694

原创【小白深度教程 1.18】手把手教你使用 Pytorch3D（3）使用可微分体积渲染拟合 Volume

本教程展示了如何使用可微分体积渲染，根据场景的一组视图来拟合体积（Volume）。更具体地说，本教程将解释如何：- 创建一个可微分体积渲染器。- 创建一个体积模型（包括如何使用 Volumes 类）。- 使用可微分体积渲染器基于图像拟合体积。- 可视化预测的体积。

2024-09-11 21:40:34 528

原创【小白深度教程 1.17】手把手教你使用 Pytorch3D（2）渲染带纹理的网格（Mesh）

本教程展示了如何：从 `.obj` 文件中加载网格和纹理。设置渲染器，渲染网格，调整渲染设置，例如光照和相机位置，使用 PyTorch3D API 的批处理功能从不同视角渲染网格

2024-09-11 21:17:06 546

原创【小白深度教程 1.16】手把手教你使用 Pytorch3D（1）使用 3D 损失函数来拟合 Mesh

在这篇文章中，我们将学习如何使用3D损失函数变形源网格（Source Mesh）以形成目标网格（Target Mesh）在本教程中，我们学习如何将一个初始的通用形状（例如球体）变形为目标形状。.obj从一个球体网格开始，我们学习网格中每个顶点的偏移量，使得在每次优化步骤中预测的网格更接近目标网格。然而，仅仅最小化预测网格和目标网格之间的切面距离会导致不光滑的形状（可以通过将而所有其他权重设为0.0来验证这一点）。我们通过在目标函数中添加来强制实现平滑性。

2024-09-11 20:56:58 673

原创 Anaconda 报错：ImportError: cannot import name ‘Mapping‘ from ‘collections‘

【代码】Anaconda 报错：ImportError: cannot import name 'Mapping' from 'collections'

2024-09-09 15:22:25 260 1

原创【使用 DETR（Transformer）进行 3D 目标检测】3DETR： An End-to-End Transformer Model for 3D Object Detection

本文提出了基于端到端的 3D 目标检测模型，并提出了具有非参数查询和傅里叶位置嵌入的 Transformer。通过大量的实验发现，3DETR 在具有挑战性的 ScanNetV2 数据集上比 VoteNet 基线高出9.5%。此外，本文还展示了 3DETR 适用于检测之外的三维任务，并可以作为未来研究的构建块。其中 3DETR 是一种端到端可训练的 Transformer，它以一组三维点（点云）作为输入，并输出一组三维边界框。编码器使用多层自注意产生一组点特征。

2024-09-08 21:47:27 466

原创【小白深度教程 1.14】手把手教你使用 Open3D（2）点云聚类、分割和重建（含 Python 代码）

手把手教你使用 Open3D 进行点云聚类、分割和重建（含 Python 代码）

2024-09-08 10:37:12 771

原创【小白深度教程 1.13】手把手教你使用 Open3D，简明教程（含 Python 代码）

Open3D是一个开源库，支持处理3D数据的软件的快速开发。这个教程中，我们将介绍使用 Open3D 来处理点云和 Mesh。

2024-09-07 14:02:26 548

原创【小白深度教程 1.12】手把手教你 NeRF（神经辐射场）的基本原理和经典工作（含 PPT）

NeRF (Neural Radiance Fields) 是一种使用神经网络进行三维场景重建的新方法。NeRF 将三维空间中的场景表示为一个连续的、隐式的神经辐射场，能够以高质量渲染逼真的新视角图像。NeRF 的核心思想是通过体渲染 (volume rendering) 技术，在给定的视角下重建三维场景的密度和颜色。NeRF 是一种基于神经网络的三维重建技术，通过学习一个隐式的辐射场表示，能够生成高质量的新视角图像。其核心是使用体渲染方法来计算沿射线的颜色，并通过神经网络进行参数学习。

2024-09-07 12:17:50 245

原创【小白深度教程 1.11】手把手教你使用 PSMNet 估计视差和计算深度，并映射到 3D 点云（含 Python 代码）

单目深度估计存在固有的尺度模糊问题。因此这次我们尝试使用 PSMNet 视察估计技术，来进行准确的双目深度估计，并将场景转换成 3D 点云，Python 代码在最后。

2024-09-06 13:45:01 1385 1

原创【小白深度教程 1.10】手把手教你使用深度学习方法（PSMNet）进行视差估计（含 Python 代码解析）

传统的视差匹配和估计方法存在一定局限性。因此这里我们介绍基于深度学习的视差估计方法。然后，我们对照代码解析经典工作 PSMNet 的网络结构，

2024-09-06 12:38:41 701

原创【小白深度教程 1.8】手把手教你使用 Depth Anything V2 估计单目深度，并映射到 3D 点云（含 Python 代码）

我们尝试使用单目深度估计技术（Depth Anything V2），来进行准确的双目深度估计，并将场景转换成 3D 点云，Python 代码在最后。

2024-09-05 20:49:20 3285 3

原创【小白深度教程 1.7】手把手教你使用 OpenCV 制作低成本双目立体相机（Python、C++ 代码）

我们已经理解了如何将立体图像对转换为浮雕图像，以便使用浮雕眼镜观看时产生深度错觉。那么我们如何捕捉这些立体图像呢？我们使用我们的 DIY 立体相机设置捕捉立体图像，并为每对立体图像创建一个浮雕图像。然后，我们将所有连续的浮雕图像保存为一个视频。

2024-09-05 20:04:48 709

原创【小白深度教程 1.6（番外）】手把手教你对点云数据进行地面区域分割（Python 代码）

最近有一个项目需求（无人驾驶）方面，需要分割出地面和跑道，来进行建图但是！现在的深度学习方法跑的太慢，无法满足实时需求。而传统方法教程较少、较乱，并且大多为 C++ 代码，对我这种炼丹师（菜鸡）非常不友好。因此这里记录一下解决方案。

2024-09-05 18:13:23 540

原创【小白深度教程 1.5】手把手教你用立体匹配进行双目深度估计，以及 3D 点云生成（含 Python 代码解读）

这次我们尝试使用立体匹配技术，来进行准确的双目深度估计，并将场景转换成 3D 点云

2024-09-05 12:54:09 1033 1

原创【小白深度教程 1.4】手把手教你复现 CompletionFormer 深度补全网络（含代码解读）

CompletionFormer 结合卷积神经网络（CNN）和 Vision Transformer，提出了一种联合卷积注意力和 Transformer 块（JCAT），用于深度补全任务。该方法将卷积的局部连接性和 Transformer 的全局上下文结合到一个单一模型中，从而在户外 KITTI 和室内 NYUv2 数据集上超越了现有的基于 CNN 的方法，并在效率上显著优于纯 Transformer 方法。CompletionFormer：用于深度补全的 Transformer 网络！

2024-09-04 22:17:47 685