- 博客(74)
- 收藏
- 关注
原创 一文看懂 DINO / DINOv2 / DINOv3:从“无标签学表征”到通用视觉骨干【2025最新版!!!】
DINO模型系列是计算机视觉领域自监督学习的重大突破,通过无标签自蒸馏机制从海量图像中学习通用视觉特征。该系列从2021年的DINOv1演进到2025年的DINOv3,逐步解决了数据标注依赖、ViT特性挖掘、训练稳定性等核心问题。DINO适用于标签稀缺场景(如遥感、医疗),支持分类、分割、检索等多任务,其密集特征和边界处理尤为突出。三代模型差异显著:v1奠定基础框架,v2优化数据质量和训练效率,v3实现超高分辨率处理并增强3D一致性。优势包括极低标注需求、强大通用表征能力
2025-09-01 14:18:08
3493
原创 一文吃透 DeepSORT:在 SORT 之上“稳住 ID”的正确打开方式 【 2025最新版!!!!】
DeepSORT是一种改进的多目标跟踪算法,在SORT基础上引入外观特征和级联匹配策略。其核心改进包括:1)使用ReID模型提取外观特征,通过余弦距离增强目标关联;2)采用马氏距离进行运动门控;3)实施级联匹配策略,优先处理最近更新的轨迹。这些改进显著提升了ID稳定性,尤其在遮挡和相似外观场景下。算法流程包括检测、特征提取、预测、级联匹配和轨迹管理。实际应用中需调整外观阈值、权重系数等参数,平衡跟踪精度和计算效率。DeepSORT在保持较高实时性的同时,有效解决了SORT的ID切换问题,成为实际应用中的优选
2025-08-17 17:39:49
1274
原创 一文吃透 SORT:从零到能跑的多目标跟踪【2025最新版!!!】
本文介绍了SORT(Simple Online and Realtime Tracking)算法的核心原理与实现。SORT是一种实时多目标跟踪算法,通过卡尔曼滤波预测目标位置、匈牙利算法进行数据关联,结合生命周期管理实现高效跟踪。 算法核心包括:1)用卡尔曼滤波预测目标位置;2)基于IoU构建代价矩阵;3)匈牙利算法完成最优匹配;4)生命周期管理(新建、确认、保活、删除)处理目标出现与消失。SORT不依赖外观特征,仅利用运动信息和空间重叠关系,具有速度快、易实现的优点,是许多后续改进算法的基础。
2025-08-17 17:03:36
1753
原创 3DGRUT 混合渲染全流程实战:自定义数据集从训练到高质量三维重建【Ubuntu20.04】【2025最新版!!!】
3DGRUT三维重建实战指南:从环境配置到自定义数据集处理 本文详细介绍了3DGRUT项目的完整工作流程,包括环境配置、数据集格式要求、标准数据集测试以及自定义数据集处理方法。3DGRUT作为NVIDIA最新的混合渲染技术,集成了光栅化、光线追踪和混合渲染方案,支持多种数据集格式和特殊功能。文章提供了基于Ubuntu 20.04+CUDA 11.8+RTX4090环境的具体配置步骤,详细说明了COLMAP和NeRF Synthetic两种主要数据格式的结构要求,并给出了标准数据集测试全流程实战介绍。
2025-08-01 19:00:00
1569
原创 3DGRUT: 革命性的3D高斯粒子光线追踪与混合光栅化技术深度解析
NVIDIA研究团队提出3DGRUT混合渲染框架,结合3D高斯光线追踪(3DGRT)和3D高斯无迹变换(3DGUT),有效解决了传统3D高斯溅射技术在复杂相机模型和二次光线效应上的局限。3DGRT首次实现高斯粒子的硬件加速光线追踪,支持反射/折射等效果;3DGUT通过数学变换在光栅化框架中处理非线性相机模型。混合架构平衡效率与质量,在NeRF等数据集上PSNR达33.88dB,帧率最高846FPS。该技术支持多种数据格式,虽存在硬件要求较高等局限,但在AR/VR等领域展现出重要应用价值。
2025-07-28 17:20:15
1636
原创 NeRF-Pytorch:NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版!!!】
NeRF的核心思想是将三维场景表示为一个连续的神经辐射场,通过深度学习直接从二维图像中学习场景的三维结构和外观信息。这种方法不仅能够生成高质量的新视角图像,而且在处理复杂的光照效果、透明物体和精细纹理方面表现出色。
2025-06-23 23:20:58
1238
原创 2d-gaussian-splatting:论文分析、全流程环境配置与数据集测试【2025最新版!!!】
2D高斯分布(2DGS)是SIGGRAPH 2024提出的突破性方法,解决了传统3D高斯分布(3DGS)在几何重建中的缺陷。2DGS采用2D定向平面高斯盘(surfels)建模场景,通过透视正确光栅化和正则化项优化,显著提升了薄结构和复杂几何的重建质量。测试显示其平均Chamfer距离比3DGS提升26%,同时保持实时渲染能力(≥30 fps)。本文详细解析了2DGS方法、创新点(2D建模、视差校正溅射、新型正则化)、实现流程(场景建模-溅射-优化-网格提取)及测试方案(环境配置、数据集处理)
2025-06-23 20:20:46
2148
原创 PGSR : 基于平面的高斯溅射高保真表面重建【全流程分析与测试!】【2025最新版!!】
PGSR论文提出了一种基于平面约束的高斯溅射方法,实现仅从多视角RGB图像进行高质量表面重建。该方法创新性地将3D高斯约束到平面上,结合自适应密化策略和多阶段优化流程,在DTU数据集上取得了0.47的平均Chamfer Distance,训练效率提升17%。相比传统方法,PGSR无需几何先验,重建质量高且计算高效,开源代码便于研究和应用。论文来自浙江大学团队,核心创新包括平面约束机制和智能密化策略,为三维重建领域提供了新思路。
2025-06-07 19:00:00
2252
2
原创 Ubuntu 20.04 下 OpenCV 4.5.4 编译安装与系统默认 OpenCV 4.2 共存切换指南【2025最新版!!!】
本文详细介绍了在Ubuntu 20.04系统中编译安装OpenCV 4.5.4并实现与系统默认4.2.0版本共存的方法。
2025-05-27 11:21:39
1945
原创 科研论文术语全解析:彻底搞懂什么是Baseline、Pipeline..........等内容【2025最新版!!!】
本文系统性解析了科研论文中的常见术语(Pipeline、Baseline、Framework、Module等),阐明其定义、应用场景与写作位置,并给出SLAM与三维重建领域的示例。文章还提供了科研论文结构的写作建议,
2025-05-26 22:44:19
4913
原创 SuperVINS:应对挑战性成像条件的实时视觉-惯性SLAM框架【全流程配置与测试!!!】【2025最新版!!!!】
SuperVINS是一个改进的视觉-惯性SLAM框架,旨在解决传统SLAM系统在挑战性成像条件下的性能下降问题。该项目基于VINS-Fusion框架,通过引入深度学习方法显著提升了系统在光照变化、模糊及快速运动等复杂环境下的鲁棒性。SuperVINS的核心改进包括使用SuperPoint网络进行特征提取、LightGlue网络进行特征匹配,以及采用DBoW3词袋系统进行回环检测。尽管引入了深度学习,项目通过ONNX Runtime等优化手段确保了实时性。
2025-05-21 23:57:51
2199
8
原创 小白也能听懂的干货:视频图像处理工具链中的瑞士军刀------FFmpeg【2025最新版!!!】
在多媒体处理领域,FFmpeg 是一款几乎无所不能的开源命令行工具。无论是视频格式转换、提取音频、视频分帧、添加字幕、图像合成还是转码压缩,FFmpeg 都能胜任。本文将结合大量实用命令示例,系统介绍 FFmpeg 的常见功能、参数含义及其应用场景,帮助你提升学习和工作效率!!
2025-05-19 22:52:33
1253
原创 3DGS-to-PC:3DGS模型一键丝滑转 点云 or Mesh 【Ubuntu 20.04】【2025最新版!!】
3DGS-to-PC项目旨在将3D高斯泼溅(3DGS)场景转换为高密度点云,以便在常用3D软件中查看和编辑。该项目还支持生成网格模型,便于进一步处理。环境配置要求包括Ubuntu 20.04、CUDA 11.8、Python 3.x及已安装的3D Gaussian Splatting环境。项目提供了点云和网格生成功能,用户可通过命令行工具进行转换,并支持优化点云质量的高级参数。
2025-05-12 18:52:18
4188
2
原创 小白也能听懂的干货:三维重建技术:从数字化到现实世界的桥梁【2025最新版!】
三维重建是计算机视觉与图形学中的重要研究领域,它致力于将真实世界的物体或场景通过计算机技术重建为数字三维模型。这项技术在医学成像、城市规划、文化遗产保护、增强现实和虚拟现实等众多领域有着广泛应用。本文将全面介绍三维重建技术的基本原理、主要工作流程、代表性方法、应用场景以及面临的挑战与未来发展趋势。
2025-05-06 12:52:58
4213
原创 小白也能听懂的干货:SLAM建图 vs NeRF / 3DGS三维重建本质区别与应用选择【2025最新版!!!】
一个强调“定位-结构”,服务于机器智能;一个强调“视觉-保真”,服务于人类感知。在实际工程与研究中,它们不是替代关系,而是互补关系。选择哪种技术,关键要看你的目标是“走得更准”,还是“看得更清”。
2025-05-05 23:25:39
2160
原创 小白也能听懂的干货:什么是 SLAM?——从原理到应用的技术解析【2025最新版】
SLAM 是一项让设备在“未知环境”中,👉 一边构建地图(Mapping),一边实时估计自己的位置(Localization) 的关键技术。自定位 + 自建图。定位(Localization):估计当前相对于起点的位置和姿态(即6DoF位姿)。建图(Mapping):记录环境中的关键特征点或障碍物,构建稀疏/稠密地图。在 SLAM 中,“定位”是指估计设备自身在空间中的位置与朝向。这个过程叫做“位姿估计”(Pose Estimation)
2025-05-05 23:07:49
4863
原创 小白也能听懂的干货:SLAM与新一代三维重建技术(NeRF/3DGS)的结合与发展【2025最新版!!】
SLAM与NeRF/3DGS的融合代表了计算机视觉和机器人领域的一个重要发展方向。这种融合不仅解决了各自技术的固有局限,也为新一代智能系统提供了更完善的环境感知能力。随着算法创新、计算硬件进步和应用需求演变,我们有理由相信,这一融合将继续深化,并在未来催生更多突破性技术和应用。对于研究人员来说,这是一个充满机遇的领域。通过深入理解两种技术的本质,探索它们的融合点,并关注实际应用需求,研究者有可能在这一前沿领域做出重要贡献。期待未来能看到更多创新成果,推动这一技术融合走向更广阔的应用前景。
2025-05-05 21:08:02
2751
原创 DarkGS:论文解读与全流程环境配置及数据集测试【基于Ubuntu20.04 】【2025最新实战无坑版!!】
DarkGS是一个创新性的研究项目,旨在解决机器人在黑暗或低光照环境中探索的问题
2025-05-02 17:21:47
1224
原创 解决 3D Gaussian Splatting 中 SIBR 可视化组件报错 uv_mesh.vert 缺失问题【2025最新版!】
报错 uv_mesh.vert 缺失源于路径问题;推荐在包含 shaders/core/ 的目录中运行程序;也可通过软链接或环境变量方式规避路径问题。
2025-05-02 15:39:33
1333
原创 自主采集高质量三维重建数据集指南:面向3DGS与NeRF的图像与视频拍摄技巧【2025最新版!!】
优质的数据是高质量三维重建的前提。3DGS 与 NeRF 对相机轨迹与图像一致性要求极高,而合理的拍摄策略能显著减少训练误差、提升建模精度。通过科学规划拍摄路径、控制移动节奏、保障光照环境,再结合自动化的后处理工具链,即使是普通手机也能采集出媲美专业设备的数据。本文不仅提供了完整的图文指南,帮助你构建高质量、自主可控、易于训练的三维重建数据集,还补充了一键提帧、标注转换与训练指令,覆盖从采集到建模的每一步流程。如果对你有帮助可以一键三连,有问题的小伙伴也欢迎评论区进一步交流!!
2025-04-30 12:45:32
2591
原创 NeRFstudio 训练结果导出与格式转换(点云 AND 网格)全方位流程实战【2025最新版!!!】
NeRFstudio训练完成后,我们可以将NeRF模型导出为多种格式,如视频、点云或网格。以供下游的工具(CloudCompare,Unity等)进行编辑及可视化。
2025-04-29 21:30:00
983
原创 Nerfstudio 环境配置与自有数据集(图片和视频)测试全方位全流程实战【2025最新版!!】
Nerfstudio是由加州大学伯克利分校的研究人员开发的一个模块化NeRF开发框架,旨在提供一个更加用户友好的环境来探索NeRF技术。模块化设计:将NeRF的各个组件模块化,便于理解和定制完整工作流:提供从数据采集、处理到训练、渲染的完整工作流可视化界面:内置基于Web的3D可视化工具,支持实时交互多种算法支持:集成了多种NeRF变体算法,如nerfacto、instant-ngp等社区支持:活跃的开发者社区和详尽的文档。
2025-04-29 16:49:34
2653
原创 NVIDIA GPU 计算能力与 COLMAP 编译配置指南【2025最新版!!!】
通过以上内容,可以根据自己的 GPU 型号和 CUDA 版本选择最合适的编译配置,确保 COLMAP 既能发挥 GPU 的最大性能,又能避免因架构不兼容导致的编译错误。
2025-04-26 15:12:10
1924
原创 基于NVIDIA RTX 4090的COLMAP 3.7安装指南:Ubuntu 20.04 + CUDA 11.8环境配置【2025最新版!!】
在使用新一代 GPU 如 RTX 4090 搭配较老版本 CUDA 环境编译 COLMAP 时,架构兼容性问题是一个常见障碍。本文详细解析了问题原因,并提供了多种不同层次的解决方案,从简单的命令行参数到深入修改配置文件。这些方法使用户能够在不升级 CUDA 版本的情况下,充分利用 GPU 加速的 COLMAP 功能,为计算机视觉和三维重建项目提供高效处理能力。
2025-04-26 14:42:05
2458
原创 NeRF:原理 + 实现 + 实践全流程配置+数据集测试【Ubuntu20.04 】【2025最新版】
神经辐射场(Neural Radiance Fields, NeRF)是一种前沿的 3D 场景重建技术,利用深度学习从 2D 图像中建模场景的辐射场,实现高质量的新视角合成。NeRF 在虚拟现实、增强现实、影视特效和游戏开发等领域展现出巨大潜力。
2025-04-24 14:41:25
1520
原创 MIP-Splatting:全流程配置与自制数据集测试【ubuntu20.04】【2025最新版】
Mip-Splatting 是一个计算机视觉研究项目,旨在增强 3D 高斯泼溅(3DGS),解决缩放时(如变焦)出现的伪影问题。它引入了 3D 平滑滤波器和 2D Mip 滤波器,消除高频伪影和扩张/侵蚀伪影,显著改善新型视图合成的质量。该项目在 2024 年 CVPR 大会上获得最佳学生论文奖,表明其在 3D 重建和渲染领域的创新性。
2025-04-15 02:17:01
1403
原创 Ubuntu 解压不求人:一篇搞定 Ubuntu 所有主流压缩格式
掌握如何解压不同类型的压缩文件是 Linux 系统中开发者和系统管理员必备的技能之一。无论是 .zip、.tar.gz 还是 .7z、.rar,每种格式都有其使用的场景和优势。通过本文介绍的命令,你可以轻松解压常见的压缩文件,提高处理数据和开发项目的效率。此外,Ubuntu 提供了丰富的工具和包来支持各种格式的压缩与解压,掌握这些基本操作后,你将能够高效地处理各种文件。希望本文能帮助你更好地理解和应用这些工具。
2025-04-04 11:10:47
2065
原创 Git Clone 太慢?开发者的血泪史和终极加速方案【2025最新版!!!】
如果你被 git clone 速度慢 折磨得抓狂,别急,试试以下方法:希望这篇文章能帮你 彻底解决 git clone 速度慢的问题!🚀🚀🚀。
2025-03-14 15:36:37
26509
1
原创 基于YOLOv11的火灾检测:小白也能听懂的全流程实战讲解【2025最新版!】
在这篇博客中,我将详细介绍如何基于预训练权重,利用公共数据集完成火灾检测的全流程,包括数据集划分、模型训练、验证、推理、可视化,以及超参数调节。同时,我还会展示如何支持图片、视频和外置相机的识别,探讨学术界与工业界的常见方法,并分享一些实用经验
2025-03-05 20:22:08
2846
3
原创 从头开始训练?迁移学习?微调? 一文带你搞清楚深度学习模型训练方法论!!【深度学习炼丹师养成计划】
迁移学习是广义概念,包括特征提取和微调。微调是迁移学习的一种,重点是调整预训练模型权重。
2025-02-28 16:21:16
519
原创 DeepSeek:普通人也能掌握的AI效率神器——来自清华大学的实战指南
DeepSeek不仅仅是一款工具,更是普通人实现效率跃迁的钥匙。通过清华大学的三版资料,我们可以快速掌握这一技术,并将其应用于实际工作和学习中。无论您是职场新人还是资深从业者,DeepSeek都能为您带来意想不到的惊喜。AI不会淘汰人,但会用AI的人会淘汰不用AI的人。它像一把瑞士军刀,能切开职场焦虑、学习卡壳、生活琐事的死结,但关键你得知道往哪儿下刀。普通人要做的不是和AI抢饭碗,而是学会“提问+筛选+微调”,把重复劳动甩给机器,自己专注决策与创造。
2025-02-25 13:47:29
514
原创 在环境冲突情况下调整优先级以解决ROS Catkin构建中缺少模块的问题【ubuntu20.04】
在多Python环境共存的系统中,确保ROS使用系统的Python环境是避免依赖性问题的关键。通过临时调整PATH环境变量,可以快速解决缺少empy模块导致的Catkin构建失败问题。然而,为了长期稳定地开发ROS项目,建议采用独立的终端会话或虚拟环境,确保ROS与其他Python项目的依赖隔离。这不仅提升了开发效率,也减少了潜在的兼容性问题。
2025-01-06 21:47:34
1091
原创 Ubuntu 20.04下Kinect2驱动环境配置与测试【稳定无坑版】
Kinect2与Kinect for Windows SDK(官方只支持Windows)不同,在Linux上通常使用社区维护的开源库libfreenect2来驱动和访问Kinect2硬件数据。libfreenect2提供对深度、RGB、红外数据的访问接口,并包含基础的测试程序(Protonect),方便验证安装是否成功。通过上述步骤,我们在Ubuntu 20.04下成功编译和配置了libfreenect2,并利用Protonect测试确认了Kinect2的正常工作。
2024-12-19 17:09:58
1487
1
原创 下采样在点云处理中的关键作用——以PointNet++为例【初学者无门槛理解版!】
下采样在点云处理,特别是在PointNet++这样的深度学习模型中,扮演着至关重要的角色。通过减少点的数量,降低数据冗余,支持层次化特征提取,扩大感受野,避免过拟合和噪声干扰,下采样不仅提升了模型的计算效率,更增强了其特征表达能力和泛化能力。PointNet++通过引入最远点采样和层次化的网络结构,充分利用下采样机制,实现了对点云数据的多尺度理解和高效处理。通过形象化的解释和具体的例子,我们可以更清晰地理解下采样在点云处理中的重要性。下采样不仅是提升效率的工具,更是实现深层次特征提取和模型性能提升的基础。
2024-12-16 22:40:34
923
原创 深入浅出PointNet++ :层次化学习与点云处理【全面完整版!】
PointNet++ 作为 PointNet 的升级版,通过引入层次化采样、局部特征聚合和多尺度特征融合等创新机制,显著提升了点云数据处理的性能和表达能力。其层次化的结构使得模型能够有效捕捉点云的局部几何信息和全局分布特征,弥补了 PointNet 在处理复杂点云数据方面的不足。PointNet++ 的成功展示了深度学习在处理非结构化数据上的巨大潜力,也为后续研究提供了宝贵的经验和思路如果你对点云数据处理或 PointNet++ 有更深入的兴趣,建议参考原始论文PointNet++
2024-12-11 14:14:51
2203
原创 深入浅出特征的维度与个数【大白话版】
特征向量:在矩阵中,通常是每一行,代表一个样本的所有特征特征维数:每个特征向量的长度,等同于矩阵的列数,表示每个样本有多少个特征特征的个数:传统机器学习:通常与特征维数等同,指每个样本的特征数量(列数)深度学习:有时特指特征通道数。
2024-12-10 18:19:12
1992
原创 升维与降维硬核分析干货【全面无坑版】
升维是指将数据从低维空间映射到高维空间的过程。其主要目的是通过引入新的特征,增强数据的表达能力,使得复杂的模式和关系在高维空间中更加显著,从而提升模型的性能。升维常用于处理非线性可分的数据,使其在高维空间中变得线性可分例子:多项式回归中,特征从原始的线性空间升维到高次多项式空间,允许模型学习到非线性关系升维与降维是计算机视觉中处理高维数据的两种基本而重要的技术手段。升维通过引入新的特征,增强了模型的表达能力,使其能够捕捉到更复杂的模式和关系;
2024-12-09 19:36:25
3629
原创 常见点云文件格式详解及其应用分析【实践无坑版】
pcd:激光雷达点云的主流格式,适合动态点云处理和SLAM。.ply:多传感器融合和高精度三维建模的首选格式。.las:激光雷达测绘的行业标准,广泛应用于地形和城市建模。.xyz:轻量化点云格式,适合快速处理和数据转换。.obj:描述几何和纹理模型的通用格式,用于虚拟现实和三维打印。
2024-11-27 20:05:26
3327
原创 多传感器SLAM建图结果的选择性保存与点云数据格式解析
多传感器SLAM生成的地图数据融合了激光雷达、IMU和相机的优点,最终以点云和轨迹文件的形式呈现。RGB-D 相机生成:稠密点云,包含RGB纹理激光雷达生成:稀疏点云,可能包含强度值激光雷达+相机融合:点云稀疏,叠加纹理信息,可能包含 intensity。
2024-11-27 19:29:52
1226
原创 多传感器融合slam过程解析【大白话版】
激光雷达+IMU+相机的SLAM技术通过多传感器融合,实现了环境几何信息、运动估计和颜色纹理的有机结合。生成的地图以激光雷达点云为核心,IMU提供优化,相机叠加纹理,形成彩色点云或轨迹。激光雷达:几何信息(点云地图)IMU:运动轨迹(位姿数据)相机:丰富的纹理和图像信息通过合理使用这些数据,SLAM技术为自动驾驶、机器人导航和三维建模等领域提供了强大的技术支持。未来,随着传感器性能的提升和算法的优化,SLAM技术将在更多复杂场景中展现出更大的潜力。
2024-11-20 09:48:11
4584
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅