计算机视觉
文章平均质量分 90
关于计算机视觉的内容收录
fanstering
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
腾讯混元P3-SAM: Native 3D Part Segmentation
摘要: 论文《P³-SAM: Native 3D Part Segmentation》提出首个原生3D点提示式部件分割模型,解决了现有方法依赖2D迁移、预定义类别和人工干预的问题。通过两阶段多头分割器和IoU预测器,结合自动标注流水线(FPS采样+NMS去重+洪泛填充),实现了高精度、无类别约束的部件分割。模型在PartNetE等基准上达到SOTA性能(mIoU 59.9%~81.1%),并构建了包含370万模型的大规模3D部件数据集。创新点包括纯3D架构、自动化分割算法和多任务支持,但存在对几何表面过度依原创 2025-10-14 17:42:28 · 963 阅读 · 0 评论 -
Farthest Point Sampling (FPS) 最远点采样原理详解
FPS最远点采样是一种高效的点云采样算法,采用贪心策略每次选择离已选点最远的点,确保采样均匀分布。其时间复杂度为O(N·K),在几何保留和计算效率间取得平衡,广泛应用于点云简化、三维重建等领域。尽管对噪声敏感且依赖初始点选择,其改进算法如Adaptive FPS和Fast FPS进一步优化了性能。FPS通过简单有效的策略解决了点云冗余与关键信息保留的矛盾,成为三维处理领域的基础工具。原创 2025-10-14 17:29:18 · 448 阅读 · 0 评论 -
深度相机结构光vs.激光雷达
结构光与激光雷达是两种主流的深度感知技术。结构光通过投射已知光图案并分析形变计算深度,适用于近距离、高精度场景(如手机人脸识别),成本低但抗干扰弱。激光雷达则利用激光束飞行时间测量距离,通过扫描构建三维点云,具有长量程、强抗干扰能力,广泛应用于自动驾驶、测绘等领域,但成本较高。两者在精度、量程、环境适应性上形成互补,选择取决于具体应用场景需求。原创 2025-10-13 17:36:39 · 1277 阅读 · 0 评论 -
深度相机初探:立体视觉(Stereo Vision)、结构光(Structured Light)、TOF(Time of Flight,飞行时间)
深度相机通过三种技术获取三维深度信息:立体视觉基于双相机视差计算,适合低成本户外应用但依赖环境光;结构光主动投射编码图案,实现高精度近距离测量,适用于弱光环境的人脸识别等场景;TOF技术通过测量光飞行时间实现长距离探测,抗干扰能力强,常用于户外机器人和AR导航。三种技术各有优劣,选择需根据场景需求权衡精度、量程和成本。原创 2025-10-11 14:35:50 · 1182 阅读 · 0 评论 -
激光扫描(LiDAR)初探
激光扫描(LiDAR)是一种利用激光进行距离测量和目标探测的先进技术。它通过发射激光束并分析反射信号来计算目标距离,可生成包含三维坐标和反射强度信息的点云数据。LiDAR系统主要由激光发射器、扫描系统、接收器和信号处理单元组成,可分为机械式和固态等类型。该技术广泛应用于自动驾驶、测绘、机器人导航和环境监测等领域,具有高精度、不受光照影响等优点,但也存在成本高、数据量大等局限。未来发展趋势包括成本降低、性能提升、多传感器融合和新型技术开发。原创 2025-10-11 14:31:17 · 771 阅读 · 0 评论 -
三维网格(mesh)
三维网格(3D mesh)是计算机图形学和三维建模中用于表示三维物体表面的一种数据结构。简单来说,它是由==点(顶点)、线(边)和面(通常是三角形或四边形)==构成的网络,用来近似表示物体的形状和几何结构。每个面是四边形,常用于建模和细分曲面(Subdivision Surface)。面是实际用于渲染的基本单元,因为图形硬件通常以三角形为基本绘制单元。边用于定义网格的拓扑结构,但在渲染时通常不是单独显示的。由三条或四条边围成的平面(通常是三角形或四边形)。网格的基本单位,表示空间中的一个点,通常包含。原创 2025-10-10 17:14:32 · 652 阅读 · 0 评论 -
激光雷达的结果为什么是点云数据?
物理原理决定了它只能先获取 “单个三维点”;扫描系统通过 “遍历目标区域” 将单点拼接成 “密集点集”;点云的离散特性又能兼顾 “原始测量精度” 和 “后续处理灵活性”,完美匹配三维感知的应用需求。因此,点云数据不是激光雷达 “选择输出的格式”,而是其技术原理和应用目标共同决定的 “天然输出形态”。原创 2025-10-10 17:05:05 · 767 阅读 · 0 评论 -
【SAM】Segment Anything 论文翻译笔记
我们介绍了 Segment Anything (SA) 项目:用于图像分割的新任务、模型和数据集。在数据收集循环中使用我们的高效模型,我们构建了迄今为止最大的分割数据集,在 1100万 个许可和尊重隐私的图像上拥有超过 10 亿个mask。该模型的设计和训练是可提示的,因此它可以零样本迁移到新的图像分布和任务中。我们评估了它在众多任务中的能力,发现其零样本性能令人印象深刻——通常与之前的完全监督结果具有竞争力,甚至优于之前的完全监督结果。原创 2025-08-04 15:10:14 · 424 阅读 · 0 评论
分享