3Ｄ视觉工坊-优快云博客

转载 NUS邵林团队最新VLA‑OS | 揭秘机器人VLA模型的第一性原理！

在ICLR, CoRL, ICRA, IROS等顶级会议上发表论文十余篇，曾获ICRA 2025 Best Papar Award on Locomotion and Manipulation, CoRL 2022 Best System Paper Nomination, 新加坡国立大学校长奖学金等奖项。新加坡国立大学在读博士生，导师为邵林助理教授。他的研究方向包括通用机器人操作，机器人世界模型，：3D视觉工坊很荣幸邀请到了新加坡国立大学在读博士生。如果您有相关工作需要分享，欢迎文末联系我们。

2025-07-29 07:03:59 29

转载 ICCV‘25开源 | 50倍加速！SpatialTrackerV2：轻松实现3D点跟踪！（浙大&牛津）

它利用完全可微且端到端的架构，将世界空间中的3D运动分解为场景几何结构、相机自运动和逐像素的物体运动，从而支持在包括合成序列、带位姿的RGB-D视频和无标签野外镜头在内的广泛数据集上进行可扩展的训练。通过从这些异构数据中联合学习几何结构和运动，SpatialTrackerV2的性能比现有3D跟踪方法提高了30%，且在运行速度比领先的动态3D重建方法快50倍的同时，达到了与其相当的精度。现有的3D点跟踪解决方案广泛探索了成熟的低/中级视觉模型，如光流和单目深度估计，并借鉴了2D点跟踪模型的优势。

2025-07-25 07:03:31 59

转载 CVPR 2025 Highlight | 北大ConsisID & OpenS2V - 频域感知的主体一致性视频生成

北京大学硕士一年级研究生，主修计算机科学与技术专业，研究方向是多模态生成和理解。曾在TPAMI、CVPR、NeurIPS等人工智能领域的著名国际会议和期刊发表多篇学术论文，代表性项目包括Open-Sora Plan和ConsisID，开源项目累计Star超20,000。：3D视觉工坊很荣幸邀请到了北京大学硕士一年级研究生。3D视觉工坊很荣幸邀请到了北京大学硕士一年级研究生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。如果您有相关工作需要分享，

2025-07-25 07:03:31 44

转载工业缺陷检测新项目如何选择合适的算法

等工业难点，并给出相应的案例解决方案。本课程答疑主要在本课程对应的鹅圈子中答疑，学员学习过程中，有任何问题，可以随时在鹅圈子中提问。以及各种工业算法中的评价指标和CV大模型在工业场景中的简单应用，拓展丰富大家做项目的思路。本课程主要针对当前工业缺陷检测过程的中的难点进行分析、给出相应的解决方案。备注：以上图片和视频部分来自网络，如果侵犯了您的权益，还请联系删除！本课程重点分析讲解工业领域的难点，包括了。对工业检测算法的应用有较为深刻的认识；独立解决工业缺陷检测中场景的难点；(10张训练数据集)

2025-07-25 07:03:31 32

转载 ICCV‘25开源 | 50倍加速！SpatialTrackerV2：轻松实现3D点跟踪！（浙大&牛津）

它利用完全可微且端到端的架构，将世界空间中的3D运动分解为场景几何结构、相机自运动和逐像素的物体运动，从而支持在包括合成序列、带位姿的RGB-D视频和无标签野外镜头在内的广泛数据集上进行可扩展的训练。通过从这些异构数据中联合学习几何结构和运动，SpatialTrackerV2的性能比现有3D跟踪方法提高了30%，且在运行速度比领先的动态3D重建方法快50倍的同时，达到了与其相当的精度。现有的3D点跟踪解决方案广泛探索了成熟的低/中级视觉模型，如光流和单目深度估计，并借鉴了2D点跟踪模型的优势。

2025-07-25 07:03:31 39

转载 CVPR‘25 Highlight｜DepthCrafter: 开放世界长序列视频的一致性深度估计

香港科技大学计算机科学与工程系在读博士生，研究方向为三维视觉。担任 TVCG, TIP, TMM, CVPR, ECCV, ICCV, ICLR 等学术期刊会议审稿人。CVPR'25 Highlight｜DepthCrafter: 开放世界长序列视频的一致性深度估计。：3D视觉工坊很荣幸邀请到了香港科技大学计算机科学与工程系在读博士生。3D视觉工坊很荣幸邀请到了香港科技大学计算机科学与工程系在读博士生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。

2025-07-24 10:39:25 37

转载好难！高反光！黑色！距离远！高精度结构光3D相机该如何选？

采用主动结构光技术，拍摄速度快、成像精细、方案成熟稳定，针对不同应用场景物体可输出高质量点云数据图，精度高、速度快、环境自适应性强，适用于工件上下料、拆码垛、机器人视觉引导等多种应用场景。苏州三迪斯维智能科技有限公司。KW-LCW重建金属棍状物体。KW-LUMOS-W重建效果。KW-LUMOS-W重建锡纸。KW-LUMOS-W重建金属。KW-MINI重建PCB板。KW-MINI重建金属划痕。KW-P重建pin针焊锡。KW-DCW重建汽车漆面。KW-SCW重建彩色金属。KW-LCW重建金属零件。

2025-07-24 10:39:25 57

转载 CVPR‘25 Highlight｜DepthCrafter: 开放世界长序列视频的一致性深度估计

香港科技大学计算机科学与工程系在读博士生，研究方向为三维视觉。担任 TVCG, TIP, TMM, CVPR, ECCV, ICCV, ICLR 等学术期刊会议审稿人。CVPR'25 Highlight｜DepthCrafter: 开放世界长序列视频的一致性深度估计。：3D视觉工坊很荣幸邀请到了香港科技大学计算机科学与工程系在读博士生。3D视觉工坊很荣幸邀请到了香港科技大学计算机科学与工程系在读博士生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。

2025-07-24 10:39:25 21

转载 CVPR‘25 Highlight｜DepthCrafter: 开放世界长序列视频的一致性深度估计

香港科技大学计算机科学与工程系在读博士生，研究方向为三维视觉。担任 TVCG, TIP, TMM, CVPR, ECCV, ICCV, ICLR 等学术期刊会议审稿人。CVPR'25 Highlight｜DepthCrafter: 开放世界长序列视频的一致性深度估计。：3D视觉工坊很荣幸邀请到了香港科技大学计算机科学与工程系在读博士生。3D视觉工坊很荣幸邀请到了香港科技大学计算机科学与工程系在读博士生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。

2025-07-24 10:39:25 15

转载 CVPR‘25 Highlight｜DepthCrafter: 开放世界长序列视频的一致性深度估计

香港科技大学计算机科学与工程系在读博士生，研究方向为三维视觉。担任 TVCG, TIP, TMM, CVPR, ECCV, ICCV, ICLR 等学术期刊会议审稿人。CVPR'25 Highlight｜DepthCrafter: 开放世界长序列视频的一致性深度估计。：3D视觉工坊很荣幸邀请到了香港科技大学计算机科学与工程系在读博士生。3D视觉工坊很荣幸邀请到了香港科技大学计算机科学与工程系在读博士生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。

2025-07-24 10:39:25 4

转载 30K×14薪，现在干视觉搞钱都这么野？

视觉到3D就开始复杂起来了，这里是用的Halcon+C#+Winform + 3D点云处理算法完成的白板笔点云数据处理实战，包括点云数据加载、筛选，点云去噪，点云调平及三角化功能的实现。识别是视觉的入门应用了，车牌识别更是经典场景，这里搞了个是C#+Winform + Halcon + OCR识别库，快速完成车牌识别，全套源代码+用到的素材+配套视频教程都打包好了。深度学习则是视觉开发的高2薪必备了，说难也难，说不难也不难。，主要包括样本预处理，模型训练，模型评估，模型推断相关功能，实现了水果分类实战。

2025-07-23 07:02:09 242

转载清华RAL‘25开源 | VR-Robo：通过3DGS实现机器人视觉运动与导航！

现于清华大学交叉信息院博士一年级在读，师从赵行老师。研究方向为具身智能，足式机器人，三维重建与机器人融合，在RA-L，ICRA，IJCV，IROS，ICCV等期刊及会议上发表多篇论文，并担任RA-L，IROS，RA-M等学术期刊及会议审稿人。：3D视觉工坊很荣幸邀请到了清华大学交叉信息院博士一年级博士生。3D视觉工坊很荣幸邀请到了清华大学交叉信息院博士一年级博士生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。请备注：宣传工作，则不予通过。

2025-07-23 07:02:09 48

转载小身躯大能量！先临三维AutoScan Inspec2全自动桌面三维扫描仪震撼来袭，让检测更简单

未来，先临三维将持续深耕高精度三维视觉技术，不断优化产品性能，为为工业制造、3D设计等领域用户提供更高效、可靠的三维扫描检测解决方案。AutoScan Inspec2为用户提供了一套完整的三维扫描检测流程，采集数据可无缝对接SHINING3D Inspect工业计量三维检测模块，其为先临三维自主研发，已通过德国物理研究院PTB测量精度双重认证（长度领域的高斯软件认证、切比雪夫软件认证），能够处理高精度三维扫描仪获取的三维数据，进行3D比较及3D测量并输出检测报告。出色的数据细节，精细特征纤毫必现。

2025-07-23 07:02:09 186

转载清华RAL‘25开源 | VR-Robo：通过3DGS实现机器人视觉运动与导航！

现于清华大学交叉信息院博士一年级在读，师从赵行老师。研究方向为具身智能，足式机器人，三维重建与机器人融合，在RA-L，ICRA，IJCV，IROS，ICCV等期刊及会议上发表多篇论文，并担任RA-L，IROS，RA-M等学术期刊及会议审稿人。：3D视觉工坊很荣幸邀请到了清华大学交叉信息院博士一年级博士生。3D视觉工坊很荣幸邀请到了清华大学交叉信息院博士一年级博士生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。请备注：宣传工作，则不予通过。

2025-07-23 07:02:09 40

转载清华RAL‘25开源 | VR-Robo：通过3DGS实现机器人视觉运动与导航！

现于清华大学交叉信息院博士一年级在读，师从赵行老师。研究方向为具身智能，足式机器人，三维重建与机器人融合，在RA-L，ICRA，IJCV，IROS，ICCV等期刊及会议上发表多篇论文，并担任RA-L，IROS，RA-M等学术期刊及会议审稿人。：3D视觉工坊很荣幸邀请到了清华大学交叉信息院博士一年级博士生。3D视觉工坊很荣幸邀请到了清华大学交叉信息院博士一年级博士生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。请备注：宣传工作，则不予通过。

2025-07-23 07:02:09 39

转载清华RAL‘25开源 | VR-Robo：通过3DGS实现机器人视觉运动与导航！

现于清华大学交叉信息院博士一年级在读，师从赵行老师。研究方向为具身智能，足式机器人，三维重建与机器人融合，在RA-L，ICRA，IJCV，IROS，ICCV等期刊及会议上发表多篇论文，并担任RA-L，IROS，RA-M等学术期刊及会议审稿人。：3D视觉工坊很荣幸邀请到了清华大学交叉信息院博士一年级博士生。3D视觉工坊很荣幸邀请到了清华大学交叉信息院博士一年级博士生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。请备注：宣传工作，则不予通过。

2025-07-23 07:02:09 6

转载多光源！多模态算力！无线扫描！先临三维扫描仪推出新品EinScan Rigil

EinScan Rigil 为专业用户提供了全链无线智能协同的解决方案，设备端可实现扫描到数据编辑、导出等全流程操作，采集数据可无缝导入先临三维旗下逆向设计软件EXModel、3D模型互动展示平台先临三维数字云、智能贴图软件 BlueStar Mapping等，实现从3D扫描到设计制造、互动展示的无缝数据流转，为数字化生产提供全链路技术支持。其独特的算力配置模式，赋予了设备极高的灵活性。38线激光高速扫描，7线平行激光精细扫描，两种激光模式可实时切换，采集数据无缝拼接，同时实现速度与细节的兼顾；

2025-07-21 07:02:34 84

转载远超VGGT！浙大开源π3等变视觉几何学习：姿态估计、深度估计、3D重建新SOTA！

在这项工作中，我们引入了π3，它通过消除对固定参考视图的依赖为视觉几何重建提供了一种新的范式。这种设计选择消除了在以前的方法中发现的一个关键的诱导偏差，使我们简单而强大的方法在广泛的任务上实现国家的最先进的性能，包括相机姿态估计，深度估计和密集重建。• 我们是第一个系统地识别并挑战视觉几何重建中对固定参考视图的依赖的研究，证明了这种常见的设计选择引入了一种有害的归纳偏置，限制了模型的鲁棒性和性能。虽然以前的方法，即使与DINO为基础的选择，显示不一致的结果，π3一贯提供卓越和稳定的性能，证明了其鲁棒性。

2025-07-20 00:02:19 260

转载 BEV 感知算法评价指标简介

其中 TP（True Positive）是指正确预测为可行驶区域的数量，FP（False Positive）是指错误预测为可行驶区域的数量，FN（False Negative）是指将实际可行驶区域错误预测为非可行驶区域的数量。本文将介绍三类任务中常见的精度评价指标，如果有不正确的地方，欢迎评论指正。在静态建图任务（如 MapTR）中，Angle Distance（角度距离）衡量的是预测的多段折线（Polyline）与真实标注之间的方向差异，其本质是对几何方向一致性的评估，而非仅仅是点的位置误差。

2025-07-20 00:02:19 65

原创 ubuntu下好用的录屏软件

以下是 vokoscreen 的安装教程，适用于 Linux 系统。vokoscreen 是一款简单易用的屏幕录制工具，支持录制屏幕、摄像头和音频。vokoscreen 提供了多种安装方式，包括通过包管理器、Deb 包或 AppImage 文件。方法 1：通过 apt 安装（Ubuntu/Debian）方法 2：下载 .deb 包安装。安装 vokoscreen。[点击并拖拽以移动]

2025-07-19 08:46:21 83

转载那些论文和代码啃不动的夜晚，我们悄悄建了个‘解忧实验室’

细分方向众多，包括但不限于：工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向，也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息、承接项目。3D视觉包含立体视觉、结构光和TOF，以立体视觉为主。目前已有6400+活跃成员，主要涉及方向：工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、大模型等科技前沿方向。

2025-07-19 00:01:44 85

转载 NeRF不够用？全能3D建模神器HPR3D带你三步走：建模紧凑、编辑精准、纹理可控！

HPR3D的核心创新在于通过一组稀疏的、分层组织（树状结构）的代理节点来表示物体的形状和纹理，这些节点分布在物体表面和内部，每个节点存储其邻域内的局部形状和纹理信息（由小型MLP隐式编码）。该方法能够通过精确调整少量代理点的特征，对复杂 3D 对象的特定感兴趣区域进行高精度纹理编辑，其核心优势在于能够操作代理点的局部特征，实现对纹理变换和转移的精确控制。通过迁移代理点的特征可以实现纹理的精确转移，能够将所选区域的纹理准确地转移到目标区域，且不会出现失真或变形，这得益于代理点的精确对齐和基于距离的插值技术。

2025-07-19 00:01:44 87

转载 SLAM的最终形态应该是什么样的？

随着之后软硬件的发展，SLAM最终能否达到，一旦部署，终身运行，自己能够处理一些环境变化，信息的整合与鉴别。当然这一切原因很可能就是，单纯的，数据不够多，模型不够大，端上性能不够强，然后slam也没怎么搞过几十T带真值pose的数据，花个几百万去训的。而且SLAM提供的里程计是被部分感知任务需要的，SLAM和感知对数据的要求(同步标定配对)在同一个设备上又是一样的，因此往后会有更多的业务和组织重叠。成功者是少数，幸存者偏差，能飞回来的只有翅膀中弹的飞机，更多的年轻人正顶着烈日送外卖。

2025-07-18 07:01:22 24