自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(605)
  • 收藏
  • 关注

原创 上交最新广义端到端自动驾驶综述:统一视角下的三大范式

这几年,自动驾驶的技术流派可谓“神仙打架”:从早期的一体化端到端,到火遍全网的 VLA,再到如今炙手可热的世界模型(World Model),几乎每一家做自动驾驶的公司,都在强调自己那条“独一份”的技术路线。遗憾的是,目前大多数自动驾驶综述在梳理技术路线时,往往把端到端和 VLA 当成两条平行、割裂的路线来讲,很少从统一视角去对比分析。再把 MPC 的可行性反馈给 LLM,形成闭环。图1 端到端自动驾驶范式对比。(a)(b)传统端到端、(c)以大模型为中心的端到端、(d)(e)混合端到端。

2025-12-13 22:37:15 982

原创 SLAM与3DGS学习路线有啥不同?

如果是想走GS SLAM的话,我建议可以选一个比较经典的开源框架(比如SplaTAM、MonoGS),先不用着急吃透代码和原理,先把它在公开数据集上跑起来(比如Replica、TUM),运行起来通过GUI你就能理解3D GS到底是个什么东西,运行起来到底是什么样子,然后你可以带着问题“比如它到底是怎么优化的pose,新的高斯点具体是如何生成,具体是如何做的BA”去查文献和代码。通过这个过程你也能看出来这个框架存在哪些问题,解决这些问题,你的创新点和工作量就有了。「3D视觉从入门到精通」星友提问。

2025-12-08 11:02:25 204

原创 基于三迪斯维Pickwiz手眼标定流程详解

“手”即机器人,“眼”即3D相机,手眼标定是校准“手”与“眼”之间的空间关系,即确定相机坐标系与机器人末端坐标系之间的刚性变换矩阵(包含旋转和平移),以便将视觉信息准确转化为机器人动作,从而实现准确的视觉引导抓取放置。眼在手上(EyeInHand):相机固定安装在机械臂的末端工具上,随着机械臂的运动而运动,相机相对于机器人末端法兰是固定的,标定板相对于机器人基座是固定的。相机固定安装在机械臂的末端工具上,机器人类型为六轴机器人,标定流程请参照眼在手上六轴机器人标定。

2025-11-12 16:43:41 281

原创 一文详解点云模板制作的要素、原则及案例

任意姿态:工件可能以任意角度出现,有效点云区为在80%以上姿态下均能稳定成像的区域(排除深孔、过曝区、凹槽等易缺失点云的部分)。根据场景摆放和工件特性,应使 用正反模板,分别制作工件的正 面点云和反面点云,关键点取工件 整体的关键点。工件姿态变化:工件有序摆放,仅能看到工件的上表面(大圆+小圆),有效点云区则为该工件的上表面。工件姿态变化:工件有序摆放,仅能看到工件的上表面(大圆+小圆),有效点云区则为该工件的上表面。点云成像质量:边缘有噪点、面内点云小幅度波动、点云覆盖率高,部分情况有点云缺失。

2025-11-09 12:23:53 1019

原创 3D视觉引导高反光圆柱棒上下料全流程

抓取点默认基于圆柱轴线上的尺寸中心和半径生成,生成数为360/旋转抓取间隔*2(正反方向),也可以从端点开始,根据先验尺寸估计出圆柱中心(一般应用在圆柱紧挨导致模型将多个圆柱拟合为一个的场景)如果发现拟合圆柱与实际圆柱不符(如拟合圆柱点云缺失、弧度弯曲),应当调大拟合参考距离,将更多的点云纳入拟合圆柱,数值过大可能包括噪声点。模型根据实例点云计算一个理想的圆柱,与该理想圆柱的距离小于拟合参考距离的点云被拟合成圆柱。计算拟合成圆柱的点云数量与实例点云的数量的比值,比值小于拟合分数阈值的拟合圆柱将被过滤。

2025-11-07 15:24:36 967

原创 3D视觉引导圆面抓取全流程详细介绍

上传上传工件的模板点云文件用于精匹配,应当在C:\Users\dex\Documents\PickWiz\项目名称\data\PickLight\历史数据时间戳\Builder\pose\output选取inverse_pcd文件。上传的模板点云应当选取C:\Users\dex\Documents\PickWiz\项目名称\data\PickLight\历史数据时间戳\Builder\pose\output中的inverse_pcd文件。导入的模型只用于显示,方便观察抓取点,不参与计算。

2025-11-06 18:32:32 1051

原创 3D相机及双目AI相机的详细使用教程

激光振镜结构光相机:使用激光代替DLP芯片,因为DLP芯片被TI公司所垄断,并且DLP芯片价格高昂,依赖于光机的光学设计等,在一些精度要求稍低(抓取精度±2mm)的大视野场景,使用DLP方案将会带来极大的成本,于是选择了灰度精度不太高的激光线束条纹代替DLP光机的条纹,低成本的同时也满足了实际需要;传统双目相机:和人眼的原理类似,精度低,帧率高,在一些消费级产品可能看到,例如体感游戏,有数厘米的误差,关灯之后就用不了;Tof相机:依赖测量光的飞行时间,测量物体三维信息;

2025-11-04 15:19:14 638

原创 3D视觉引导纸箱拆垛全流程详解

▲长按添加小助理微信:cv3d007 或者 13451707958,咨询更多。▲长按查看3D相机和机械臂抓取软件。

2025-10-30 11:34:35 191

原创 一文详解3D视觉引导机器人系统

通过正确地定义机器人坐标系,可以将机器人的运动与所需的位置和姿态进行精确匹配,使机器人能够在不同的任务和环境中进行准确的定位和操作,实现高效率和高质量的工作。转换过程中,每个像素的深度值结合其在图像中的位置(u, v)和相机的内参(如焦距、光心位置),可以计算出对应的三维点坐标(X, Y, Z)。:通常指的是二维图像,如照片或屏幕截图,它包含的是平面上的像素信息,没有深度信息。计算相机和机器人的相互关系,将视觉识别到的相机坐标系下的目标,转换成机器人坐标系对应的坐标,引导机器人进行抓取。

2025-10-27 18:50:57 744

原创 DriveBot-Q1智能小车轻松实现从A到B点自主导航

确认所有传感器话题均已发布且频率均正确后,将无人车移动到采集2D栅格地图时的起始位置和方向(加快小车获取初始位置),启动定位。启动所有传感器,确认所有传感器话题均已发布且频率均正确后,准备采集数据(所采集的环境使得激光雷达达到尽可能多的结构化特征,如墙面、转角、静态物体等)观察到地图建立完成后,返终端中查看cartographer算法是否运行完成,建图完成后切勿中断该脚本!调试人员和无人车保持1m距离以上,将遥控器调至自动模式,无人车即可朝目标点移动,最终在目标点位置停止。下图所示,则保存地图成功。

2025-07-19 00:00:47 890

原创 JD-500!3D iTOF工业相机!一键测量物体体积!操作简单!精度高!

主机电脑的IP地址需与相机保持在同一网段,JD-500的默认IP是192.168.31.3,将电脑ip修改成192.168.31.x即可。放好物体后,点击测量一次即可,体积以长宽高形式输出。盒子等常规物体误差在5mm左右,软包在10mm左右。红色框,同样手动框选,需在蓝色框内,且小于蓝框。注:标定时,框选范围内不可有物体,必须是空的。可切换为深度图/灰度图/RGB图。蓝色框,手动框选出整个测量区域。三 开启相机及显示模式。3.2 显示模式的切换。3.1 点击开启相机。4.2 标定工作区域。

2025-06-24 18:22:09 538

原创 一文梳理相机与激光雷达外参标定系统教程!

此时要使用E(左)、D(右)、S(上)、W(下)、Q(顺时针)、A(逆时针)进行调整,使点云与原物大致贴合,调整之后如图11所示。上述的${data}录制bag包路径,运行完毕,会在相应的文件夹下产生一个pdf文件件,里面有标定的结果和重投影误差(reprojection errors)!手持扫描仪HandBot-S1默认使用的是右目,在技术的指导下进行相关修改,使其可以录制符合要求的bag包,从而进行标定。完成了单目相机内参的标定,近期由于学习开发和发论文的需要,需要进行标定双目相机的内外参。

2025-06-23 15:34:39 864 1

原创 别重复造轮子!DriveBot-Q1:SLAM、建图、规划、避障实现“开箱即用”!

DriveBot-Q1智能无人车整车配置如图4所示,由高精度有源车载天线、IMU,Livox MID360激光雷达、工业级相机和双频工业路由器组成,定制适配的无人车底盘,搭建出一套完整的无人车硬件系统。DriveBot-Q1智能无人车是一款专为高校科研设计的多功能无人车,采用阿克曼车辆底盘,集成计算平台、车辆控制单元(VCU)、单线/多线激光雷达、单目相机、IMU和GNSS等硬件。DriveBot-Q1智能无人车所有传感器经过严格时间同步,支持点云建图、避障、激光定位、决策规划和控制等功能,实现自主导航。

2025-06-19 15:49:16 816

原创 JD-500!3D iTOF工业相机!室内室外使用!体积小!性价比高!0.2~5m测距

JD-500是一款基于3D iTOF(indirect Time-of-Flight)技术方案的工业相机产品,即传感器发出经调制的近红外光,遇物体后反射,传感器通过计算光线发射和反射的相位差,再转换成时间差,来换算被拍摄景物的距离,以产生深度信息。产品的技术方案可提供高精度(毫米级)的深度图和三维点云图 ,集成 RGB(选配)的JD-500相机 ,可以输出像素对齐的RGBD图像;(点云图、点云融合图)(点云图、点云融合图)(点云图、点云融合图)(点云图、点云融合图)(点云图、点云融合图)

2025-06-19 15:47:29 583

原创 KW-DCW!结构光3D相机!Linux C++版本SDK超好用教程!

这使得它成为一款强大的3D相机,特别适用于3D扫描、工业3D缺陷检测,并可与机器人在工业无序抓取、上下料等场景下无缝配合使用。的KW-DCW 3D相机为例,介绍在Ubuntu系统下使用C++ SDK采集数据的方法,对于其他型号的相机,KW-SCW、KW-LCW用法相同。我们对金属零配件进行了高动态下的成像测试,KW相机在高反光场景下表现非常出色,点云成像效果令人惊艳,展现了其卓越的成像性能。在bin文件目录下运行,打开gui。苏州三迪斯维智能科技有限公司。在C++文件夹目录下运行终端。

2025-06-05 11:50:08 363

原创 太酷啦!Fast-Livo2在HandBot-S1中运行成功!效果喜人!

大家好,我是jack,近期由于工作需要,公司采购了一套3D视觉工坊的,并在技术老师的指导下,编译并运行成功Fast-Livo2。HandBot-S1手持三维扫描仪。

2025-05-28 14:26:18 1018 1

原创 一骑绝尘!KW系列3D相机!精度高、体积小、价格低、SDK超好用、稳定性强!

苏州三迪斯维智能科技有限公司的KW系列3D相机采用主动结构光技术,拍摄速度快、成像精细、方案成熟稳定,针对不同应用场景物体可输出高质量点云数据图,精度高、速度快、环境自适应性强,适用于工件上下料、拆码垛、机器人视觉引导等多种应用场景。原文一骑绝尘!KW系列3D相机!精度高、体积小、价格低、SDK超好用、稳定性强!添加图片注释,不超过 140 字(可选)

2025-05-28 14:22:44 297 1

原创 在CloudCompare下如何将PLY点云数据转成深度图显示效果

调整properties中dispaly range的数值,点云本身深度区间最佳。下图是用苏州三迪斯维智能科技有限公司的。重建的硬币,本教程将用此素材做演示。将点云的颜色按照深度范围筛选后显示。演示素材已放至知识星球,需要自取。一 根据坐标系对点云着色。来源:计算机视觉工坊。

2025-05-20 19:02:53 359

原创 KW-DCW!3D相机Python版本SDK使用教程详解

这使得它成为一款强大的3D相机,特别适用于3D扫描、工业3D缺陷检测,并可与机器人在工业无序抓取、上下料等场景下无缝配合使用。本文以KW-DCW 3D相机为例,介绍如何使用Python SDK采集数据的两种方法,对于其他型号的相机,KW-SCW、KW-LCW用法相同。我们对金属零配件进行了高动态下的成像测试,KW相机在高反光场景下表现非常出色,点云成像效果令人惊艳,展现了其卓越的成像性能。1.2.1 安装KW-2.2-cp310-cp310-win_amd64.whl库。三 Python SDK使用方法。

2025-05-17 12:08:50 769

原创 一文搞懂ROS2 Nav2:概念解析和源码编译安装的踩坑总结

当我们执行到叶子节点时,也就是具体最终执行的动作,比如ComputePathToPose节点,就是规划机器人起点到终点的全局路径。PipelineSequence:也是行为树控制节点,可以有多个孩子,这里假设由两个孩子,左边的孩子是child1,右边的孩子是child2,如果child1执行成功,则会执行child2,如果child2返回RUNNING,则又会去执行child1,主要特点是在某个子节点返回 RUNNING 时,会重新触发之前的所有子节点。根据所选的命名法和算法,该路径也可以称为路线。

2025-05-13 12:09:19 2221

原创 windows下安装Python软件详细教程

Python安装完毕后,不但可以在Windows命令行(cmd) 使用交互模式,还可以使用安装程序自带的交互式开发工具IDLE。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。以上,由此可验证Python已经成功安装在windows电脑上。想要入门3D视觉、做项目、搞科研,想要入门3D视觉、做项目、搞科研,, 选择命令行提示符,并点击“

2025-05-12 19:12:05 428

原创 小白入门Kalibr标定实战

标定完毕,则会在相应的文件夹下产生一个pdf文件件,里面有标定的结果和重投影误差(reprojection errors)!本人3D视觉小白,目前研一,最近正在学习kalibr标定,正好课题组采购了一台3D视觉工坊出品的。综上,通过上述方法标定流程与HandBot-S1里的基本一致,由此验证标定方法应该是没问题的。标定板位置出现在相机视野的各个位置,采集中避免了快速移动或者抖动相机,防止产生模糊图像。根据客服推荐的标定板图纸,我打印了一份雪弗板,平面度肉眼看着还行。想要入门3D视觉、做项目、搞科研,

2025-05-04 20:31:12 1109

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 1077

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 581

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 632

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 577

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 861

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 755

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 811

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 1041

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 642

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 875

原创 SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存在一定的时间开销,未来我们将尝试引入更高效的表示结构或增量式优化策略,朝着近实时编辑的方向推进。

2025-05-02 22:46:46 774

原创 SLAM和基于Learning的AI技术的核心区别是什么?

添加小助理:cv3d001,备注:方向+单位+昵称,拉你入群。3D视觉工坊很荣幸诚邀到了香港科技大学袁子康博士来分享他的工作。欢迎加入3D视觉从入门到精通知识星球,一起学习进步!3D视觉学习路线:www.3dcver.com。「3D视觉从入门到精通」知识星球。入门3D视觉、做项目、搞科研,3D视觉从入门到精通知识星球。3D视觉系列视频近20+门。论文辅导&招募辅导老师。求职招聘&面经&面试题。

2025-04-04 00:01:38 317

原创 一文带你了解工业相机和镜头参数和选型

点击下方卡片,关注「计算机视觉工坊」公众号选择星标,干货第一时间送达作者:小柠檬 | 审核:小凡 | 编辑:计算机视觉工坊添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优...

2025-02-22 00:02:08 2058

原创 简单但有效!精度暴涨98%!华科开源MINIMA:通用图像匹配!兼容稀疏、半稠密、稠密!

本文提出了一个名为MINIMA的统一匹配框架,适用于任何跨模态情况。这是通过使用有效的数据引擎填补数据鸿沟来实现的,该引擎可以自由地将廉价的RGB数据扩展到大型多模态数据。构建的MD-syn数据集包含了丰富的场景和精确的匹配标签,并支持任何先进匹配模型的训练,显著提高了在未见跨模态情况下的跨模态性能和零样本能力。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

2025-02-11 18:03:42 1015

原创 超强泛化性!北大&智元机器人开源OmniManip:通用机器人操作

在这项工作中,我们提出了一种新颖的以对象为中心的中间表示,有效地填补了VLM和机器人操作所需的精确空间推理之间的差距。我们将交互原语结构化为对象规范空间,以将高级语义推理转化为可操作的3D空间约束。所提出的双闭环系统确保了稳健的决策和执行,而无需对VLM进行微调。我们的方法在各种操作任务中表现出强大的零样本泛化能力,突显了其自动化机器人数据生成和提高机器人系统在非结构化环境中的效率的潜力。这项工作为未来对可扩展、开放词汇的机器人操作的重新探索提供了有前途的基础。局限性。

2025-02-11 18:02:11 755

原创 兼容一切机器人!The One RING:机器人室内导航通才!具身智能新突破!

本文中,我们介绍了RINGi(RoboticIndoorNavigation Generalist),这是一种无实例依赖的策略,仅在模拟中训练,使用多种随机初始化的大规模实例(100万个实例)。RING显示了对各种未见过的实例的零样本泛化能力,在所有实例中保持一致的性能。我们的实验结果表明,RING在新实例上达到了最先进的水平,在某些情况下甚至优于实例特定策略。尽管仅在模拟中训练,但它可以直接部署到现实世界中。最后,RING能够根据其实施方式和与环境的交互动态调整其行为。

2025-02-11 17:59:36 1058

原创 排名第一!NVIDIA全新开源FoundationStereo:万能立体匹配!

我们引入了FoundationStereo,这是一个用于立体深度估计的基础模型,能够在无需微调的情况下在各种领域实现强大的零样本泛化。我们设想这样的基础模型将促进立体估计模型在实际应用中的更广泛采用。尽管其泛化能力显著,但我们的方法并非没有局限性。首先,我们的模型尚未针对效率进行优化,在NVIDIA A100 GPU上对大小为375 x1242的图像进行计算需要0.7秒。未来的工作可以探索将蒸馏和剪枝技术应用于其他视觉基础模型。其次,我们的数据集FSD包含有限的透明对象集合。

2025-02-11 17:58:51 1434

原创 首次超越SOTA神经辐射场!南加大新作DBS:仅使用45%参数打造最优3D GS!

我们提出了可变形贝塔插值(DBS)方法,这是一种通过三个关键创新来推进实时光场渲染的新方法:自适应几何表示的可变形贝塔内核、高效的视向依赖色彩编码的球形贝塔以及仅依赖正则化不透明度来提高优化稳定性和效率的MCMC内核无关方法。这些创新使得DBS能够以比先前方法更少的内存和计算资源实现卓越的视觉质量。局限性。由于我们的框架是基于光栅化的,因此在排序过程中,由于深度近似不准确,偶尔会产生“弹跳效果。虽然自适应,但球形贝塔函数难以有效建模镜面反射和各向异性的镜面高光。

2025-02-11 17:57:46 379

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除