- 博客(5531)
- 资源 (35)
- 收藏
- 关注
转载 研一学渣,冲刺ICRA!
3D视觉和机器人SLAM正迎来其发展的黄金时代,CVPR、RAL、ICRA和IROS等作为此领域的顶会顶刊,汇集了全球顶尖的学者和创新思维,推动了3D视觉技术的快速落地。为此,我们邀请到了3D视觉领域的多位学术大牛,为有需要的小伙伴进行。添加微信:cv3d001,或电话:13451707958,咨询更多。从热门领域出发,提升论文中稿率,直至拿下顶会!方向:SLAM|三维重建3DGS。方向:6D位姿估计、三维点云。方向:大语言模型、具身智能等。方向:三维重建-结构光。方向:CV/NLP等。
2025-06-11 07:01:35
19
转载 近期SLAM佳作赏析
本篇论文提出了一种名为HS-SLAM的快速视觉-惯性SLAM框架,结合了直接法和基于特征的方法的优点,以提高计算效率而不降低性能。本篇论文提出了首个基于3D高斯的大规模RGB-D SLAM框架VPGS-SLAM,通过体素化渐进式3D高斯表示和2D-3D融合相机跟踪方法,实现了室内外场景的高效重建和位姿估计。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。HS-SLAM:基于混合策略的高效视觉-惯性SLAM框架。想要入门3D视觉、做项目、搞科研,
2025-06-11 07:01:35
16
转载 手撕代码!ROS中断以后如何快速恢复并继续运行?
在机器人系统中,灾难性恢复(Disaster Recovery,DR)指的是在发生系统故障、网络中断、硬件损坏或其他突发事件时,系统能够快速恢复并继续运行。然而,当系统发生重大故障时,如何设计有效的灾难性恢复方案,确保系统在失效后能够快速恢复,并减少服务中断时间,是一个重要的研究课题。例如,在ROS2节点发生故障时,系统能够检测到节点不可用,并通过其他节点接管任务,机器人继续执行原定的任务,避免了任务的中断。通过恢复的日志可以看到,系统在备份和恢复的过程中没有丢失关键数据,确保数据的一致性。
2025-06-10 07:03:30
84
转载 工业缺陷检测如何选择合适的算法
等工业难点,并给出相应的案例解决方案。本课程答疑主要在本课程对应的鹅圈子中答疑,学员学习过程中,有任何问题,可以随时在鹅圈子中提问。以及各种工业算法中的评价指标和CV大模型在工业场景中的简单应用,拓展丰富大家做项目的思路。本课程主要针对当前工业缺陷检测过程的中的难点进行分析、给出相应的解决方案。本课程重点分析讲解工业领域的难点,包括了。使用机器视觉落地工业缺陷检测项目的学员。对工业检测算法的应用有较为深刻的认识;独立解决工业缺陷检测中场景的难点;收获一套完整的工业缺陷检测算法;(10张训练数据集)
2025-06-09 07:01:22
26
转载 刚入门结构光,如何快速搭建一套结构光3D相机?
目前主流结构光技术有:散斑结构光(机器人导航)、线结构光(视觉测量)、面结构光技术(机械臂抓取等快速测量场景)。我们推出了“精讯V2”设备,是一台面相科研级的高速、高精度、源码级开发的3d面结构光测量设备,能够自由DIY配置,并且与机械臂等结合,开发相应的应用。可以结合OpenCV部署各类AI应用,如6d姿态抓取等,结合我们工坊推出课程,可以完成大多数3d视觉领域的任务。更方便、高精度的单目标定/重建算法,只需要单方向条纹,即可完成标定、重建、畸变矫正。单目重建:标定、重建、畸变校正、点云显示。
2025-06-09 07:01:22
46
转载 CVPR‘25最佳论文候选!谷歌革新SfM!MegaSaM:相机姿态和深度估计更快!更准!更鲁棒!
此外,我们分析了视频中结构和相机参数的可观测性,并引入了一种不确定性感知的全局BA方案,当相机参数受到输入视频的约束较差时,该方案可以提高系统的稳健性。在合成和真实世界数据集上的广泛评估表明,我们的系统在相机和深度估计的准确性方面显著优于先前的和同期的方法,同时实现了具有竞争力或更优的运行时性能。:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
2025-06-07 00:02:24
124
转载 2025年中国高阶智驾:最新技术洞察
三是生态合作趋势凸显,车企与科技公司(如小米与Mobileye)、供应链企业(如地平线与博世)深度联动,推动芯片、算法、硬件协同创新。报告还指出,行业正从“功能堆砌”转向“体验深耕”,城市领航辅助、人机共驾交互等场景成为竞争焦点,但规模化落地仍需突破成本控制、法规适配等瓶颈。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。
2025-06-07 00:02:24
95
转载 人工智能三巨头联袂推荐,这本经典巨著出中文版了!
在网络模型方面,从单层网络逐步深入多层网络、深度神经网络,详细讲解其结构、功能、优化方法及其在分类、回归等任务中的应用,同时涵盖卷积网络、Transformer等前沿架构及其在计算机视觉、自然语言处理等领域的独特作用。,帮助深度学习的新手及有经验的从业者全面理解支撑深度学习的基础理论,以及现代深度学习架构和技术的关键概念,为读者未来在专业领域的深造打下坚实的基础。如果你读过PRML,读本书时肯定会觉得似曾相识,它们的结构其实非常接近,你可以理解为作者用这十多年来领域的新进展重塑了PRML,就得到了本书。
2025-06-07 00:02:24
1141
转载 CVPR‘25 | 告别繁琐标注!只需粗略框注,3D实例分割也能超越全监督!
具体来说,我们首先提出了一种自适应的框到点伪标签生成器,能够自适应地将位于两个粗略边界框重叠区域的点正确分配到对应的实例,从而生成紧凑且纯净的伪实例标签。然而,我们的实验也表明,当标注的草绘边界框极度不准确时,方法性能会显著下降,对该问题的进一步探索可能成为未来的研究方向。然后,方法会根据这些粗略的框,自适应地生成“伪标签”——也就是给每个点分配一个可能的类别标签(伪的,因为不是人工精确标注的),这一步相当于是给模型一个大致的参考。不过,如果草绘边界框太不准确,伪标签就不可靠,模型性能就会大幅下降。
2025-06-07 00:02:24
73
转载 CVPR‘25 | 告别繁琐标注!只需粗略框注,3D实例分割也能超越全监督!
具体来说,我们首先提出了一种自适应的框到点伪标签生成器,能够自适应地将位于两个粗略边界框重叠区域的点正确分配到对应的实例,从而生成紧凑且纯净的伪实例标签。然而,我们的实验也表明,当标注的草绘边界框极度不准确时,方法性能会显著下降,对该问题的进一步探索可能成为未来的研究方向。然后,方法会根据这些粗略的框,自适应地生成“伪标签”——也就是给每个点分配一个可能的类别标签(伪的,因为不是人工精确标注的),这一步相当于是给模型一个大致的参考。不过,如果草绘边界框太不准确,伪标签就不可靠,模型性能就会大幅下降。
2025-06-07 00:02:24
29
转载 CVPR‘25 | 告别繁琐标注!只需粗略框注,3D实例分割也能超越全监督!
具体来说,我们首先提出了一种自适应的框到点伪标签生成器,能够自适应地将位于两个粗略边界框重叠区域的点正确分配到对应的实例,从而生成紧凑且纯净的伪实例标签。然而,我们的实验也表明,当标注的草绘边界框极度不准确时,方法性能会显著下降,对该问题的进一步探索可能成为未来的研究方向。然后,方法会根据这些粗略的框,自适应地生成“伪标签”——也就是给每个点分配一个可能的类别标签(伪的,因为不是人工精确标注的),这一步相当于是给模型一个大致的参考。不过,如果草绘边界框太不准确,伪标签就不可靠,模型性能就会大幅下降。
2025-06-07 00:02:24
9
转载 CVPR‘25最佳论文候选!谷歌革新SfM!MegaSaM:相机姿态和深度估计更快!更准!更鲁棒!
此外,我们分析了视频中结构和相机参数的可观测性,并引入了一种不确定性感知的全局BA方案,当相机参数受到输入视频的约束较差时,该方案可以提高系统的稳健性。在合成和真实世界数据集上的广泛评估表明,我们的系统在相机和深度估计的准确性方面显著优于先前的和同期的方法,同时实现了具有竞争力或更优的运行时性能。:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
2025-06-07 00:02:24
22
转载 谷歌新作LODGE:大规模3D GS新SOTA!手机都跑得动!
我们的方法在室外(分层3DGS)和室内(Zip-NeRF)数据集上都达到了最先进的性能,提供了高质量的渲染,减少了延迟和内存需求。尽管已有研究尝试将LOD策略引入大规模场景的3DGS,但其主要聚焦于提升渲染速度,而未对GPU内存加载的高斯基元数量进行限制,这在小型设备上仍构成挑战。与现有基于LOD的方法类似,我们采用多细节层次的高斯基元集合表征场景。• 提出一种新型3DGS细节层次表征方法,与已有方案不同,该方法无需每帧重新计算使用的高斯基元列表,通过加速和压缩处理,甚至可在移动设备上实现大规模场景渲染。
2025-06-06 07:02:26
85
转载 上海人工智能实验室开源 | 打通自动驾驶最后一公里!Nexus突破边缘场景生成
来自上海人工智能实验室OpenDriveLab,上海交通大学计算机系在读博士,吴文俊人工智能荣誉班成员。已以第一作者身份发表8篇CCF-A顶级期刊和会议论文,包括TPAMI,CVPR,NeurIPS等。:3D视觉工坊很荣幸邀请到上海交通大学电子信息与电气工程学院计算机系在读博士。,为大家详细介绍他的工作。如果您有相关工作需要分享,欢迎文末联系我们。3D视觉工坊很荣幸邀请到上海交通大学计算机学院在读博士。,为大家详细介绍他的工作。扫码观看直播,或前往B站搜索3D视觉工坊观看直播。3D视觉工坊哔哩哔哩。
2025-06-06 07:02:26
44
转载 30~60K | 深圳留形科技招聘三维重建、SLAM、VLA、定位算法工程师等岗位
五险一金、周末双休及法定节假日、带薪年假、加班补贴、每年1-2次调薪机会、年终奖、项目奖、人才推荐奖、股权激励等。五险一金、周末双休及法定节假日、带薪年假、加班补贴、每年1-2次调薪机会、年终奖、项目奖、人才推荐奖、股权激励等。五险一金、周末双休及法定节假日、带薪年假、加班补贴、每年1-2次调薪机会、年终奖、项目奖、人才推荐奖、股权激励等。五险一金、周末双休及法定节假日、带薪年假、加班补贴、每年1-2次调薪机会、年终奖、项目奖、人才推荐奖、股权激励等。
2025-06-06 07:02:26
57
转载 尸骨累累的割草机器人赛道
二是,前些年,不少割草机器人厂商低估了其工程化和商业化落地的复杂度,包括产品研发、对草坪场景的理解等;其实,回望近年来的割草机器人赛道,从2022年前后安克和正浩关停该业务,到河森堡和邦鼓思的退场,再到近来较为业内人士所知的。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。关于割草机器人的量产投入,之前出过相关的内容,有部分。
2025-06-04 07:02:59
42
转载 IROS‘24开源 | 无人机引导无人机:微型飞行器在杂乱环境中的协同导航
在本文中,我们专注于将感知能力从能力较弱的无人机转移到具有卓越传感器和处理能力的更强大的制导无人机。所提出的方法在真实世界的实验中得到了验证,实验中使用了配备3D激光雷达的主无人机和配备微型相机的次无人机的异构流,它们在未知的混乱GNSS拒绝环境中自动移动,所提出的框架完全在无人机上运行。为了获得指导方法所必需的高精度相对定位,我们利用了基于激光雷达的相对定位,与[27中类似,但专注于一个异构的无人机团队,其中只有pUAV携带三维激光雷达,而最小的sUAV携带一个摄像头,为视觉惯性测距(VIO)提供数据。
2025-06-04 07:02:59
99
转载 IROS‘24开源 | 无人机引导无人机:微型飞行器在杂乱环境中的协同导航
在本文中,我们专注于将感知能力从能力较弱的无人机转移到具有卓越传感器和处理能力的更强大的制导无人机。所提出的方法在真实世界的实验中得到了验证,实验中使用了配备3D激光雷达的主无人机和配备微型相机的次无人机的异构流,它们在未知的混乱GNSS拒绝环境中自动移动,所提出的框架完全在无人机上运行。为了获得指导方法所必需的高精度相对定位,我们利用了基于激光雷达的相对定位,与[27中类似,但专注于一个异构的无人机团队,其中只有pUAV携带三维激光雷达,而最小的sUAV携带一个摄像头,为视觉惯性测距(VIO)提供数据。
2025-06-04 07:02:59
8
转载 机械臂抓取精度不达标?可能是你漏掉了这个6D位姿估计的技巧!
随着工业智能化改造的不断深入,许多企业智能化改造,逐渐将计算机视觉技术和机器人技术引入生产制造过程中,应用于生产线对物料校准和定位,将视觉系统作为机器人对外界环境感知的一种辅助定位系统,就像给工业机器人装上了眼睛,采集场景信息,由控制器进行处理、判断,进而完成对应的控制指令。机器人视觉抓取的目的是使用一个机械手模型(包括二指或多指夹爪,吸盘等),以RGB或RGBD相机采集的场景图像为输入计算出一个最优的抓取位姿,使机械手在该位姿下可以稳定地抓取模型已知或未知的物体。对机器人抓取的相关算法原理、
2025-06-03 07:01:18
54
转载 TRO重磅!无惧未知杂乱环境!机器人主动感知和规划新SOTA!
受这些发展的启发,本文提出了一种基于高效、快速深度学习的主动传感技术,用于带有手持摄像头的机器人操作器,以重建具有任意未知物体的狭窄、杂乱的环境。我们的框架主动从给定的视点收集视觉RGBD观察结果,将其注册到场景表示中,并从其部分观察结果中推断出未知的物体形状,以避免在场景重建过程中机器人与给定环境的不必要交互。1)基于3DCNN的评分函数,该函数基于过去的观察和视点候选进行场景表示,以预测可能的场景覆盖范围,从而指导视点规划,防止与给定环境的不必要的机器人交互。想要入门3D视觉、做项目、搞科研,
2025-06-03 07:01:18
56
转载 DepthAnythingV2精度再次暴涨!BriGeS:融合几何和语义信息,打造SOTA单目深度估计!
我们提出了桥接几何和语义(Bridging Geometric and Semantic,BriGeS),一种有效的方法,融合基础模型中的几何和语义信息来增强单目深度估计(MDE)。在多个具有挑战性的数据集上进行的大量实验表明,对于复杂场景,BriGeS优于MDE中最先进的方法,可以有效地处理复杂的结构和重叠的对象。此外,我们的注意温度缩放技术确保了在不同的输入注意分配的平衡。为在资源受限的训练环境下实现深度特征与语义特征的融合,我们设计了桥接门控机制,该机制直接融合来自深度基础模型和分割基础模型的特征。
2025-06-03 07:01:18
93
转载 VLA/VLM在具身智能中的应用:近期佳作赏析
大量实验表明,VLAS能成功执行多样化语音指令的机器人操控任务,提供无缝的定制化交互体验。我们提出Being-0分层代理框架,通过轻量级视觉语言模型(VLM)驱动的连接器模块,将基础模型的语言规划转化为可执行技能指令,并动态协调运动与操作。本文提出将预训练VLA模型泛化至移动操作任务的高效策略迁移框架:先通过固定基座VLA模型预测末端路径点,再生成满足最大物理可行性的移动基座与机械臂轨迹。这些组件使Being-0能有效控制配备多指手部与主动视觉的全尺寸人形机器人,在真实环境中完成复杂的长周期具身任务。
2025-06-02 00:03:08
35
转载 CVPR‘25 Highlight | 牛津新作CUPS:以场景为中心的无监督全景分割!精度暴涨9.4!
迄今为止唯一的方法——U2Seg——通过在CutLER的基础上构建,结合了精炼的MaskCut和STEGO进行全景伪标记和训练全景分割网络,证明了这项任务的可行性。利用伪标签训练和全景自训练策略相结合的方法,作者提出了一种新颖的无监督全景分割方法,该方法能够准确预测复杂场景的全景分割,而无需任何人工标注。对于以场景为中心的图像,MaskCut关注的是语义相关性高的区域,而不是实例,这反映在MaskCut和实例标签的掩码精度(在50% IoU阈值下)分别为6.5%和59.6%。
2025-06-01 00:01:18
63
转载 CVPR‘25 | 无需深度信息!RefPose引领3D物体姿态估计新时代!
不同于依赖预定义物体模型的传统方法,RefPose通过利用参考图像和几何对应关系,实现了对新物体形状的动态适应,从而在之前未见过的物体上表现出强大的鲁棒性。随后利用相关体积引导的注意力机制辅助几何估计。利用预先渲染的多个模板(即不同角度和姿态的物体图像)从中选择几个最匹配的模板,然后通过基于中位数的投票机制(medoid-based voting)来估计物体的初始姿态。结合上述估计的几何信息,采用渲染和实际图像对比的方式,迭代地细化姿态,逐步提升姿态估计的精度,直到得到最终准确的6D物体姿态。
2025-05-31 00:02:33
78
转载 AI复活逝者,当庭开口作证,法官竟采纳,震惊全网!争议不断...
下面这段视频,不是佩尔基生前录制的,而是佩尔基的姐姐斯泰西·威尔士(Stacey Wales)、她的丈夫蒂姆和他们的朋友斯科特·延泽 (Scott Yenzer) 使用她编写的脚本,以及他在去世前几个月拍摄的“预先录制的采访”中的图像和音频文件制作了佩尔基的“数字 AI 肖像”,然后制作了佩尔基对于自己的死亡的声明。我信仰宽恕,也信仰宽恕众生的上帝。当主审此案的法官托德·朗 (Todd Lang) 看到受害者佩尔基的 AI 视频时,他非常动容,他没有按法庭的规矩用姓氏称呼死者,而是亲近地喊着佩尔基的名字。
2025-05-31 00:02:33
93
转载 端午特惠!3D视觉!保姆级从入门到进阶系统学习教程!
细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息、承接项目。3D视觉包含立体视觉、结构光和TOF,以立体视觉为主。目前已有6400+活跃成员,主要涉及方向:工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、大模型等科技前沿方向。
2025-05-31 00:02:33
81
转载 CVPR‘25 | 无需深度信息!RefPose引领3D物体姿态估计新时代!
不同于依赖预定义物体模型的传统方法,RefPose通过利用参考图像和几何对应关系,实现了对新物体形状的动态适应,从而在之前未见过的物体上表现出强大的鲁棒性。随后利用相关体积引导的注意力机制辅助几何估计。利用预先渲染的多个模板(即不同角度和姿态的物体图像)从中选择几个最匹配的模板,然后通过基于中位数的投票机制(medoid-based voting)来估计物体的初始姿态。结合上述估计的几何信息,采用渲染和实际图像对比的方式,迭代地细化姿态,逐步提升姿态估计的精度,直到得到最终准确的6D物体姿态。
2025-05-31 00:02:33
46
转载 CVPR‘25 | 无需深度信息!RefPose引领3D物体姿态估计新时代!
不同于依赖预定义物体模型的传统方法,RefPose通过利用参考图像和几何对应关系,实现了对新物体形状的动态适应,从而在之前未见过的物体上表现出强大的鲁棒性。随后利用相关体积引导的注意力机制辅助几何估计。利用预先渲染的多个模板(即不同角度和姿态的物体图像)从中选择几个最匹配的模板,然后通过基于中位数的投票机制(medoid-based voting)来估计物体的初始姿态。结合上述估计的几何信息,采用渲染和实际图像对比的方式,迭代地细化姿态,逐步提升姿态估计的精度,直到得到最终准确的6D物体姿态。
2025-05-31 00:02:33
41
转载 开源 & 兼容ROS!Hydra:无需标记的RGB-D手眼标定新方法!
仅使用三个随机选择的机械臂姿态,我们的方法即可实现约90%的标定成功率,在收敛至全局最优解方面,比现有的有标记和无标记基线方法高出2到3倍的成功率。相比传统依赖标记物或复杂初始化的技术,Hydra通过结合深度学习分割模型(如SAM 2)和基于李代数的ICP配准,在不使用标记的情况下,实现了更高效、更准确的手眼标定。这种分割方法能适应不同的机械臂和相机,提供统一的标定基础。实验中,提出的方法(Hydra)达到了大约3毫米的标定误差,这与EasyHeC++报告的精度相当,表明其标定结果具有较高的准确性。
2025-05-30 07:01:33
95
转载 关于提高自动驾驶中learning based planning上限的设想
从比较上层的视角来看,SFT是一个监督任务,模型能够泛化当前数据集及相似的数据上去,而假设用户假设输入了一些奇怪的东西,那模型根本就没见过,那泛化性就会比较差,因此我们可以理解SFT获得了训练数据的类似能力,且上限基本就在这里了。,这个模型的学习通常是使用优秀的人类司机的驾驶数据进行训练,获得一个可以根据当前主车的情况输出规划轨迹的模型,通常还是多条轨迹,然后选择一条最优的轨迹进行执行。,只靠模仿学习是完全不够的,还需要突破数据本身的上限,才能够产生“符合人类认知的驾驶行为”。
2025-05-30 07:01:33
36
转载 太酷啦!Fast-Livo2在HandBot-S1中运行成功!效果喜人!
为Fast-livo2的算法参数文件,包含了相机与激光雷达的外参,其中Rcl为旋转矩阵,Pcl为平移向量,我们将手持设备中的旋转和平移外参填写到此文件中即,如图所示。文件中的t_cl为手持设备的相机和激光雷达的外参,是一个3×4的矩阵,其中前面3×3为旋转矩阵,后面一列3×1为平移向量,如如所示。在运行Fast-Livo2之前,我先将自己设备中的相机的内参和外参写入到Fast-Livo2配置文件,来适配自己的硬件。,并在技术老师的指导下,编译并运行成功Fast-Livo2。
2025-05-27 07:06:55
74
转载 跟踪精度暴涨31.33%!重构无人机端到端轨迹规划
在轨迹质量方面,如下图所示,通过最小化snap(衡量飞行平顺性和能耗的指标),该方法的平均控制代价为21.16,显著优于MP规划器的97.65 ,表明其能生成更平滑、更节能的轨迹。该框架集成了一个基于深度学习的感知模块用于理解三维环境,一个可微分的最小化Snap轨迹优化器以确保轨迹的动态可行性与平滑性,一个利用三维成本地图进行自监督引导的机制,以及一个基于神经网络的时间分配策略以提升规划的效率和最优性,整个系统在一个双层优化的框架下进行端到端训练。将基于学习的深度感知模块与可微分的轨迹优化器相结合。
2025-05-27 07:06:55
412
转载 CVPR‘25+RSS‘25 | G3Flow与CordViP:生成式3D操作表征
深圳大学本科生,在CVPR、RSS、ACL等发表论文9篇,含CVPR Highlight,ECCV研讨会最佳论文等,曾获CCF优秀大学生、深大特奖“荔卓”与ACM-ICPC银牌等超20项国家级竞赛奖项。RSS'25 | CordViP:新颖的灵巧操纵学习框架,建立起被操纵物体与灵巧手之间的几何关联完成真实世界灵巧手操纵任务。CordViP第一作者,北京大学2025级硕士研究生,研究方向为机器人学习、具身智能、灵巧操纵。CVPR'25+RSS'25 | G3Flow与CordViP:生成式3D操作表征。
2025-05-27 07:06:55
28
转载 CVPR‘25+RSS‘25 | G3Flow与CordViP:生成式3D操作表征
深圳大学本科生,在CVPR、RSS、ACL等发表论文9篇,含CVPR Highlight,ECCV研讨会最佳论文等,曾获CCF优秀大学生、深大特奖“荔卓”与ACM-ICPC银牌等超20项国家级竞赛奖项。RSS'25 | CordViP:新颖的灵巧操纵学习框架,建立起被操纵物体与灵巧手之间的几何关联完成真实世界灵巧手操纵任务。CordViP第一作者,北京大学2025级硕士研究生,研究方向为机器人学习、具身智能、灵巧操纵。CVPR'25+RSS'25 | G3Flow与CordViP:生成式3D操作表征。
2025-05-27 07:06:55
27
转载 具身智能革命:Pre-家庭人形,扫地机器人如何重塑家庭服务未来
上,一台搭载仿生多关节机械手的追觅扫地机器人正演示着令人惊叹的场景:它绕过散落的玩具,夹起地板上的袜子放入收纳篮,随后调整拖布湿度对咖啡渍进行重点清洁。,不止能实现夹取,还能通过自动从配件仓取用毛刷或海绵,实现狭窄空间的清洁任务,为具身智能的未来和落地形态提出了极具可行性的全新解法。具身智能在扫地机器人领域的爆发,揭示了一个更深刻的产业规律:技术革命的成熟度,不取决于实验室指标,而在于找到商业与场景的共振点。但难度在于原有供应链的突破,因为面对不同物品的夹取,对机械臂的结构设计以及扭矩都提出了更高的要求。
2025-05-26 07:02:14
317
转载 效率提升10倍!不需提示,ForestSAM扛起无人机分割的大旗!
我们还调整了SAM的掩码解码器,使其能够生成与我们数据集类别相对应的掩码,从而实现无需人工提示的自动分割。在所有 PEFT 方法中,AdapterH(串行适配器)取得了最高的 mIoU,而 LoRA 虽然性能略低,但参数量仅为 AdapterH 的一半,因此在资源受限的无人机平台上,LoRA 更具部署效率。比较了不同 PEFT 方法在森林地面对象分割中的表现,发现 AdapterH 在精度和 mIoU 等指标上表现最好,而 LoRA 以更少的参数达到了接近的性能,显示其在边缘设备部署中的优势。
2025-05-26 07:02:14
91
转载 ICRA‘25获奖名单出炉!华人团队获最佳论文奖!机器人哪个领域才是未来?
为解决上述难题,研究团队吸收继承了传统的 shared autonomy 的思想,将数据采集和模型训练两个过程深度耦合,使得数据采集能够伴随着模型训练的推进,提出 Human-Agent Joint Learning(HAJL)框架通过创新“人-智能体联合学习”范式,应对机器人操作技能学习中高质量数据获取成本高、效率低的核心难题,与传统方法相比,数据收集成功率提高了30%,收集速度几乎翻倍,同时减少人类操作员的适应需求。在训练的开始阶段,研究者会收集少量的数据,并使用这些少量的数据开始进行模型的训练;
2025-05-26 07:02:14
169
转载 ICRA‘25获奖名单出炉!华人团队获最佳论文奖!机器人哪个领域才是未来?
为解决上述难题,研究团队吸收继承了传统的 shared autonomy 的思想,将数据采集和模型训练两个过程深度耦合,使得数据采集能够伴随着模型训练的推进,提出 Human-Agent Joint Learning(HAJL)框架通过创新“人-智能体联合学习”范式,应对机器人操作技能学习中高质量数据获取成本高、效率低的核心难题,与传统方法相比,数据收集成功率提高了30%,收集速度几乎翻倍,同时减少人类操作员的适应需求。在训练的开始阶段,研究者会收集少量的数据,并使用这些少量的数据开始进行模型的训练;
2025-05-26 07:02:14
102
转载 工业高精度检测或机械臂抓取,3D相机该如何选型?
出品的KW系列3D相机采用主动结构光技术,拍摄速度快、成像精细、方案成熟稳定,针对不同应用场景物体可输出高质量点云数据图,精度高、速度快、环境自适应性强,适用于工件上下料、拆码垛、机器人视觉引导等多种应用场景。除以上,本产品提供的SDK和使用教程较为完善,使用起来非常方便。KW-Lumos-W!KW-Lumos-W!2.5m远重建黑色箱子。二 KW系列3D相机参数汇总。KW系列3D相机重建效果展示。
2025-05-25 10:02:55
28
转载 ICRA‘25最佳论文!MAC-VO:基于学习的双目视觉里程计的度量感知协方差
与采用尺度无关对角协方差矩阵的DROID-SLAM相比,我们的方法通过建模三维特征点的协方差,提供了更精确的表征。与对协方差的尺度不可知的对角权重矩阵建模的基于学习的算法相比,我们设计了度量感知的协方差模型来捕获关键点配准期间的空间误差和不同轴之间的相关性。我们将上述两项创新集成到MAC-VO系统中,这是一种立体视觉里程计系统,其基于度量感知协方差模型实现卓越的关键点筛选与位姿图优化,并在具有挑战性的场景中,相比现有最先进的视觉里程计甚至部分SLAM系统,无需微调且无需多帧优化即可实现精准跟踪。
2025-05-25 10:02:55
55
socket通信技术
2018-01-23
GBK.h QT中显示中文
2018-01-18
socket通信界面程序
2018-01-24
粒子滤波在图像领域的跟踪
2018-04-25
PCL1.8.0+VS2013+Win10 x64的配置教程
2018-05-08
如何在Linux下使用“linuxdeployqt”源码打包发布Qt程序
2022-07-18
ubuntu下基于Clion+QT编写的界面demo,适合入门
2022-07-11
linux下TCP通讯助手
2022-06-30
本demo主要实现ubuntu下实现与PLC以及机械臂之间的TCP网络通讯,并将C++代码编译成可以供C函数直接调用的C库。
2022-06-22
Windows下TCP通讯实战demo及TCP助手
2022-06-03
Linux下的TCP通讯实战demo以及通讯助手下载
2022-06-03
UKF(无迹卡尔曼滤波)
2020-12-03
particle_filter_demo.zip
2020-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人