- 博客(51)
- 收藏
- 关注
原创 ICCV 2025 |具身智能认知进化全路径!智能体在语义理解、泛化推理和适应开放世界上实现质的飞跃-研梦非凡
如何构建一个真正具有认知鲁棒性的智能体?它不仅要“看得见”,更要“看得懂”,还要“持续学”
2025-11-04 10:17:55
1390
原创 具身智能突破数据瓶颈:从53%成功率到3倍推理速度的实战进展-研梦非凡
当机器人能够真正理解细粒度指令、适应多样环境、高效推理并统一规划与执行时,我们离通用具身智能的真正实现就更近了一步。
2025-11-03 15:15:38
854
原创 QUAR-VLA:四足机器人视觉-语言-动作统一模型,让机器狗“听懂人话”,自主完成复杂任务-研梦非凡
当机器狗不再是只会重复固定动作的“玩具”,而是开始具备理解、推理和适应的初级智能,从只能执行预设动作,到能“听懂人话”、自主决策,四足机器人的进化之路,正是具身智能发展的一个缩影。
2025-10-30 10:31:47
861
原创 ICML 2025 | 中科院 & 清华提出 KAN-AD:重构 KAN 架构,傅里叶级数赋能时间序列异常检测-研梦非凡
"大道至简"比"叠积木"更有效!KAN-AD用傅里叶级数给KAN换个"发动机",在精度、效率、鲁棒性上实现了全面突破
2025-10-29 10:27:09
1006
原创 VoxAct-B:基于体素的动作和稳定的双臂操作策略-研梦非凡
VoxAct-B是一个基于体素的,语言条件的双臂操作方法。我们使用vlm来关注场景中最重要的区域,并在它们周围重建体素网格。这种方法使策略能够在减少的物理空间内处理相同数量的体素,从而产生精确、细粒度双臂操作所需的更高的体素分辨率。
2025-10-28 10:18:59
1315
原创 CoRL‘25最佳论文 | 通研院&宇树UniFP:软硬件解耦新思路,为具身智能开启“无感”交互时代!-研梦非凡
“软硬件解耦”思路,为机器人领域提供了一个通用、低成本且高效的力位混合控制框架
2025-10-24 10:28:33
1194
原创 IF 18.6!CCF-A类双1区TOP顶刊TPAMI迎扩刊期,AI+医学真香~
CCF-A类人工智能王牌顶刊!IF=18.6稳居JCR/中科院双1区TOP,扩刊黄金期!AI+医学可投
2025-10-22 10:34:57
736
原创 ACT:通过低成本的硬件学习细粒度的双臂操作-研梦非凡
我们提出一个低成本的精细操作系统,包括一个遥操作系统ALOHA和一个新颖的模仿学习算法ACT
2025-10-21 10:36:41
510
原创 【CVPR】ZSVG3D:使用视觉编程进行零样本开放词汇3D视觉标定-研梦非凡
在本文中,我们为3DVG提出了一种新型的零样本方法,以消除对广泛注释和预定词汇的需求
2025-10-20 11:56:13
706
原创 CVPR 2025|SeeGround:通过看再标定进行零样本的开放词汇3D视觉标定-研梦非凡
在本文中,我们展示了SeeGround,这是一个零样本3D视觉标定的新型框架,它弥合了3D数据和2D VLM输入之间的差距
2025-10-17 10:34:15
1018
原创 Think-Program-reCtify:使用大语言模型进行3D情景推理-研梦非凡
本文提出了用于 3D 情境推理 (3DSR) 任务的 LLM-TPC
2025-10-16 14:43:41
614
原创 Agent3D-Zero:用于零样本3D理解的代理-研梦非凡
Agent3D-Zero是一个开创性的框架,该框架利用了视觉模型在3D环境中进行零样本的理解和交互
2025-10-15 11:30:17
767
原创 π0:通用机器人控制的视觉-语言-动作流模型-研梦非凡
在本文中,我们提出了一个原型模型和学习框架,我们称为π0,该框架说明了如何解决这三个瓶颈中的每一个。
2025-10-13 10:19:58
989
原创 Hi Robot:使用视觉-语言-动作模型跟随开放式指令-研梦非凡
Hi Robot是一个在分层结构中使用视觉语言模型(vlm)的系统,首先对复杂的提示、用户反馈和语言交互进行推理,以推断出完成任务的最合适的下一步,然后通过直接输出低级动作命令来执行该步骤。
2025-10-11 11:13:59
1063
原创 ShapeLLM: 用于具身交互的全面3D物体理解
本文介绍了ShapeLLM,这是第一个用于体现互动的3D MLLM,在可普遍的识别和互动理解中表现出色。
2025-10-09 10:46:11
469
原创 IEEE Trans新晋中科院JCR双1区TOP刊!审稿快,5-8个月录用,通信工程与AI+可投
《IEEE Transactions on Cognitive Communications and Networking》作为认知通信与网络领域的顶级期刊,影响因子不断上升,审稿周期合理,对国内学者高度友好态度。该刊覆盖的研究领域广泛,特别是近年来热门的人工智能、机器学习和大模型在通信中的应用等方向,是通信与网络领域研究人员的优秀选择。
2025-09-26 10:36:34
1959
原创 ICML 2025|UncertainSAM:分割一切模型快速高效的不确定性量化
提出新框架,量化SAM不确定性,设计近似法,引入USAM,构建高效UQ方法
2025-09-25 10:57:43
899
原创 IEEE Trans系列CCF-B类顶刊稳居中科院1区TOP,发文量飙升,最快5个月录用,AI+神经网络可投
期刊名字:《IEEE Transactions on Neural Networks and Learning Systems》期刊ISSN:2162-237XGold OA文章占比:4.48%研究类文章占比:100%官网地址:https://ieeexplore.ieee.org/xpl/mostRecentIssue.jsp?《IEEE Transactions on Neural Networks and Learning Systems》拥有着中科院1区TOP、JCR Q1区。
2025-09-24 10:08:46
2673
原创 ICML 2025|图像如何与激光雷达对齐并互补?迈向协调的多模态3D全景分割
基于激光雷达的3D全景分割常常受限于激光雷达传感器数据固有的稀疏性,这使得准确识别远距离或小物体颇具挑战。最近,一些研究试图通过将激光雷达输入与相机图像相结合来克服这一挑战,利用后者提供的丰富且密集的纹理信息。尽管这些方法已取得有前景的成果,但它们仍面临诸如数据增强过程中的不对齐以及对后处理步骤的依赖等挑战。为解决这些问题,作者提出了Image - Assists - LiDAR(IAL),这是一种新颖的多模态3D全景分割框架。
2025-09-19 10:30:34
642
原创 ICML 2025|GAPrompt:用于3D视觉模型的几何感知点云提示
作者引入了几何感知点云提示(GAPrompt),这是一种专门针对预训练3D视觉模型的参数高效微调方法。作者发现捕捉特定实例的形状特征是增强提示几何感知的有效方法。为捕捉和利用点云中固有的几何线索,作者开发了点提示、点移位提示器和提示传播机制,极大地提升了提示的表示能力。作者的方法优于其他当前最先进的参数高效微调方法,并显著减少了可训练参数。
2025-09-18 11:40:35
817
原创 ICCV 2025|HUG:用于大规模航拍场景的基于块重建的分层城市高斯溅射
作者提出了HUG,这是一种新颖的分层城市高斯溅射方法,旨在高质量地重建和渲染大规模航拍城市场景。
2025-09-17 10:39:20
1137
原创 ICCV 2025|GeoProg3D:面向城市尺度3D语言场的组合式视觉推理
作者引入了GeoProg3D,这是一个新颖的视觉编程框架,通过自然语言查询实现人与城市规模三维场景的人机交互。作者还提供了GeoEval3D用于对三维场景理解模型进行基准测试。作者的实验表明,GeoProg3D在五个视觉地理任务中显著提高了准确性。
2025-09-16 10:30:50
1079
原创 ICCV 2025|联合扩散变换器:利用扩散变换器增强RGB - 深度联合建模
JointDiT建模RGB与深度联合分布,凭两技术获优效可多生成任务。
2025-09-15 13:42:20
822
原创 ICCV 2025|从粗到细:用于高效3D高斯溅射的可学习离散小波变换
小波变换赋能 AutoOpti3DGS:提升 3D 高斯溅射稀疏性,适配资源受限硬件
2025-09-12 11:14:57
1098
原创 ICCV 2025|基于高效脉冲点Mamba的点云分析
受生物启发的脉冲神经网络(SNN)为提取3D时空特征提供了一种节能的方式。然而,现有的3D SNN在处理长距离依赖关系时一直存在困难,直到最近Mamba的出现,它具有卓越的计算效率和序列建模能力。在这项工作中,作者提出了脉冲点云Mamba(SPM),这是3D领域中第一个基于Mamba的SNN。由于简单地将Mamba转移到3D SNN上性能不佳,SPM旨在同时利用Mamba的序列建模能力和SNN的时间特征提取能力。
2025-09-11 11:05:51
948
原创 ICCV 2025|基于曲线感知高斯溅射的3D参数曲线重建
本文提出了一种端到端的框架,可直接从多视图边缘图重建3D参数曲线。与现有的两阶段方法不同,后者采用“边缘点云重建与参数曲线拟合”的顺序流程,而作者的单阶段方法直接从2D边缘图优化3D参数曲线,消除了因不连续阶段之间固有的优化差距而导致的误差累积。然而,参数曲线本质上不太适合基于渲染的多视图优化,因此需要一种互补的表示方式,既能保留其几何特性,又能实现可微渲染。作者提出了一种新颖的参数曲线与面向边缘的高斯分量之间的双向耦合机制。
2025-09-10 10:26:18
1039
原创 ICCV 2025|基于贝塞尔曲线高斯溅射的动态城市场景重建
街道场景真实感重建对自动驾驶真实世界模拟器开发意义重大。现有多数方法依赖物体位姿标注重建并移动动态物体,因需高精度标注,难以实现大规模场景重建。为此,作者提出贝塞尔曲线高斯溅射(BézierGS)方法,以可学习贝塞尔曲线表示动态物体运动轨迹,充分利用时间信息,还能通过可学习曲线建模自动校正位姿误差。同时,通过对动态物体渲染和曲线间一致性约束引入额外监督,实现场景元素合理准确分离与重建。在Waymo开放数据集和nuPlan基准测试中,该方法在动态、静态场景组件重建及新视图合成上,均优于当前最先进方法。
2025-09-09 10:58:21
1024
原创 CVPR 2025|基于视觉语言模型的零样本3D视觉定位
3D视觉定位(3DVG)可助力增强现实、机器人技术等应用,但现有方法依赖带标记3D数据与预定义类别,在开放世界扩展性受限。作者提出零样本3DVG框架SeeGround,借助2D视觉-语言模型(VLM)规避特定3D训练需求。其通过混合输入格式弥合模态差距,含视角适应模块(依查询选最佳视角)与融合对齐模块(整合视觉和空间信号)。在ScanRefer和Nr3D上评估显示,SeeGround较现有零样本基线分别提升7.7%、7.1%,甚至可媲美全监督方法,泛化能力强。
2025-09-08 10:52:54
1547
原创 CVPR 2025|无类别词汇的视觉-语言模型少样本学习
视觉语言模型(VLM)的少样本适配能力虽有显著提升,但现有方法多依赖精心设计的特定任务提示及预定义类别名称,在类别名称不可用或难指定时适用性受限。为此,研究者提出适用于VLM的无词汇表少样本学习方法,在仅能获取目标类别图像、无对应名称的场景下发挥作用。其中的相似度映射(SiM)方法,无需手工制作提示,通过计算目标实例与通用提示的相似度得分实现分类。该方法不仅概念简洁、性能强劲、计算高效(学习映射耗时不足一秒),还具备可解释性,被认为可作为未来该领域研究的重要基线。
2025-09-05 10:25:48
790
原创 CVPR 2025|从单张图像实现野外环境下的3D平面重建
单张图像3D平面重建是3D计算机视觉的重要难题,以往SOTA方法因单数据集训练(室内或室外)泛化性受限。本文提出ZeroPlane框架,以Transformer为基础实现零样本3D平面检测与重建。作者构建含14+数据集、56万标注的大规模基准数据集,解耦平面表示并采用特定范式学习,还优化骨干网络与嵌入模块。实验表明,该方法在多零样本数据集上,尤其实际场景中,精度与泛化性均超以往。
2025-09-04 10:19:47
720
原创 CVPR 2025|基于粗略边界框监督的3D实例分割
在这项工作中,作者提出了一种基于查询的弱监督3D实例分割框架Sketchy - 3DIS,它比现有的边界框监督方法更鲁棒、更有效。Sketchy - 3DIS从粗略边界框自适应地生成伪逐点标签,并以由粗到精的方式预测实例。在ScanNetV2和S3DIS基准测试上的大量实验表明,作者的方法取得了领先的性能,甚至超过了一些全监督方法。然而,作者的探索性实验表明,当注释的粗略边界框极其不准确时,作者方法的性能会严重下降,对这个问题的探索可能是未来的研究方向。
2025-09-03 10:13:11
748
原创 CVPR 2025|语义绘制:迈向基于图像扩散模型的实时交互式内容创作
本文介绍交互式内容创作新范式SemanticDraw,能依多手绘语义区域近实时生成高质量图像。针对现有区域可控性方法慢且不兼容加速方法的问题,通过建立区域控制与扩散模型加速技术兼容性、设计多提示流批处理管道,实现亚秒级生成,可推广至多种扩散模型与加速调度器。
2025-09-02 16:59:04
1039
原创 CVPR 2025|基于零样本开放词汇的3D视觉定位:观察与定位
本文针对3D视觉定位(3DVG)任务中传统方法依赖标注数据、泛化能力有限的问题,提出了SeeGround——一种零样本框架,利用在大规模2D数据上预训练的视觉语言模型(VLM),实现无需3D标注的物体定位。该方法通过将3D场景表示为多视角渲染图像和空间文本描述的混合表示,并引入视角适应模块动态选择相关视角,以及融合对齐模块整合视觉与空间信息,显著提升了定位能力。在ScanRefer和Nr3D数据集上的实验表明,SeeGround大幅超越现有零样本方法,甚至优于部分全监督模型,在两项基准上分别比之前最优零样本
2025-08-29 16:02:15
706
原创 CVPR|基于点Mamba适配器实现高效参数化的点云理解
在3D感知领域,预训练模型辅助点云理解已成主流,但现有策略仅用模型最终输出,忽略中间层互补信息,未充分释放模型潜力。为此,作者提出点Mamba适配器(PMA),从预训练模型所有层构建有序特征序列,借Mamba融合互补语义,助力全面点云理解。因3D空间各向同性,构建有序序列难度大,作者又提出跨层共享的几何约束门提示生成器(G2PG),将共享几何约束应用于Mamba输出门,动态优化空间顺序,实现高效多层信息整合。多数据集、多任务实验显示,PMA通过融合多样互补中间特征,大幅提升点云理解能力。
2025-08-28 10:30:33
826
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅