- 博客(573)
- 收藏
- 关注
原创 SLAM和基于Learning的AI技术的核心区别是什么?
添加小助理:cv3d001,备注:方向+单位+昵称,拉你入群。3D视觉工坊很荣幸诚邀到了香港科技大学袁子康博士来分享他的工作。欢迎加入3D视觉从入门到精通知识星球,一起学习进步!3D视觉学习路线:www.3dcver.com。「3D视觉从入门到精通」知识星球。入门3D视觉、做项目、搞科研,3D视觉从入门到精通知识星球。3D视觉系列视频近20+门。论文辅导&招募辅导老师。求职招聘&面经&面试题。
2025-04-04 00:01:38
171
原创 一文带你了解工业相机和镜头参数和选型
点击下方卡片,关注「计算机视觉工坊」公众号选择星标,干货第一时间送达作者:小柠檬 | 审核:小凡 | 编辑:计算机视觉工坊添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优...
2025-02-22 00:02:08
1355
原创 简单但有效!精度暴涨98%!华科开源MINIMA:通用图像匹配!兼容稀疏、半稠密、稠密!
本文提出了一个名为MINIMA的统一匹配框架,适用于任何跨模态情况。这是通过使用有效的数据引擎填补数据鸿沟来实现的,该引擎可以自由地将廉价的RGB数据扩展到大型多模态数据。构建的MD-syn数据集包含了丰富的场景和精确的匹配标签,并支持任何先进匹配模型的训练,显著提高了在未见跨模态情况下的跨模态性能和零样本能力。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-02-11 18:03:42
825
原创 超强泛化性!北大&智元机器人开源OmniManip:通用机器人操作
在这项工作中,我们提出了一种新颖的以对象为中心的中间表示,有效地填补了VLM和机器人操作所需的精确空间推理之间的差距。我们将交互原语结构化为对象规范空间,以将高级语义推理转化为可操作的3D空间约束。所提出的双闭环系统确保了稳健的决策和执行,而无需对VLM进行微调。我们的方法在各种操作任务中表现出强大的零样本泛化能力,突显了其自动化机器人数据生成和提高机器人系统在非结构化环境中的效率的潜力。这项工作为未来对可扩展、开放词汇的机器人操作的重新探索提供了有前途的基础。局限性。
2025-02-11 18:02:11
662
原创 兼容一切机器人!The One RING:机器人室内导航通才!具身智能新突破!
本文中,我们介绍了RINGi(RoboticIndoorNavigation Generalist),这是一种无实例依赖的策略,仅在模拟中训练,使用多种随机初始化的大规模实例(100万个实例)。RING显示了对各种未见过的实例的零样本泛化能力,在所有实例中保持一致的性能。我们的实验结果表明,RING在新实例上达到了最先进的水平,在某些情况下甚至优于实例特定策略。尽管仅在模拟中训练,但它可以直接部署到现实世界中。最后,RING能够根据其实施方式和与环境的交互动态调整其行为。
2025-02-11 17:59:36
934
原创 排名第一!NVIDIA全新开源FoundationStereo:万能立体匹配!
我们引入了FoundationStereo,这是一个用于立体深度估计的基础模型,能够在无需微调的情况下在各种领域实现强大的零样本泛化。我们设想这样的基础模型将促进立体估计模型在实际应用中的更广泛采用。尽管其泛化能力显著,但我们的方法并非没有局限性。首先,我们的模型尚未针对效率进行优化,在NVIDIA A100 GPU上对大小为375 x1242的图像进行计算需要0.7秒。未来的工作可以探索将蒸馏和剪枝技术应用于其他视觉基础模型。其次,我们的数据集FSD包含有限的透明对象集合。
2025-02-11 17:58:51
943
原创 首次超越SOTA神经辐射场!南加大新作DBS:仅使用45%参数打造最优3D GS!
我们提出了可变形贝塔插值(DBS)方法,这是一种通过三个关键创新来推进实时光场渲染的新方法:自适应几何表示的可变形贝塔内核、高效的视向依赖色彩编码的球形贝塔以及仅依赖正则化不透明度来提高优化稳定性和效率的MCMC内核无关方法。这些创新使得DBS能够以比先前方法更少的内存和计算资源实现卓越的视觉质量。局限性。由于我们的框架是基于光栅化的,因此在排序过程中,由于深度近似不准确,偶尔会产生“弹跳效果。虽然自适应,但球形贝塔函数难以有效建模镜面反射和各向异性的镜面高光。
2025-02-11 17:57:46
250
原创 摆脱SfM依赖!北大新作GP-GS:增强高斯分布的高斯过程
我们提出了GP-GS,这是一种新颖的框架,它通过解决稀疏结构从运动恢复(SfM)重建的局限性,增强了三维结构从运动恢复(3DGS)的初始化并提高了渲染质量。我们的方法利用多输出高斯过程(MOGP)将点云加密表述为一个连续回归问题,通过学习从二维图像像素和深度先验到三维位置和颜色的映射,自适应地对稀疏SfM点云进行加密。我们引入了一种基于自适应邻域的采样策略以实现结构化加密,并应用基于方差的滤波来去除高不确定性预测。
2025-02-11 17:57:05
832
原创 3D点云任务全面涨点!DOC-Depth:从任何LiDAR传感器生成稠密深度图!
我们引入了DOC-Depth,这是一种在无限动态环境中生成密集深度地面真值的新方法。由于DOC,我们提出的动态对象分类器,我们可以自动处理图像中的物体遮挡。我们在KITTI和内部捕获的4种不同激光雪达类型的数据集上展示了我们方法的有效性。通过使用各种传感器创建新数据集,我们展示了其泛化性和部署的便利性。我们发布了KITTI深度完成和测距数据集的完全密集注释,从而可以在深度估计和完成方面进行进一步探索。软件组件可供研究界使用。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-02-11 17:56:23
205
原创 将一切视为像素!
在这项工作中,我们介绍了 PIXELWORLD,这是一个评估套件,它将文本、表格、代码和图像统一为基于像素的输入,以弥合标记化文本处理和类人视觉感知之间的差距。我们对PEAP的理解实验表明,基于像素的输入提高了在结构复杂和本质上多模态任务(如网站和幻灯片)上的性能。通过减少OCR错误并保留上下文布局,它在具有挑战性的以文本为中心的任务(如高级知识推理和编码)上表现不如基于标记的方法。此外,注意力可视化显示像素补丁和文本标记之间具有高可转移性,表明未来“视觉作为标记”方法的可行性。
2025-02-11 16:46:23
405
原创 ICLR‘25 | 7个数据集SOTA!上交新作Track-On:在线、长期跟踪一切!
在这项工作中,我们提出了Track-On,一个简单而有效的基于变压器的在线点跟踪模型。为了建立对应关系,我们的模型使用补丁分类,然后通过偏移预测进行进一步的细化。我们提出了两个内存模块,能够在处理长视频时有效地实现时间连续性。我们的型在快速推理方面显著推进了在线点跟踪领域的前沿,并缩小了各种公开数据集上在线和离线模型之间的性能差距。尽管我们提出的模型具有优势,但仍存在一些局限性。具体来说,该型可能在薄表面上出现精确度损失,并且难以区分具有相似外观的实例,正如我们在失败案例中观察到的那样(参见附录)。
2025-02-11 16:45:36
295
原创 更快、更高质量的重建!GARAD-SLAM:动态3D GS SLAM全新框架
我们提出了GARAD-SLAM,它在动态场景中有效地解决了基于3DGS的SLAM系统中的跟踪漂移和地图误差问题。我们的方法引入了一种基于后端高斯映射和前端稀疏光流验证的反动态策略。通过基于神经网络的逐步更新,我们实现了动态干扰的准确消除和姿态校正。我们紧密地整合了跟踪和映射过程,它们相互增强。实验结果表明,与基线方法相比,我们的方法显著减轻了瞬时干扰和伪像的影响,在真实世界数据集上实现了最佳性能。未来的研究将侧重于将我们的方法适应于移动应用和轻量级部署。
2025-02-11 16:43:39
435
原创 ICLR‘25高分开源 | 超真实重建!ETH新作SplatFormer:第一个3DGS点Transformer模型!
在多样化的观看条件下对3D资产进行逼真渲染对于增强现实(AR)和虚拟现实(VR)应用至关重要。在本文中,我们引入了一个新的分布外(OOD)新视角合成测试场景,并证明了包括使用正则化技术和数据驱动先验在内的大多数神经渲染方法,在测试视角与训练集偏差较大时,质量会大幅下降,这凸显了需要更稳健的渲染技术。作为解决该问题的一个初步步骤,我们提出了SplatFormer,这是一种新型的点Transformer模型,旨在克服3D高斯溅射在处理OOD视角方面的局限性。
2025-02-11 16:42:54
926
原创 北大新作OccGS:具有语义和几何感知的零样本3D Occupancy重建
在这篇论文中,我们提出了一种新颖的框架:(OccGS),它可以在无需任何人工标记符号的情况下实现零样本开放词汇语义占用的重建。为了促进场景理解,我们利用视觉语言模型和多模态几何先验来构建一个语义和几何感知表示,Oc-cGS在准确性和效率之间取得了平衡。我们的框架在零镜头语义占用估计方面取得了最先进的性能,并且与监督和自监督方法相比表现良好。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-02-11 16:42:06
471
原创 [硬件+代码]御风250-四旋翼无人机(基于PX4)(激光雷达版)
简单的控制算法(如PID,LQR)可以在飞控中实现,对于复杂的控制算法(如MPC)可以将位置闭环,甚至姿态闭环在板载计算机中运行,最终发布角速度指令到飞控。在板载计算机中运行激光雷达SLAM算法(课程配套FAST-LIO算法),实现位姿估计,并且将结果发送到飞控,飞控中运行EKF算法融合外部定位。在板载计算机中运行规划算法(课程配套EGO-Planner),实现在有障碍环境中的实时路径规划,并且将规划指令发送到无人机,控制无人机运动。具体包括:IMU,磁力计,气压计,GPS,光流,下视TOF,激光雷达。
2025-02-11 16:41:18
1168
原创 卡尔曼滤波及其在多传感器融合的应用[PX4 EKF2讲解]
常见的异常包括传感器数据断联,传感器数据值无效,传感器数据值有效但是不准确等,这些异常处理往往在算法之外单独设计逻辑处理。对于加速度计,GPS,光流,TOF等测量加速度,速度与位置的传感器,安装位置往往不在飞机重心,旋转将带来额外的测量误差,需要进行精确的。数据融合使用合适的算法,将各种传感器的数据映射为飞机的位置,速度与姿态。课程答疑主要在本课程对应的鹅圈子中答疑,学员学习过程中,有任何问题,可以随时在鹅圈子中提问。在缺乏良好数据预处理时,估计器的参数调节变得困难,融合的精度也将降低。
2025-02-11 16:36:55
1012
原创 科研级!HandBot-S1!三维空间扫描仪!配套硬件+源码+教程+答疑
HandBot-S1是一款开源的三维空间扫描仪,集成了3D激光雷达、双目相机、IMU、算力模块、通讯模块、电池等,并提供标定好的内外参数,免去用户硬件组装、配置、标定等麻烦,通过连接网络即可开始各种应用。HandBot-S1可用于数据采集、环境重建、机器人导航等应用。
2025-01-21 20:13:42
1135
原创 几何和运动的万能表征公式?NVIDIA全新开源:通用场景流估计!
我们的方法受益于为几何学习到的3D先验知识,但目前无法从预训练模型的任何缺陷中恢复。未来的工作应考虑使用更稳健的3D先验来引导我们的方法。此外,在我们的设置中,相机自我运动和场景运动仍然是相互纠缠的;可以引入更多技术来分解它们,并支持更多下游应用。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-01-21 20:10:05
582
原创 无需训练的开源插件3DGS-to-PC:将3DGS直接转换为稠密点云或Mesh!
在本研究中,我们提出了3DGS-to-PC框架,该框架能够从3DGS(三维几何形状)场景中稳健地生成高质量的点云表示。我们的方法通过分析高斯分量对渲染图像中像素颜色的贡献,有效地计算出高斯颜色,从而确保生成的点云中颜色表示的准确性。点的分布与每个高斯分量的体积成正比。利用马氏距离识别出的离群点将被移除并重新生成,以确保3DGS场景的真实表示。该框架还支持通过泊松表面重建生成网格,该方法应用于从预测的表面高斯分量中采样的点。该框架具有高度的可定制性,提供了降噪、点云密度控制和高斯滤波等选项。
2025-01-21 20:09:26
1236
原创 兼容任意相机!博世 & CMU开源Zero-Shot深度估计新SOTA!
(DAC)框架,用我们引入了Depth AnyCamera于在各种摄像头类型(包括透视、鱼眼和360°摄像头)上进行零样本度量深度估计。通过利用高度有效的俯仰角感知lmage-to-ERP转换、视场角对齐和多分辨率训练,DAC解决了因视场角和分辨率不-致而带来的挑战,并在大视场角数据集上实现了稳健的泛化。我们的结果表明,DAC显著优于最先进的方法,并能无缝适应不同的骨干网络。在实践中,无论新应用中使用何种相机类型,DAC都能确保之前收集的每一张3D数据都保持有价值。
2025-01-21 20:08:46
796
原创 从尘埃到高塔:从稀疏无位姿图像,到照片级真实场景重建!
在本文中,我们提出了D2T,这是一种新颖的由粗到精的框架,旨在利用稀疏且未校准的图像进行逼真场景重建。D2T从稀疏且未校准的图像出发,首先利用颜色一致性最大化(CCM)方法高效地构建出一个粗略的解决方案。为了优化新视角下的三维模型,我们提出了条件自适应变形(CADA)和权重指导图像修复(WIGI)方法,通过变形和图像修复来生成新视角下的图像。这两种方法已被证明在提升新视角下渲染质量方面既有效又高效。
2025-01-21 20:08:08
552
原创 这是什么魔法?波恩大学开源LiDAR SLAM回环检测的万能公式!
本文提出了一种新颖而稳健的方法来检测激光雷达SLAM中的环路闭合,并在检测到的闭合点之间提供3D对齐。我们的方法依赖于使用局部里程计估计生成的局部地图的密度保持BEV投影。我们将局部地面视为在多次访问中共享的参考平面,并调整局部地图,使地面平面与局部地图参考框架的xy平面重合。这使得在不同移动平台上进行一致的BEV投影成为可能,这些平台的激光雷达具有不同的运动特性。我们在BEV投影上检测ORB特征描述符,并对这些特征描述符进行自相似修剪,以避免在重复环境中由于场景相似性而产生的虚假闭合。
2025-01-21 20:07:37
705
原创 AAAI‘25开源 | Mamba仍是顶流!单目3D语义场景补全新SOTA!
我们提出了一个带有 Skimba 去噪扩散子网络的 3D语义场景完成网络。我们的方法将变分自动编码器与两个条件网络相结合,为输入数据生成低维、感知等效的符号空间,从而在保持性能的同时有效减少计算需求。受 Amba 启发的 Skimba 网络通过使用各种跳跃三重膨胀来捕获数据中的直接和间接特征关系,该功能增强了网络表示复杂三维场景的空间和语义结构的能力。
2025-01-21 20:06:52
272
原创 LiDAR SLAM新突破!开源ROLO-SLAM:不平坦地形定位和建图全新解决方案
在本文中,我们提出ROLO-SLAM以获得在不平坦地形中的精确位姿估计和环境地图。为了减轻地面车辆行驶过程中的垂直漂移,我们基于前向位置预测中的粗略平移量独立估计旋转和平移。在后端,我们利用扫描到子图的配准和因子图来提高最终位姿估计的准确性。实验结果表明,我们的方法与最先进的方法相比表现更佳。此外,我们还对各种场景进行了建图评估,以验证ROLO-SLAM的建图质量。建图结果表明,我们的方法能够在城市和越野场景中生成高精度的点云地图。
2025-01-21 20:06:03
1024
原创 TPAMI‘24开源!DebSDF:深入研究神经室内场景重建的细节和偏差
我们引入了DebSDF,它通过定位不确定区域并引入偏置感知的SDF到密度的变换,用于SDF的体积渲染,从而提高了室内3D重建的细节和质量。基于以下观察:如果先验与其他先验一致,则它是正确的,我们提出了一种不确定性建模方法,该方法能有效识别单目几何先验中的大误差区域,这些区域通常对应于室内场景中的精细细节区域。因此,我们选择性地过滤掉这些区域的几何先验,以避免其可能产生的负面影响。我们还为这些区域分配了更高的采样概率,并应用了自适应平滑正则化,进一步提高了重建质量。
2025-01-21 20:05:23
929
原创 模型压缩70%!精度更高!开源MoDec-GS:更紧凑、更精确的动态3DGS
我们提出MoDec-GS,这是一个新颖的紧凑框架用于高质量动态3D高斯溅射,解决了动态场景重建中的存储需求和复杂运动挑战。通过利用全局到局部运动分解(GLMD),其中包含全局锚点变形(GAD)用于全局运动和局部高斯变形(LGD)用于精细局部调整,MoDec-GS有效地捕捉复杂运动,同时使用最小的存储空间。此外我们的时间间隔调整(TIA)允许自适应时间分割跨越动态间隔,而不需要外部运动数据。
2025-01-21 20:04:36
892
原创 3D重建大一统!Stability AI开源SPAR3D:0.7秒从单个图像生成3D对象!
我们提出了SPAR3D,这是一种简单而有效的单视图3D重建方法。我们模型的核心是基于点采样的两阶段设计。我们首先通过点扩散生成稀疏点云,然后结合点云和图像重建高精度网格。这种设计使我们能够充分利用基于回归和生成建模的优势。在标准基准测试和实景图像上的评估表明,SPAR3D以快速的推理速度显著优于以往最先进的方法。我们将在论文发表时发布我们的模型,并希望我们的工作对未来研究实现高质量3D内容的可扩展生成有所帮助。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-01-21 20:03:54
596
原创 AAAI‘25开源 | 中科院新作:通用6D物体位姿估计!
我们提出了一种新的通用特征引导零样本类别级物体姿态估计方法,采用从粗到细的方式。它可以从未见过的类别中估计物体的6D姿态,而无需额外的模型微调。我们的方法有效地利用了2D和3D预训练的通用特征,以实现强大的泛化能力。它有可能帮助许多应用处理未见过的类别,并避免额外的模型训练或微调。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~本文仅做学术分享,如有侵权,请联系删文。
2025-01-21 20:02:12
918
原创 全新开源框架GSplatLoc:通过 3DGS 实现超精确相机定位!
在本文中,我们介绍了GSplatLoc,这是一种利用3D高斯溅射(splatting)的可微分渲染能力实现超精确相机定位的新方法。通过将位姿估计公式化为一个完全可微分框架内的基于梯度的优化问题,我们的方法实现了从预存在的3D高斯场景中渲染的深度图与观测到的深度图像之间的高效准确对齐。在Replica和TUM RGB-D数据集[39]上进行的广泛实验表明,GSplatLoc在平移和旋转精度方面均显著优于最先进的SLAM系统。
2025-01-10 16:48:17
825
原创 RAL‘24开源 | SemanticKITTI第一!4D-CS:4D LiDAR语义分割全新框架!
在本文中,我们分析了现有多扫描分割方法的局限性,并提出了一种新颖的双分支结构,旨在利用聚类信息来提高分割结果的时空一致性。首先,我们通过多视图表示融合时间点的特征。然后,利用聚类标签整合点特征并获取实例信息,该信息通过结合跨多帧的相邻聚类进行细化。最后,我们自适应地融合两个分支的信息,以优化每个点的类别预测,从而增强分割的一致性。实验表明,本文的4D-CS方法超过了以往最先进的多扫描语义分割和动态物体分割方法。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-01-10 16:47:26
927
原创 无惧遮挡 & 小目标!复旦开源UAV-DETR:无人机图像的高效端到端目标检测
我们设计了UAV-DETR,一个专门设计用于无人机图像的实时端到端物体检测器。通过引入MSFF-FE模块、FD模块和SAC模块,UAV-DETR有助于缓解在航空图像中检测小物体和遮挡物体的困难。在VisDrone和UAVVaste数据集上的实验结果表明,我们的方法在保持实时推理速度的同时,比现有方法在类似计算成本下实现更高的准确性。未来的工作将侧重于提高其对噪声的鲁棒性。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-01-10 16:46:30
1068
3
原创 超越Depth Anything V2!中科大新作DepthMaster:驯服单目深度估计!
在本研究中,我们提出了DepthMaster,一种为深度估计构建扩散模型的方法。通过融入特征对齐模块,我们有效地缓解了模型对纹理细节的过拟合问题。此外,傅里叶增强模块通过在频域内操作,增强了细粒度细节保留能力。得益于精心的设计,DepthMaster在零样本性能和推理效率方面实现了显著提升。大量实验验证了我们方法的有效性,该方法在泛化和细节保留方面达到了最先进的性能,在各种数据集上均优于其他基于扩散的方法。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-01-10 16:45:02
713
原创 北大 & 港大开源ProTracker:鲁棒、精确地跟踪一切!
在本文中,我们提出了一种稳健的跟踪框架,该框架通过概率整合将光流积分与长期对应关系相结合,从而在动态视频序列中实现精确且平滑的点跟踪。通过融入对象级过滤、双向概率整合以及几何感知特征提取,我们的方法有效缓解了漂移问题,处理了遮挡情况,并对暂时消失的点进行重新定位。在处理复杂运动和较长时间间隔方面,我们的方法优于传统方法,证明了整合短期和长期信息以实现可靠跟踪的优势。尽管我们的方法提供了稳健的跟踪性能,但其对关键点提取过程中测试时训练的依赖降低了其相对于监督方法的效率——这是自监督跟踪方法的常见局限。
2025-01-08 15:32:04
1054
原创 南洋理工开源3DEnhancer:高质量3D重建!
总之,这项工作提出了一种新颖的3D增强框架,该框架利用视图一致的潜在扩散模型来提高给定粗糙多视图图像的质量。我们的方法引入了一个通用的管道,该管道结合了数据增强、多视图注意力和极线聚合模块,有效地强制执行视图一致性并跨多视图输入精炼纹理。广泛的实验和消融研究表明,我们的方法在实现高质量、一致的3D内容方面表现优异,显著优于现有替代方案。该框架为通用3D增强提供了一个灵活且强大的解决方案,在3D内容生成和编辑方面具有广泛的应用。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-01-08 15:31:13
727
原创 PSNR竟能到30?CrossView-GS:大规模场景重建新SOTA!
我们基于跨视图数据提出了CrossView-GS方法,用于大规模场景重建。我们构建了双分支模型作为先验,通过分别重建航拍视图和地面视图,有效地指导了跨视图三维地面场景(3DGS)的优化,并实现了大规模场景的高质量重建。实验证据表明,我们的方法优于当前最先进的方法。在未来的工作中,我们计划引入分治策略,以利用跨视图数据实现超大规模场景的重建。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-01-07 15:29:25
929
原创 斯坦福 & Meta开源!训练时间降低82%!让3D重建的精度和效率同时SOTA!
我们引入了VideoLifter,这是一个框架,可以高效地从单目视频中重建3D场景,而不需要预先计算的相机姿态或预定义的内在参数。VideoLifter利用基于学习的立体先验进行初始稀疏场景重建并采用3D高斯平滑的层次对齐方法生成密集、全局一致的模型。与之前最先进的方法(6,12)相比,VideoLifter能够从随机的视频中实现高质量的重建,降低了计算需求。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-01-07 15:28:43
840
原创 AAAI‘25开源 | 首次实现毫米级精度!华科新作FlowMamba:点云场景流估计新框架!
我们提出了一种新的场景流估计方法,称为FlowMamba。其核心组件ISU模块旨在高效地全局传播匹配信息并建模长距离运动依赖。为了减轻点云不规则性的影响并增强ISU的全局传播能力,我们引入了F0策略,将点序列排序为具有高水平空间连续性的序列。广泛的实验证明了我们的FlowMamba的优越性及其在FlyingThings3D和KITTI上的泛化能力它显示了全球信息传播对点云运动估计的至关重要性。所提出的方法还展示了强大的大学作为各种方法的插拔模块。
2025-01-07 15:28:05
793
原创 助力Depth Anything V2!KAUST开源PatchRefiner V2:快速高分辨率度量深度估计!
我们提出了PatchRefiner V2,这是一个增强且高效的框架,用于高分辨率单目度量深度估计。在原始PatchRefiner的优势基础上,PRV2引入了一个轻量级的精炼分支,显著提高了推理速度并减小了模型尺寸。凭借新颖的由粗到细(C2F)模块和噪声预训练策略,我们的框架成功缓解了噪声特征带来的挑战以及精炼分支缺乏预训练的问题。此外,我们还引入了尺度与偏移不变梯度匹配(SSIGM)损失,以增强边界准确性并改善从合成数据到真实数据的迁移能力。
2025-01-07 15:27:24
918
原创 加速70倍!支持4K分辨率!ETH全新开源PanSplat:全景GS重建和新视角合成SOTA!
本文提出了PanSplat,这是一种新颖的可泛化的、前馈方法,用于从宽基线全景合成新视图。为了有效地支持4K分辨率(2048x4096)以用于沉浸式VR应用,我们引入了一个流水线,可以实现两步延迟反向传播。此外,我们提出了一种球面3D高斯金字塔,采用悲波那契格点排列以适应全景格式,以提高渲染质量和效率。广泛的实验证明了PanSplat在图像质量和分辨率方面优于现有技术。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
2025-01-07 15:26:23
458
原创 港科大 & 地平线开源DrivingWorld:构建自动驾驶的世界模型!
综上所述,DrivingWorld通过利用GPT风格框架,生成了更长、更高保真度且具有更好泛化能力的视频预测,从而解决了自动驾驶中先前视频生成模型的局限性。与在传统方法中难以处理长序列连贯性或严重依赖标记数据的情况不同,DrivingWorld能够生成逼真的、结构化的视频序列,同时实现精确的动作控制。与经典的GPT结构相比,我们提出的时空GPT结构采用了下一个状态预测策略来建模连续帧之间的时间连贯性,然后应用下一个标记预测策略来捕获每帧内的空间信息。展望未来,我们计划纳入更多模态信息并整合多个视角输入。
2025-01-07 15:25:43
849
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人