
3D视觉
文章平均质量分 93
介绍自动驾驶相关的3D视觉算法,包括深度估计、3D建模等方向。
CVHub
专注多模态视觉语言AI全栈知识分享,提供原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案
展开
-
ICCV 2023 | 克服域差异:基于事件相机的自监督预训练策略
论文:《Event Camera Data Pre-training》链接:https://arxiv.org/abs/2301.01928代码:https://github.com/Yan98/Event-Camera-Data-Pre-training。原创 2023-11-04 23:18:27 · 274 阅读 · 0 评论 -
ICCV 2023 | 字节跳动 PICO 智能创作团队最新XR/VR研究工作分享
在不断发展的人工智能(AI)领域中,数据一直被视为最宝贵的资源之一。数据驱动的AI正以前所未有的方式塑造着未来,尤其在XR(扩展现实)领域,其中硬件和算法快速迭代。在这个领域,数据的效率、质量和可扩展性对于开发交互式AI算法至关重要。我们是交互数据实验室团队,负责构建以数据为中心的人工智能。在 XR(扩展现实)互动领域,高精度和强鲁棒性的3D互动是提供卓越用户体验的基础。这也意味着我们对支持算法模型的数据标签提出了更高的要求,包括更高的准确性和更好的泛化性能。在过去一年多的时间里,我们专注于解决数据相关的问原创 2023-11-04 23:16:53 · 329 阅读 · 0 评论 -
SparseBEV:高性能、全稀疏的纯视觉3D目标检测器
基于此,我们提出了高性能、全稀疏的 SparseBEV 模型。我们还提供了采样点的可视化(第一行是当前帧,二三两行是历史前两帧),可以看到,SparseBEV 的采样点精准捕捉到了场景中不同尺度的物体(即在空间上具备适应性),且对于不同运动速度的物体也能很好的对齐(即在时间上具备适应性)。在验证集的小规模的 Setting(ResNet50,704x256)下,SparseBEV 能取得 55.8 NDS 的性能,同时保持 23.5 FPS 的实时推理速度,充分发挥了 Sparse 设计带来的优势。原创 2023-11-04 22:59:54 · 902 阅读 · 0 评论 -
ICLR 2023 | 神经规范场: 渲染引导空间规范变换
这篇文章主要介绍了神经场中的规范变换,尤其是如何通过渲染损失联合优化神经场景表示和规范变换。通过应用和实验,证明了这种可学习规范变换的优点和广泛适用性,包括UV映射,TriPlane神经场等。基于这种可学习的规范变换,还有大量神经渲染任务值得深入探索和应用。原创 2023-11-04 22:54:20 · 126 阅读 · 0 评论 -
S3IM:随机结构相似性及其对神经场的不合理有效性
论文:《S3IM: Stochastic Structural SIMilarity and Its Unreasonable Effectiveness for Neural Fields》链接:https://arxiv.org/pdf/2308.07032.pdf代码:https://github.com/Madaoer/S3IM-Neural-Fields。原创 2023-11-04 22:47:14 · 134 阅读 · 0 评论 -
ICLR 2023 | 利用主动学习降低 3D 目标检测中的高标注成本
基于LiDAR的三维物体检测在三维场景理解中扮演着不可或缺的角色,广泛应用于自动驾驶和机器人等领域。新兴的三维检测模型可在大规模标注点云的代价下实现精确识别,其中7自由度(DOF)的三维边界框——包括每个物体的位置、尺寸和方向信息——被标注出来。在像Waymo这样的基准数据集中,超过1200万个LiDAR边界框需要进行标注,对于一个标注者来说,标注一个精确的3D框需要超过100秒的时间。这种性能提升的先决条件在很大程度上阻碍了将模型应用于野外境中的可行性,特别是在标注预算有限的情况下。原创 2023-08-27 11:30:41 · 357 阅读 · 0 评论 -
Meta AI开源力作 | SiLK:你真的需要这么复杂的图像关键点提取器?
通过SiLK的灵活性,论文进行了大量的实验,研究了模型架构和图像分辨率等设计选择对性能的影响。令人惊讶的是,减小模型规模、计算成本和训练输入尺寸对于Homography估计、相机姿态估计和点云配准的性能影响较小。这对于许多重要的应用程序,如设备上的推理,非常有益。本论文介绍了SiLK,一个简单而灵活的关键点检测和描述符框架。SiLK基于独特性和不变性的原则设计, 在3D视觉感知的关键低级任务上实现或超越了SOTA水平。SiLK的简单性对于在低级应用中进行良好的关键点检测是否需要复杂的机制提出了质疑。原创 2023-08-13 00:19:53 · 460 阅读 · 0 评论 -
ICCV 2023 | FocalFormer3D: 解决假阴性问题,提升自动驾驶3D目标检测召回率
本工作明确关注自动驾驶中的一个致命问题,即假阴性检测。为此,作者提出了作为解决方案。通过引入困难实例探测(HIP),逐渐探测困难实例并提高预测召回率。在基于Transformer的3D检测器上以有限的额外开销获得了显著提升。原创 2023-08-12 16:31:37 · 802 阅读 · 1 评论 -
OVO: Open-Vocabulary Occupancy
大多数现有的语义占据网络需要完全注释的体素数据来进行模型训练。在本文中,引入了开放词汇占据(Open Vocabulary Occupancy,简称OVO),它允许在训练过程中无需3D标注来进行未见过物体类别的语义占据预测。实质上,OVO是简单且与模型无关的。作为这一方向的首次尝试,研究者希望OVO能够为未来的研究提供baseline,并发挥优势。一个局限性是OVO依赖于体素级的语义预测,但在实例级别上没有进行优化,可能导致偶尔出现一个物体内部的不一致预测。原创 2023-07-09 18:00:09 · 312 阅读 · 0 评论 -
ICRA2023 | 通用、自动和无标定目标的Lidar-Camera外参标定工具箱
论文开发了一个通用的 LiDAR 相机标定工具箱。在完全自动的标定过程中,论文使用基于图像匹配的初始估计。然后,通过基于 NID 的直接 LiDAR-相机配准算法对初始估计进行了精化。实验结果表明,该工具箱可以准确地标定旋转和非重复扫描 LiDAR 与针孔相机以及全景相机之间的外参变换。原创 2023-07-09 17:54:24 · 563 阅读 · 0 评论 -
SuperGlue作者重磅新作! | LightGlue:又快又准的特征匹配方法
本论文介绍了LightGlue,这是一个经过训练的深度神经网络,用于在图像之间匹配稀疏的局部特征。借鉴了SuperGlue的成功,论文将注意力机制的能力与匹配问题的见解以及Transformer的最新创新相结合。论文赋予这个模型自省其预测的置信度的能力。这产生了一种优雅的方案,根据每对图像的难度自适应计算量。模型的深度和宽度都是自适应的:1)如果所有预测都已准备好,推理可以在较早的层停止;2)被认为不可匹配的点从进一步的步骤中提前丢弃。原创 2023-07-09 17:52:54 · 7224 阅读 · 0 评论 -
CVPR 2023 Highlight | 唯快不功!ACE:建图快300倍的视觉重定位方法!
ACE是一种新颖的视觉重定位方法,可以在5分钟内绘制新环境的地图。与先前基于RGB的场景坐标回归方法相比,ACE显著降低了成本和能源消耗,使其成为实用的解决方案。ACE 的关键改进主要是概念上的,利用patch级别的训练来使梯度解耦。通过巧妙的工程技术,如并行化缓冲区创建和训练,或者对于简单场景的提前停止,还有进一步提高速度的潜力。原创 2023-07-09 17:49:45 · 670 阅读 · 0 评论 -
CMU & Argo AI | SUDS:迄今为止最大的动态NeRF
论文提出了一种模块化的方法,用于以前未开发的规模构建动态神经表示。论文的多分支哈希表结构使论文方法能够将静态几何和短暂对象高效地分离和编码,跨越成千上万的视频。SUDS利用未标记的输入来学习语义感知和场景流,使其能够执行多个下游任务,同时超越依赖人工标注的最先进方法。尽管论文提出了构建城市规模动态环境的初步尝试,但在构建真正逼真的表示之前仍然存在许多挑战。原创 2023-07-09 17:47:44 · 436 阅读 · 0 评论 -
ICLR 2023 Spotlight | 提升20倍训练速度的体素神经表面重建方法
本文提出了Voxurf,一种基于体素的高效准确的神经表面重建方法。它包括了几个关键设计:两阶段框架逐步获得连贯的粗糙形状并恢复细节;双重颜色网络有助于保持颜色-几何依赖关系,而分层几何特征则促进了体素之间的信息传播;有效的平滑先验包括梯度平滑损失,进一步提高了视觉质量。大量实验证明,Voxurf在效率和质量方面取得了高水平的表现。原创 2023-07-09 17:45:26 · 410 阅读 · 0 评论 -
ICLR2023 Oral | Noise2NoiseMapping:通过噪声点云学习带符号距离函数
论文通过噪声到噪声映射引入了从噪声点云中学习有向距离场(SDFs)的方法。论文探索了从多个噪声点云甚至一个噪声点云中学习SDFs的可行性,而无需地面真实的有向距离、点法线或干净点云。论文的噪声到噪声映射使得在点云中进行统计推理成为可能,即使在不同噪声点云之间没有空间对应关系。论文在统计推理中的关键洞察是使用EMD作为度量标准。通过统计推理的能力,论文成功地通过学习高度准确的SDFs从噪声点云中恢复出表面。论文在合成数据集或真实扫描数据集上评估了论文的方法,适用于形状或场景的不同应用。原创 2023-06-18 13:36:55 · 322 阅读 · 0 评论 -
CVPR2023 Highlight | SDM-UniPS:任意光照、任意模型的通用光度立体测量
在这篇论文中,研究者提出了一种可扩展、详细且无需遮罩的通用光度测量方法。论文证明了该方法在DiLiGenT基准测试中优于大多数校准和非校准方法。此外,与唯一现有的通用任务方法相比,论文的方法表现出了显著的改进。然而,仍然存在一些挑战。首先,虽然论文方法观察到所提出的方法对于多样化的光照条件具有鲁棒性,但论文发现在光照变化较小的情况下,论文的方法效果不佳。其次,所提出的方法可以通过替换损失和数据而轻松扩展到除了法线图恢复之外的其他任务。实际上,论文尝试过输出材质的BRDF参数。原创 2023-06-05 00:17:24 · 913 阅读 · 0 评论 -
CVPR2023 最佳论文候选 | 使用最大团约束进行点云配准
在这篇论文中,研究者提出了MAC方法,通过使用最大团约束从对应关系中生成精确的姿态假设来解决PCR问题。论文的方法在所有测试数据集上实现了最先进的性能,并且能够适应深度学习方法以提升它们的性能。然而,如表7和表1所示,MAC可能会偶尔无法找到准确的假设。未来的工作包括开发一种更可靠的假设评估技术,利用语义信息来提高性能。原创 2023-06-05 00:06:53 · 1688 阅读 · 0 评论 -
CVPR 2023 | 基于内部离散化的单目深度估计
论文引入了一种新的模块,称为内部离散化(Internal Discretization)模块,用于单目深度估计。该模块假设场景可以表示为一组有限的模式(patterns)。因此,iDisc利用内部离散化的场景表示,通过连续-离散-连续的bottleneck(即ID模块)来实现。论文在主要的室内和室外深度估计基准上验证了所提出的方法,并在监督学习方法中取得了新的技术水平。结果表明,学习底层模式而不对输出施加任何显式约束或正则化对性能和泛化能力有益。原创 2023-06-04 23:46:11 · 900 阅读 · 0 评论 -
上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!
论文介绍了Make-It-3D,这是一种新颖的两阶段的方法,可以从单个图像创建高保真度的三维内容。利用扩散先验作为三维感知监督,通过扩散CLIP损失和纹理点云增强,生成的3D模型展现了符合预期的几何形状和逼真的纹理。Make-It-3D适用于一般对象,赋予了多样的迷人应用。研究者相信论文的方法在将2D内容创作的成功扩展到3D方面迈出了重要一步,为用户提供了全新的3D创作体验。原创 2023-05-20 13:54:15 · 1321 阅读 · 0 评论 -
利用BEV辅助的立体匹配,助力3D语义场景补全
本文提出了一种基于BEV辅助立体匹配的3D语义场景完成框架StereoScene,可以在不使用任何外部3D几何传感器输入的情况下生成高保真度的3D场景理解结果。该模型具有不需要使用预训练3D teacher网络或明确的几何输入的性质,利用几何约束隐式地建立结构化空间,并采用Transformer-based互动聚合模块来充分利用BEV表示和Stereo Matching的互补性。同时,该模型在极端条件下表现出很强的鲁棒性,如识别微小物体或在摄像机视野之外进行场景幻想。原创 2023-05-04 00:16:09 · 447 阅读 · 0 评论 -
传感器失效怎么办?MetaBEV:一种新颖且鲁棒感知网络架构,专治各自传感器疑难杂症
本文提出了一种自动驾驶感知新框架MetaBEV,旨在解决鸟瞰图BEV3D检测和地图分割中的传感器故障问题。该方法将模态特定层集成到跨模态注意力层中以增强融合过程,不仅在全模态输入上的表现优异,而且MetaBEV能够有效缓解传感器信号被损坏或丢失而导致的性能显著下降问题。此外,本文还介绍了使用M2oEM^2oEM2oE来处理任务之间的潜在冲突。虽然本文采用了可变形注意力来提高效率,但与轻量级解决方案相比,它不可避免地会导致网络参数略微增加。原创 2023-05-03 23:53:16 · 275 阅读 · 0 评论 -
CVPR2023 | 无需动态区域分割!多帧深度估计新进展:跨线索注意力机制提升动态区域精度
本论文提出了一种新的动态场景多帧深度估计方法。通过更好对单/多帧深度线索进行融合并相互提升,实现了在无需运动分割情况下的高精度动态区域深度估计。实验证明,方法实现更优整体/动态区域深度估计效果同时,具有良好的泛化性和可扩展性。原创 2023-05-03 23:41:41 · 785 阅读 · 0 评论 -
CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方法
本文提出了一种新的轻量级单目自监督单目深度估计方法。设计了一种混合的CNN和Transformer架构来建模多尺度增强的局部特征和全局上下文信息。在8个KITTI数据集上的实验结果证明了该方法的优越性。通过在提出的CDC块中设置优化的扩张率,并插入LGFI模块来获得局部-全局特征相关性,Lite-Mono可以感知不同尺度的物体,甚至是对靠近摄像机的移动物体。论文还验证了该模型在Make3D数据集上的泛化能力。此外,Lite-Mono在模型复杂性和推理速度之间实现了良好的权衡。原创 2023-04-22 14:34:23 · 1092 阅读 · 2 评论 -
CVPR‘2023 | Nerf-Stereo: 利用NeRF来训练双目立体匹配网络的新范式!
论文提出了一个开创性的pipeline,利用NeRF来训练深度立体匹配网络,而不需要ground truth深度或立体摄像机。通过用一个低成本的手持相机捕捉图像,通过论文提出的NeRF-Supervised范式生成成千上万的立体对进行训练。这种方法导致了最先进的Zero-Shot泛化,超越了自监督和监督的方法。论文的工作代表了数据民主化的重大进步,将成功的关键交到了用户手中。原创 2023-04-19 21:34:06 · 1396 阅读 · 3 评论 -
Text2Room:第一个从文本生成室内三维场景的方法!
论文展示了一种仅从文本输入生成纹理三维网格的方法。论文使用text-to-image的2D生成器来创建一个图像序列。论文的方法的核心洞察力是一个定制的视点选择,它允许创建一个具有无缝的几何图形和引人注目的纹理的3D网格。具体来说,论文通过使用深度对齐策略,将图像提升到一个尺度一致的三维场景中,该对齐策略迭代地将所有图像融合到网格中。论文的输出网格表示可以用经典的光栅化渲染pipeline的得到任意室内场景。研究者相信,论文的方法展示了大规模3D资产创建的一个令人兴奋的应用,它只需要文本作为输入。原创 2023-04-19 21:17:57 · 1153 阅读 · 0 评论 -
CVPR 2023 | IGEV-Stereo & IGEV-MVS:双目立体匹配网络新SOTA!
本文提出了Iterative Geometry Encoding Volume(IGEV),这是一种用于立体匹配和多视角立体视觉也的深度网络架构。IGEV构建一个combined geometry encoding volume编码几何和上下文信息以及局部匹配细节,并迭代地对其进行索引以更新视差图。IGEV-Stereo在KITTI 2015 leaderboard中排名第一,并实现了最先进的跨数据集泛化能力。拓展的IGEV-MVS在DTUbenchmark上也取得了具有竞争力的性能。原创 2023-04-19 21:06:19 · 4193 阅读 · 1 评论 -
CVPR‘2023 Highlight | Point-NN: 即插即用,无需训练的非参数点云分析网络!
论文重新讨论了现有三维模型中的不可学习组件,并提出了 Point-NN,一个用于三维点云分析的纯非参数网络。没有任何参数或训练, Point-NN在各种三维任务上取得了良好的准确性。针对PointPN的架构框架和用于提高性能的即插即用模块。大量的实验已经证明了其有效性和意义。在未来的工作中,研究者将重点探索更先进的非参数模型,具有更广泛的三维点云分析应用场景。原创 2023-04-19 13:27:54 · 687 阅读 · 0 评论 -
CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方
本文提出了一种新的轻量级单目自监督单目深度估计方法。设计了一种混合的CNN和Transformer架构来建模多尺度增强的局部特征和全局上下文信息。在8个KITTI数据集上的实验结果证明了该方法的优越性。通过在提出的CDC块中设置优化的扩张率,并插入LGFI模块来获得局部-全局特征相关性,Lite-Mono可以感知不同尺度的物体,甚至是对靠近摄像机的移动物体。论文还验证了该模型在Make3D数据集上的泛化能力。此外,Lite-Mono在模型复杂性和推理速度之间实现了良好的权衡。原创 2023-04-19 09:26:06 · 1653 阅读 · 0 评论 -
为什么你的手机后置摄像头越来越丑?ECCV2022这篇论文告诉你
光学防抖镜头在现在很常见,但在相机系统中想要通过多个传感器融合信息时,存在姿态估计问题。这限制了我们从单个快照中估计高质量深度地图的能力。我们的方法是为消费级设备设计的,针对能够有效标定和鲁棒传感器融合的室内环境。由于我们的方法只使用一个快照,并且没有利用相机运动进行姿态估计,因此采集速度快,可以用于动态场景。在真实世界的输入上进行评估,我们的方法得到了目前最先进的ToF和双目融合方法更准确的深度图。原创 2023-03-24 00:05:27 · 418 阅读 · 0 评论 -
清华&天津大学新作 | SurroundOcc: 面向自动驾驶场景的纯视觉 3D 语义占据预测 (已开源)
如图1所示,本文方法包含多个阶段的 pipeline。首先,使用ResNet-101等骨干网络提取多个摄像机和多个级别的多尺度特征。然后,在每个级别上,使用来融合多个摄像机特征,并使用空间交叉注意力来提高精度。2D-3D 空间注意力层的输出是 3D 卷积网络的输入。最后,多尺度体积特征通过 3D 卷积网络上采样和组合,并通过递减的损失权重来监督每个级别的占据预测。本文提出了一种多摄像头3D占据预测方法。该方法利用2D-3D空间注意力以多尺度方式。原创 2023-03-24 00:02:30 · 391 阅读 · 0 评论 -
英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!
在本文中,作者提出了VoxFormer,一个强大的三维语义场景补全(SSC)框架,由(1)基于深度估计的类不可知查询提议和(2)类特定分割的稀疏到密集的类设计。VoxFormer优于最先进的基于相机的方法,甚至与基于激光雷达的方法相当。作者希望VoxFormer能激发基于摄像机的SSC及其在自动驾驶感知中的应用。如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!原创 2023-03-19 10:26:52 · 321 阅读 · 0 评论 -
英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!
在本文中,作者提出了VoxFormer,一个强大的三维语义场景补全(SSC)框架,由(1)基于深度估计的类不可知查询提议和(2)类特定分割的稀疏到密集的类设计。VoxFormer优于最先进的基于相机的方法,甚至与基于激光雷达的方法相当。作者希望VoxFormer能激发基于摄像机的SSC及其在自动驾驶感知中的应用。如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!原创 2023-03-19 10:24:16 · 324 阅读 · 0 评论 -
港科大 Arxiv 2023 | DA-BEV: 3D目标检测新 SOTA,一种强大的深度信息挖掘方法
本文方法主要解决的是,之前 DETR-based 3D 检测器在处理图像特征时存在的深度信息缺失问题。本方法将深度信息编码到查询query) 和值value) 中,并提出了一个深度感知的空间交叉注意力模块和一个深度感知的对比学习方法,以增强深度信息的学习和比较。DA-BEV 的训练流程分为四个部分,包括特征提取BEV编码器深度感知的空间交叉注意力模块和深度对比学习,最后通过 DETR 检测器对 BEV 特征进行预测,得出物体的 3D 边界框和类别信息。原创 2023-03-19 10:13:09 · 351 阅读 · 0 评论 -
CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!
LoGoNet输入为点云和其关联的多相机图像,输出为目标检测结果。其中,点云由空间坐标、特征和点数等信息组成;而图像经过 2D 检测器处理后,生成密集的语义图像特征。全局融合GoF)、局部融合LoF)和特征动态聚合FDA),用于实现点云和图像的局部到全局的跨模态特征融合。本文提出了一种新颖的多模态网络,称为LoGoNet,采用局部到全局的跨模态特征融合,深度融合点云特征和图像特征,为精确检测提供更丰富的信息。在WOD和KITTI数据集上进行了大量实验,LoGoNet 超过了以前的方法,并在Waymo 3D。原创 2023-03-19 09:57:34 · 1266 阅读 · 5 评论 -
Intel 开源新作 | ZoeDepth: 第一个结合相对和绝对深度的多模态单目深度估计网络
论文提出了ZoeDepth,第一个结合了相对深度和绝对深度的方法,弥补相对和绝对深度估计性能之间的差距,在保持度量尺度的同时,实现了卓越的泛化性能。ZoeDepth是一个两阶段的工作,在第一阶段,论文使用相对深度数据集对encoder-decoder架构进行预训练。在第二阶段,论文基于所提的Metric bins 模块得到domain-specific头,将其添加到解码器中,并在一个或多个数据集上对模型进行微调,用于绝对深度预测。原创 2023-03-19 09:46:09 · 1607 阅读 · 0 评论 -
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
本文提出了一种实用的解决方案,用于在给定完全异步多视图视频的情况下构建 3D 循环视频表示。实验验证了所提方法的有效性,并证明在几个基线上质量和效率有了显着提高。原创 2023-03-19 08:47:15 · 284 阅读 · 0 评论 -
即插即用系列 | Hierarchical Attention: 轻松助力点云Transformer解决小目标和局部特征问题
即插即用系列 | Hierarchical Attention: 轻松助力点云Transformer解决小目标和局部特征问题原创 2023-02-18 10:02:49 · 1673 阅读 · 0 评论 -
为什么你的手机后置摄像头越来越丑?ECCV2022这篇论文告诉你
为什么你的手机后置摄像头越来越丑?ECCV2022这篇论文告诉你原创 2023-02-18 09:53:04 · 677 阅读 · 0 评论 -
杀疯了 | UNETR++:轻量级的共享权重Transformer称霸医学图像分割领域
杀疯了! | UNETR++:轻量级的共享权重Transformer称霸医学图像分割领域原创 2023-02-17 22:18:08 · 2250 阅读 · 0 评论