自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(349)
  • 资源 (1)
  • 收藏
  • 关注

原创 【ECCV‘24】AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation

无监督的深度补全和估计方法通过最小化重建误差进行训练。采样、强度饱和和遮挡等数据增强方案的副作用会影响图像重建质量,从而影响训练信号。因此,尽管在其他视觉任务中的训练流程中被视为必不可少,典型的图像增强方法在深度补全中却被限制在较小的图像强度变化和翻转操作。由于稀疏深度模式中的强度变换会改变3D场景的尺度,几何变换在采样过程中可能会破坏稀疏点,因此稀疏深度模式的增强使用更少。我们提出了一种方法,通过逆转或“撤销”几何变换,将输出深度的坐标变换回原始参考框架,从而解锁先前无法实现的大范围几何增强。

2024-09-01 14:49:03 660 1

原创 【CVPR‘23】BEV@DC: 用 BEV 视角来辅助深度补全,Bird’s-Eye View Assisted Training for Depth Completion

深度补全在自动驾驶中起着至关重要的作用,其中相机和 LiDAR 是两种互补的传感器。近年来的方法尝试利用隐藏在 LiDAR 中的空间几何约束来增强图像引导的深度补全。然而,这些方法通常效率低下且泛化能力较差。在本文中,我们提出了一种更高效且功能强大的多模态训练方案 BEV@DC,以提升图像引导的深度补全性能。在实际应用中,所提出的 BEV@DC 模型在训练中充分利用了 LiDAR 的丰富几何细节,并在推理时采用一种增强的深度补全方式,仅需输入图像(RGB 和深度)。

2024-09-01 14:28:17 717

原创 【CVPR‘20】Uncertainty-Aware CNNs for Depth Completion: Uncertainty from Beginning to End

近年来,深度学习研究的重点主要集中在提高预测精度。然而,这往往是以增加复杂性为代价的,从而引发了关于深度网络可解释性和可靠性的担忧。最近,人们越来越关注解开深度网络的复杂性并量化其在不同计算机视觉任务中的不确定性。然而,深度完成任务并未受到足够的关注,尽管深度传感器本身具有固有的噪声特性。在本研究中,我们从稀疏且噪声的输入开始,一直到最终预测,专注于深度数据的不确定性建模。我们提出了一种新颖的方法,通过基于归一化卷积神经网络(NCNN)的自监督学习方式,学习输入置信度估计器来识别输入中的干扰测量值。

2024-09-01 13:45:57 568

原创 【ICCV‘23】聚合点云特征来进行深度补全:Aggregating Feature Point Cloud for Depth Completion

引导深度补全旨在通过在RGB图像的引导下,从已知像素传播深度信息到剩余像素,以恢复稠密深度图。然而,大多数现有方法通过大量迭代精细化或重复堆叠模块来实现这一目标。由于传统卷积的感受野有限,输入深度图的稀疏性水平变化会影响方法的泛化能力。为了解决这些问题,我们提出了一种特征点云聚合框架,直接在已知点和缺失点之间传播三维深度信息。我们从图像中提取二维特征图,并将稀疏深度图转换为点云以提取稀疏的三维特征。通过将提取的特征视为两组特征点云,可以通过聚合邻近的已知三维特征并使用交叉注意力策略来重构目标位置的深度信息。

2024-08-30 13:32:00 386

原创 【ICCV‘23】LRRU: 长短程递归更新网络用于深度补全,Long-short Range Recurrent Updating Networks for Depth Completion

深度补全是计算机视觉中的一个重要任务,旨在从部分观测到的深度图中恢复完整的深度信息。传统的方法通常依赖于全局特征或局部上下文,但这些方法在处理长短程依赖时常常遇到挑战。为了解决这个问题,本文提出了一种新颖的网络架构——长短程递归更新网络(LRRU)。LRRU 通过引入递归机制来有效地结合长程和短程依赖,从而提升深度补全的性能。实验结果表明,LRRU 在多个数据集上都显著优于现有的深度补全方法,展示了其在真实场景中优越的表现。

2024-08-30 13:14:54 284

原创 2018~2024 年深度补全算法顶会论文、开源代码汇总!(持续更新)

2018~2024 年深度补全(Depth Completion)顶会论文、开源代码汇总!(持续更新)

2024-08-29 13:49:30 702

原创 【CVPR‘24】TPVD:三视图分解的深度补全,Tri-Perspective View Decomposition for Geometry-Aware Depth Completion

深度补全是自动驾驶中的一项关键任务,因为它涉及从稀疏和噪声深度测量中重建场景的精确三维几何。然而,大多数现有方法要么仅依赖于二维深度表示,要么直接结合原始三维点云进行补偿,这些方法仍不足以捕捉场景的细粒度三维几何。为了解决这一挑战,我们提出了一种名为三视图分解(Tri-Perspective View Decomposition, TPVD)的新框架,该框架可以显式建模三维几何。具体而言,(1) TPVD 巧妙地将原始点云分解为三个二维视图,其中一个视图对应于稀疏深度输入。

2024-08-29 12:57:51 319

原创 【CVPR‘24】DFU:用特征上采样增强深度补全,Improving Depth Completion via Depth Feature Upsampling

编码器-解码器网络 (ED-Net) 是现有深度补全方法中常用的选择,但其工作机制尚不明确。本文中,我们通过可视化内部特征图来分析网络如何将输入的稀疏深度密集化。我们发现,ED-Net 的编码器特征主要集中在有输入深度点的区域。为了获得密集特征并估计完整深度,解码器特征通过跳跃连接来补充和增强编码器特征,使融合的编码器-解码器特征密集化,导致解码器特征也表现为稀疏。然而,ED-Net 在前一阶段通过“密集⇒稀疏”的过程从密集的融合特征中获取稀疏解码器特征,这一过程破坏了特征的完整性并丢失了信息。

2024-08-29 12:34:42 468

原创 【CVPR‘24】深度补全:Flexible Depth Completion for Sparse and Varying Point Densities

近年来,深度补全方法在填充相对密集的深度图(例如,在 KITTI 数据集上投影的 64 线 LiDAR 或 NYUv2 上采样的 500 个点)时取得了显著的成果。然而,这些方法在处理非常稀疏的输入(例如 4 线 LiDAR 或 32 个深度点测量值)时的表现尚未得到验证。这些更稀疏的场景带来了新的挑战,例如与 64 线 LiDAR 相比,4 线 LiDAR 使得没有深度的像素与其最近的深度点之间的距离增加了六倍,从 5 个像素增加到 30 个像素。

2024-08-29 12:23:15 582

原创 【CVPR‘24】ProxyTTA:域自适应深度补全,Test-Time Adaptation for Depth Completion

深度补全旨在利用多传感器设置,从稀疏深度图中推断出密集深度图。尽管近年来取得了显著进展,现有方法通常会受到域转移问题的影响,例如从合成场景到现实世界应用的转移。在本文中,我们提出了 ProxyTTA,这是一种基于代理嵌入的测试时自适应方法,用于深度补全。我们的方法采用稀疏深度特征作为源域和目标域的桥梁,以应对目标域中 RGB 图像的域转移问题。具体而言,我们的代理嵌入学习在源域中捕获的对象形状的潜在几何和光度特征,这些对象可以跨域传递。

2024-08-29 12:02:02 266

原创 【深度补全最新综述】Deep Depth Completion from Extremely Sparse Data: A Survey

深度补全旨在从深度传感器(例如 LiDAR)捕获的极度稀疏的深度图中预测密集的逐像素深度。这在自动驾驶、3D 重建、增强现实和机器人导航等各种应用中起着至关重要的作用。近年来,基于深度学习的解决方案在该任务中取得了显著成功,并主导了这一领域的发展趋势。本文首次提供了全面的文献综述,帮助读者更好地把握研究趋势,并清晰地了解当前的进展。我们从网络架构、损失函数、基准数据集和学习策略的设计角度对相关研究进行了调查,并提出了一种新颖的分类方法来对现有方法进行分类。

2024-08-28 22:07:17 1202

原创 【CVPR‘24】DeCoTR:使用 2D 和 3D 注意力增强深度补全

本文提出了一种结合2D和3D注意力的新方法,用于在不需要迭代空间传播的情况下实现高精度的深度补全。首先,通过在2D特征上应用注意力机制增强了基线卷积深度补全模型的性能。然后,将2D特征提升为3D点云并构建3D点变压器来处理这些点,从而使模型能够显式地学习和利用3D几何特征。此外,还提出了点云归一化技术,以改进学习过程,提升模型精度。我们在NYU Depth V2和KITTI等基准数据集上评估了该方法DeCoTR,并展示了其优越的性能。进一步的零样本评估显示了DeCoTR的出色泛化能力。

2024-08-28 22:05:25 430

原创 【自监督深度补全】Self-Supervised Depth Completion Guided by 3D Perception and Geometry Consistency

本文提出了一种高精度的自监督深度补全方法,通过3D感知特征和多视几何一致性来实现。该方法使用3D感知空间传播算法与点云表示和注意力加权机制,捕获更合理的邻域特征,同时在深度传播过程中优化模型。实验结果表明,该方法在 NYU-Depth-v2 和 VOID 数据集上相比其他无监督方法表现更优,并与一些有监督方法达到竞争水平。

2024-08-28 21:40:10 194

原创 【CVPR‘23】CompletionFormer:用于深度补全的 Transformer 网络!已开源

CompletionFormer 结合卷积神经网络(CNN)和 Vision Transformer,提出了一种联合卷积注意力和 Transformer 块(JCAT),用于深度补全任务。该方法将卷积的局部连接性和 Transformer 的全局上下文结合到一个单一模型中,从而在户外 KITTI 和室内 NYUv2 数据集上超越了现有的基于 CNN 的方法,并在效率上显著优于纯 Transformer 方法。

2024-08-28 21:23:44 362

原创 【CVPR‘24】BP-Net:用于深度补全的双边传播网络,新 SOTA!

深度补全任务旨在从稀疏的深度测量数据和同步的彩色图像中生成密集的深度图。现有的最先进方法多为基于传播的,通常作为对初始估计的密集深度的迭代改进。然而,这些初始深度估计通常直接将卷积层应用于稀疏深度图。在本文中,我们提出了一种双边传播网络(BP-Net),在最早阶段进行深度传播,以避免直接在稀疏数据上进行卷积。具体而言,我们的方法通过一个非线性模型从附近的深度测量中传播目标深度,该模型的系数由一个多层感知器生成,并基于辐射差异和空间距离进行调整。

2024-08-28 21:08:08 1038

原创 【ECCV 2024】首个跨模态步态识别框架:Camera-LiDAR Cross-modality Gait Recognition

步态识别是一种重要的生物特征识别技术。基于相机的步态识别已广泛应用于研究和工业领域。由于3D结构信息的提供,基于激光雷达的步态识别最近也开始发展。然而,在某些应用程序中,相机不能识别人,如在低光环境和长距离识别场景中,激光雷达工作得很好。另一方面,激光雷达系统的部署成本和复杂性限制了其更广泛的应用。因此,在更广泛的应用中,考虑照相机和激光雷达之间的跨模态步态识别是非常必要的。在这项工作中,我们提出了在相机和激光雷达之间的第一个跨模态步态识别框架,即CL-Gait。

2024-07-05 15:56:52 1272

原创 【CVPR2024】ReID3D:首个使用激光雷达行人充实别 ReID 的工作!

基于摄像头的重识别(ReID)系统在公共安全领域得到了广泛的应用。然而,摄像机往往缺乏对人类三维形态信息的感知,并且容易受到各种限制,如照明不足、背景复杂和个人隐私,如图:在本文中,我们提出了一种基于激光雷达的 ReID 框架,ReID3D,该框架利用预训练策略来检索三维体型的特征,并引入了基于图的互补增强编码器来提取综合特征。由于缺乏激光雷达数据集,我们构建了第一个基于 LiDAR 的行人 ReID 数据集 LReID,该数据集在几个自然条件变化的室外场景中收集。

2024-03-11 16:55:46 968

原创 【2024 行人重识别最新进展】ReID3D:首个关注激光雷达行人 ReID 的工作!

基于摄像头的重识别(ReID)系统在公共安全领域得到了广泛的应用。然而,摄像机往往缺乏对人类三维形态信息的感知,并且容易受到各种限制,如照明不足、背景复杂和个人隐私,如图:在本文中,我们提出了一种基于激光雷达的 ReID 框架,ReID3D,该框架利用预训练策略来检索三维体型的特征,并引入了基于图的互补增强编码器来提取综合特征。由于缺乏激光雷达数据集,我们构建了第一个基于 LiDAR 的行人 ReID 数据集 LReID,该数据集在几个自然条件变化的室外场景中收集。

2023-12-25 22:48:11 2213 2

原创 ICCV 2023 | MPI-Flow:从单视角构建的多平面图像中学习光流

本文提出了一种从单目图像中使用多平面图像合成成对新视角图像及其光流图的方法,用于弥补真实光流数据集不足的问题,目前已被国际计算机视觉会议ICCV 2023接收

2023-09-14 16:46:01 2276 4

原创 【CVPR 2021】无约束生成 - NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections

本文提出了一种基于学习的方法,仅使用非结构化的野外照片集合合成复杂场景的新视图。在神经辐射场(NeRF)的基础上,本文的方法使用一个多层感知器的权重作为一个三维坐标的函数,来模拟一个场景的密度和颜色。虽然 NeRF 在受控设置下捕获的静态主题的图像上表现得很好,但它无法在不受控设置的图像中建模许多普遍存在的真实现象,如可变照明或瞬态遮挡。为了解决这个问题,本文引入了一系列的 NeRF 扩展来解决这些问题,从而能够从从互联网上获取的非结构化图像集合中进行精确的重建。

2022-09-28 22:54:27 1564 1

原创 【ECCV 2022】Visual Prompt Tuning

目前采用预训练模型的方法包括更新所有的主干参数,即完全微调。本文则介绍了视觉提示调优(VPT)作为一种有效的大型 Transformer 模型的替代方案。VPT 从有效调优大型语言模型的最新进展中获得灵感,在输入空间中只引入了少量(少于模型参数的1%)的可训练参数,同时保持模型主干冻结。对各种下游识别任务的广泛实验表明,与其他参数高效的调优协议相比,VPT获得了显著的性能提高。最重要的是,在许多情况下,VPT在跨模型容量和训练数据规模的情况下甚至优于完全微调,同时降低了每个任务的存储成本。

2022-09-27 21:27:14 1759

原创 【大模型迁移 2022】Exploring Visual Prompts for Adapting Large-Scale Models

本文研究了视觉提示(visual prompting)对适应大规模视觉模型的有效性。根据最近的提示调优(prompt tuning)和敌对抗重编程(adversarial reprogramming)方法,本文提出学习一个单一的图像扰动,然后由这个扰动提示的冻结模型执行一个新的任务。通过全面的实验,本文证明了 visual prompting 对 CLIP 特别有效,并且对分布转移具有鲁棒性,实现了与标准线性探头竞争的性能。本文进一步分析了下游数据集的特性、及时设计和输出转换的适应性性能。

2022-09-26 23:25:36 1600 6

原创 【CVPR 2021】Shadow Neural Radiance Fields for Multi-view Satellite Photogrammetry

本文提出了一种新的地球观测场景阴影感知多视点卫星摄影测量的通用方法。S-NeRF 遵循了隐式体积表示学习的最新进展。对于每个场景,S-NeRF 使用从已知的视角拍摄的非常高的空间分辨率的光学图像来训练。学习过程不需要标签或形状先验:它是由图像重建损失进行自监督的。为了适应来自方向光源(太阳)和漫射光源(天空)的不断变化的光源条件,本文以两种方式扩展了 NeRF 方法。首先,通过局部光源可见场模拟太阳的直接照明。第二,从漫射光源的间接照明作为一个非局部色场作为太阳位置的函数。

2022-09-24 11:16:38 1073

原创 【CVPR 2022】NeRFReN: Neural Radiance Fields with Reflections

神经辐射场(NeRF)利用基于坐标的神经场景表示法实现了前所未有的视图合成质量。然而,NeRF 的视图依赖关系只能处理简单的反射,如高光,而不能处理复杂的反射,如那些来自玻璃和镜子。在这些场景中,NeRF 将虚拟图像建模为真实几何,导致不准确的深度估计,当违反多视图一致性时,会产生模糊的渲染,因为反射的对象可能只在某些视点下看到。为了克服这些问题,本文引入了 NeRFReN,它建立在 NeRF 上来建模反射场景。

2022-09-20 17:16:42 1296 1

原创 【CVPR 2022】HDR-NeRF: High Dynamic Range Neural Radiance Fields

本文提出了高动态范围神经辐射场(HDR-NeRF),以从一组不同曝光的低动态范围(LDR)视图中恢复 HDR 辐射场。通过 HDR-NeRF,我们能够在不同的曝光下生成新的 HDR 视图和新的 LDR 视图。HDR-NeRF 的关键是建模简化的物理成像过程,它指示一个场景点的亮度转换为 LDR 图像中的像素值与两个隐式函数:一个辐射场和一个 tone mapper。其中辐射场对场景辐射进行编码(值在000到+∞+∞+∞之间变化),通过给出相应的射线原点和射线方向,输出射线的密度和亮度。

2022-09-19 21:39:48 1182

原创 【ICML 2018】Noise2Noise: Learning Image Restoration without Clean Data

本文将基本的统计推理用于通过机器学习进行信号重建——将损坏的观察映射到干净的信号,并得出了一个简单而强大的结论:可以只通过带噪图像来学习恢复图像,在性能上甚至有时超过使用干净的数据训练的模型,而无需明确的图像先验或噪声的概率模型。在实践中,作者证明了一个单一的模型可以仅基于噪声数据学习图像的噪声去除,去噪合成蒙特卡罗图像,并重建欠采样的 MRI 扫描——所有这些都被不同的过程破坏(加噪)。从损坏或不完整测量的信号中进行重建是统计数据分析的一个重要子领域。

2022-09-18 15:28:12 869

原创 【CVPR 2022】Deblur-NeRF: Neural Radiance Fields from Blurry Images

神经辐射场(NeRF)由于其显著的合成质量,近年来在三维场景重建和新的视图合成方面得到了广泛的关注。然而,在野外捕捉场景时经常发生的由离焦或运动引起的图像模糊,严重降低了其重建质量。为了解决这个问题,本文提出了 Deblur-NeRF,这是第一种可以从模糊的输入中恢复清晰的 NeRF 的方法。为此作者采用了一种综合分析的方法,通过模拟模糊过程来重建模糊视图,从而使 NeRF 对模糊输入具有鲁棒性。

2022-09-16 19:01:34 1111

原创 【CVPR 2021】pixelNeRF: Neural Radiance Fields from One or Few Images

现有的构建 NeRF 的方法通常独立地优化对每个场景的表示,需要许多校准的视图和显著的计算时间。作者通过引入了全卷积的架构,为解决这些缺点迈出了一步。这允许网络跨多个场景进行训练,以预先学习一个场景,使它能够以前馈的方式从稀疏的视图集(只有一个视图)执行新的视图合成。然后利用 NeRF 的体积渲染方法,pixelNeRF 可以直接从图像中训练,而无需明确的三维监督。作者在 ShapeNet 基准测试上进行了广泛的实验,包括保留的对象以及整个看不见的类别。

2022-09-15 22:21:27 820

原创 【ECCV 2020】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

本文提出了一种方法,通过使用稀疏的输入视图集来优化底层的连续体积场景函数,来实现合成复杂场景的新视图的最新结果。本文的算法使用全连接(非卷积)深度网络表示一个场景,该网络的输入是一个连续的 5D 坐标(包括空间位置(x,y,z)(x,y,z)(x,y,z)和视角方向(θ,φ)(θ,φ)),其输出是该空间位置的体积密度(volume density,可以理解成不透明度σ\sigmaσ)和视图相关的发射辐射cc。

2022-09-15 11:30:20 698

原创 【CVPR 2022】NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images

神经辐射场(NeRF)是一种技术,从高质量的新观点合成的姿态输入图像的集合。与大多数视图合成方法一样,NeRF 使用调制的映射低动态范围(LDR)作为输入;这些图像经过一个有损的摄像机管道处理,可以平滑细节、剪辑高光,并扭曲原始传感器数据的简单噪声分布。本文中作者修改了 NeRF,直接对线性原始图像进行训练,保持场景的全动态范围。通过从生成的 NeRF 中渲染原始输出图像,我们可以执行新的高动态范围(HDR)视图合成任务。

2022-09-14 22:30:03 1015

原创 【CVPR 2022 多模态融合(有3D检测)】Multimodal Token Fusion for Vision Transformers

在本文中,作者提出了一种多模态 Token 融合方法(Token Fusion),针对基于 Transformer 的视觉任务。为了有效地融合多种模式,Token Fusion 动态检测无信息的 token,并用投影和聚合的跨模态特征替代这些 token。

2022-09-12 18:48:45 2765

原创 【2022】计算机视觉算法岗面试题目和复习知识点汇总

基于上述两个观察就有了这篇文章的cascade R-CNN,简单讲cascade R-CNN是由一系列的检测模型组成,每个检测模型(检测头)都基于不同IOU阈值的正负样本训练得到,前一个检测模型的输出作为后一个检测模型的输入,因此是stage by stage的训练方式,而且越往后的检测模型,其界定正负样本的IOU阈值是不断上升的。补充:cross-attention的Q代表当前序列,K和V是同一个输入,对应的是被编码的序列,也即encoder最后一层的输出结果;为一个query和key向量的维度。

2022-09-03 21:55:42 1959

原创 【CVPR2022 点云3D检测SOTA】SoftGroup for 3D Instance Segmentation on Point Clouds

现有的最先进的三维实例分割方法先进行语义分割然后执行分组。当执行语义分割时,会进行硬预测,使每个点与单个类相关联。然而,如下图所示,由硬决策引起的错误传播到分组中会导致预测实例与真值之间的低重叠,以及出现许多假阳性。为了解决上述问题,本文提出了一种被称为 SoftGroup 的三维实例分割方法,即进行自下而上的软分组,然后进行自上而下的细化。...

2022-08-18 11:07:13 924

原创 【2022 小目标检测综述】Towards Large-Scale Small Object Detection: Survey and Benchmarks

本文的主要贡献有:- 回顾了深度学习时代小目标检测的发展,并对该领域的最新进展进行了系统的调查,并对这些方法的优利弊进行了深入的分析;- 发布两个小目标检测的大规模基准,第一个专门用于驾驶场景,另一个专门用于空中场景。所提出的数据集是首次尝试为SOD量身定制的大规模基准测试;- 研究了几种具有代表性的目标检测方法在本文的数据集上的性能,并根据定量和定性的结果进行了深入的分析,有利于后续小目标检测的算法设计;...

2022-07-31 14:34:15 3229

原创 【点云】M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers

本文提出了一种新的三维目标检测架构,M3DETR,它将不同的点云表示(原始、体素、鸟瞰图)与基于多尺度特征金字塔的不同特征尺度相结合。M3DETR 是第一种使用 Transformer 同时统一多个点云表示、特征尺度以及建模点云之间的相互关系的方法。...

2022-07-26 14:35:00 935

原创 【CVPR2022】A Unified Query-based Paradigm for Point Cloud Understanding

对三维点云的理解是自动驾驶和机器人技术中的一个重要组成部分。在本文中,作者提出了一种新的嵌入-查询范式(EQ-范式),用于三维理解任务,包括检测、分割和分类。EQ-范式是一个统一的范式,它能够将现有的 3D 主干架构与不同的任务头相结合。在 EQ-范式下,输入点云首先在嵌入阶段进行编码,采用任意的特征提取体系结构,该体系结构独立于任务和头部。然后,查询阶段允许针对不同的任务头进行特征编码。这是通过在查询阶段引入中间表示,即 Q-表示来实现嵌入阶段和任务头。作者还设计了一种新的 Q-Net 作为查询阶段网

2022-07-25 20:55:26 1089 1

原创 【DETR用于3D目标检测】DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

本文介绍了一个用于多摄像机三维目标检测的框架。现有的工作是直接从单目图像中估计三维边界框,或使用深度预测网络从二维信息中生成三维目标检测的输入,与此不同,本文的方法直接在三维空间中操作预测。DETR3D 从多个相机图像中提取二维特征,然后使用一组稀疏的 3D 对象查询来索引到这些二维特征中,使用摄像机转换矩阵将 3D 位置链接到多视图图像,然后对每个对象查询进行边界框预测,使用集合到集合的损失来测量地面真实值和预测之间的差异。...

2022-07-23 09:53:12 1461

原创 【DETR用于3D目标检测】3DETR: An End-to-End Transformer Model for 3D Object Detection

本文提出了基于端到端的 3D 目标检测模型,并提出了具有非参数查询和傅里叶位置嵌入的 Transformer。通过大量的实验发现,3DETR 在具有挑战性的 ScanNetV2 数据集上比 VoteNet 基线高出9.5%。此外,本文还展示了 3DETR 适用于检测之外的三维任务,并可以作为未来研究的构建块。...

2022-07-20 17:30:32 1744 1

原创 【CVPR 2021】解决目标检测长尾分布:Adaptive Class Suppression Loss for Long-Tail Object Detection

本文设计了一种新的自适应类抑制损失(ACSL)来有效地解决目标检测长尾分布问题,提高了尾类的检测性能。具体来说,本文引入了一个无需统计的方法来分析长尾分布,从而打破了手工分组的局限性。根据这一观点,本文的 ACSL 自适应地调整了每个类别的每个样本的抑制梯度,确保了训练的一致性,并提高了对罕见类别的区分。......

2022-07-10 15:36:56 1929

原创 【无监督纳米粒子分割】AutoDetect-mNP: An Unsupervised Machine Learning Algorithm

因此本文开发了一种无监督的算法 AutoDetect-mNP,用于分析 TEM 图像和对 mNPs 的粒子形状进行分类,在这个过程中需要最少的人工输入,如上图。本文演示了 AutoDetect-mNP 算法的定量可靠性,以及它作为一个无偏的一般检测方法的潜力,可以用于纳米颗粒的形状分布的描述。本文使用两个不同醒转的金纳米颗粒(AuNPs)数据集用作演示。...

2022-07-08 14:30:43 956 1

autoCAD练习模板

是autoCAD的模板,可以拿来练手

2019-04-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除