- 博客(108)
- 收藏
- 关注
原创 《Robust Synthetic-to-Real Transfer for Stereo Matching》
通过在合成数据上预训练的模型在未见领域上表现出强大的鲁棒性。然而,在现实世界场景中对这些模型进行微调时,其领域泛化能力可能会严重下降。本文探讨了在不损害模型对未见领域泛化能力的前提下,如何微调立体匹配网络。研究动机来源于比较真实标签(GT)与伪标签(PL)在微调过程中的差异:GT会退化,但PL能够保持领域泛化能力。通过实验发现,GT与PL之间的差异包含了有价值的信息,这些信息可以在微调过程中对网络进行正则化。
2025-03-27 22:15:15
251
原创 《Hierarchical Object-Aware Dual-Level Contrastive Learning for Domain Generalized Stereo Matching》
只有当两个像素属于同一对象且位于同一网格时,才共享相同的区域索引(每个网格里面的每个物体区域的特征的均值作为一个样本)(见图3示例)。方法:选择跨尺度负样本中相似度最高的前10%作为硬负样本(例如表格2中HODC的跨尺度硬负样本余弦相似度从0.47降至0.21),这类样本能显著提升特征判别力。:同尺度下区域匹配(如图2中蓝色箭头),在同一尺度下建立区域间的对应关系,强化局部匹配的一致性。下,通过网格划分将特征图分割为区域,并聚合每个区域的像素特征(如平均池化),生成左图对齐后的区域表示。
2025-03-26 21:04:35
827
原创 《Domain Generalized Stereo Matching via Hierarchical Visual Transformation》
近年来,深度立体匹配(SM)网络在计算机视觉领域表现出色,吸引了越来越多的关注。然而,现有的深度SM网络容易学习到依赖于数据集的捷径(shortcut),这导致它们在未见过的现实数据集上泛化能力不佳。本文旨在训练鲁棒的模型,以解决域泛化的立体匹配任务,主要关注从合成数据中学习不依赖于捷径的表示,以缓解域偏移问题。
2025-03-26 16:04:27
468
原创 《ITSA: An Information-Theoretic Approach to Automatic Shortcut Avoidance and Domain Generalization 》
Fisher信息是衡量特征对输入变化的敏感度的一个指标。RIB是信息瓶颈(IB)原理的一个变种,它通过使用统计Fisher信息来代替IB中的互信息,以促进网络学习到既鲁棒又压缩的特征表示。Fisher信息被定义为特征表示对输入变化的敏感度的度量,因此最小化Fisher信息有助于减少网络对输入扰动的敏感性,从而促进学习到不受特定输入变化影响的特征表示。具体来说,给定一个包含立体图像对和相应真实视差图的合成立体数据集,目标是设计一个鲁棒且不受捷径影响的立体匹配网络,能够准确预测未见真实环境中的视差图。
2025-03-25 22:10:49
575
原创 《GraftNet: Towards Domain Generalized Stereo Matching with a Broad-Spectrum and Task-Oriented Featu》
2)任务导向特征适配:通过浅层U型网络(特征适配器)从广谱特征中恢复立体匹配任务相关的信息,减少对源域数据的过拟合。冻结参数训练:固定广谱特征和成本聚合模块参数,仅训练特征适配器参数,通过源域数据驱动特征空间转换。加载预训练特征模块:从ImageNet预训练的经典模型(如VGG16)中提取与基础网络分辨率匹配的中间层特征。模块参数解冻重训练:在获得任务导向特征后,重新训练代价聚合模块参数以适配新特征空间,采用分阶段学习率策略(初始0.001后降至0.0001)进行10轮优化。
2025-03-25 20:44:59
911
原创 《Two-in-One Depth: Bridging the Gap Between Monocular and Binocular Self-supervised Depth Estimatio》
现有的单目和双目自监督深度估计方法是独立的,忽略了两种任务之间的相似性和互补性。为此,本文提出一种TiO-Depth的自监督深度估计算法,通过采用孪生架构,每个子网络都可以作为单目深度估计模型,从而实现单目和双目任务的兼容处理。此外,设计了双路径解码器和单目特征匹配模块(MFM)。双路径解码器能够逐步聚合提取的图像特征,分别用于单目和双目深度估计。而单目特征匹配模块利用交叉注意力机制生成左(或右)视图的代价积,并将其集成到相应的特征中,从而有效地融合两个子网络的特征,处理双目深度估计。
2024-12-08 14:23:45
479
原创 Cvpr24《Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation》
传统的单目深度估计模型往往在处理含有不熟悉内容和布局的图像时表现不佳,因为它们的视觉知识受限于训练数据,尤其在面对新领域的零样本(zero-shot)泛化时更是如此。尽管当前的单目深度估计模型已经从CNN发展到大型视觉Transformer,但依然存在泛化能力不足的问题。为此,作者提出了一个新的方法,名为 Marigold,它利用了现代生成式扩散模型中丰富的视觉先验知识,特别是基于Stable Diffusion模型的改进。
2024-09-04 16:37:13
711
原创 Cvpr2024《Selective-Stereo: Adaptive Frequency Information Selection for Stereo Matching》
现有迭代式的立体匹配方法无法同时感知的高频与低频信息,如边缘细节和平滑区域的信息。为了解决该问题,文中提出了一种新的迭代更新算子,名为 Selective Recurrent Unit (SRU),它能够在多个频率上自适应融合隐藏的视差信息。此外,文中还引入了一个新的Contextual Spatial Attention(CSA)模块,用于生成注意力图作为融合权重。这种方法改进了网络处理多频率信息的能力,减少了迭代过程中重要信息的丢失。实验结果表明这种方法在多个立体匹配标准数据集上的优越性能。
2024-08-04 21:10:24
1350
原创 Cvpr2024《Neural Markov Random Field for Stereo Matching》
手工设计的MRF模型在传统的立体匹配中占据主导地位,但与端到端的深度学习模型相比,其建模准确性不足。尽管深度学习大大改进了MRF模型中的一元项(即单个像素的匹配成本),但整体准确性仍然受到手工设计的二元项(即像素对之间的平滑性约束)和消息传递机制的限制。为了克服这些问题,论文提出了一种神经MRF模型,使用数据驱动的神经网络来设计潜在函数和消息传递机制。这个模型基于变分推理理论构建,以避免收敛问题并保留立体MRF的图结构偏差。
2024-08-03 22:20:17
1599
原创 论文阅读《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》
图像复原任务旨在从低分辨率的图像(模糊,子采样,噪声污染,JPEG压缩)中恢复高质量的图像。图像复原是一个不适定的放问题,因为图像在退化过程中丢失了重要的信息。因此,图像复原任务需要充分挖掘低分辨率图像中的丰富信息。自然场景下的图像包含全局、区域与局部三个尺度的信息。局部信息指的几个像素跨度的特征信息如边缘与局部颜色特征,这些信息可以通过小卷积核来获取。
2023-12-27 22:45:25
1741
1
原创 论文阅读《Restormer: Efficient Transformer for High-Resolution Image Restoration》
图像恢复任务旨在从受到各种扰动(噪声、模糊、雨滴等)影响的低质量图像中恢复出高质量图像,该任务需要强大的先验知识作为引导。基于卷积神经网络的方法感受野受限,无法对像素间的长程依赖进行建模,且在推理过程卷积核的参数固定,无法应对多变的输入内容。相对而言,Transformer中的自注意力机制可以解决以上的问题,而传统的Transformer空间注意力计算过程显存消耗大。为了解决以上的问题,文中提出一种高效的Transformer框架(Restormer)用于图像恢复任务。
2023-12-27 13:39:15
1892
1
原创 论文阅读《Wavelet-Based Texture Reformation Network for Image Super-Resolution》
这篇论文提出了一种基于小波变换的纹理重构网络(WTRN),用于从参考图像中提取和迁移纹理信息,提高低分辨率图像的质量。该方法利用小波变换将纹理特征分解为不同频率的子带,分别进行特征匹配和特征交换,同时引入了一种基于小波的纹理对抗损失函数,使得生成的图像具有更真实的纹理效果。该方法在四个数据集上的实验结果表明,它优于之前的RefSR方法。图像超分辨率的方法分为三种:基于失真的方法,基于感知的方法和基于参考的方法。
2023-12-25 14:07:35
1585
1
原创 论文阅读《Spherical Space Feature Decomposition for Guided Depth Map Super-Resolution》
GDSR是一种多模态图像处理的热门话题,它的目的是利用同一场景中的高分辨率(HR)RGB图像中的额外信息来放大低分辨率(LR)深度图。这个任务的关键步骤是有效地提取RGB/深度特征中的域共享和域独有信息。此外,还需要解决三个细节问题,即模糊的边缘,噪声的表面和RGB纹理伪影。为了解决这些问题,文中提出了一种球形空间特征分解网络(SSDNet)。为了更好地建模跨模态特征,使用基于Restormer块的RGB/深度编码器来提取局部-全局特征。
2023-12-25 13:56:04
1100
1
原创 论文阅读《SGNet: Structure Guided Network via Gradient-Frequency Awareness for Depth Map Super-Resolutio》
深度图的图像引导超分辨率在各个领域有着广泛的应用。但是,复杂的成像环境会导致深度图的结构边缘变得模糊。如图2所示,从梯度图可以看出,它能够很好地表现出图像的结构信息。从频谱图可以看出,高分辨率的深度图和RGB图像都包含了丰富的高频和低频信息,而低分辨率的深度图则丢失了高频信息。基于这些观察,本文关注于利用梯度域和频域来进行深度图的超分辨率。在梯度域中,使用梯度校准模块(GCM)来提取梯度特征的结构表达信息。
2023-12-15 22:25:35
1289
2
原创 论文阅读《Parameterized Cost Volume for Stereo Matching》
现有的立体匹配方法针对大视差场景预测时时间和显存消耗成本大,限制了模型在现实世界的应用。先前的研究工作主要聚焦于使用局部信息的动态代价体进行迭代优化,此类方法虽可以节省内存,但由于缺乏全局视差视野而需要更多的迭代步数才能收敛到目标视差,如图1(a) 所示。为此,文中提出使用高斯分布来编码视差空间。
2023-12-14 22:16:30
1397
1
原创 论文阅读《DPS-Net: Deep Polarimetric Stereo Depth Estimation》
立体匹配模型难以处理无纹理场景的匹配,现有的方法通常假设物体表面是光滑的,或者光照是受控的,这些条件在实际场景中很难满足,只适用于物体级别的重建或者特定的拍摄环境。此外,这些方法还难以处理偏振图像中表面法向的固有歧义性,例如方位角和天顶角的歧义性(指从偏振图像中恢复表面法向量时,由于不同的反射类型和非线性方程的影响,可能存在多个解,导致法向量的方位角和天顶角不唯一),这些歧义性需要依赖于预先计算的粗糙深度或者已知的反射类型来解决。
2023-12-14 00:46:20
1449
1
原创 论文阅读《Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo Matching》
当前基于相关性代价体的立体匹配方法在跨域预测上表现不佳,导致模型在现实世界应用困难。大场景差异、不平衡的视差分布是带来噪声与特征失真的主要原因,也降低了模型的鲁棒性。此外,感受野受限限制模型获得全局信息,使模型对不同数据集敏感。针对该问题,文中提出一种动态计算相关性的方法 Uncertainty Guided Adaptive Correlation (UGAC) 用于调整模型适应不同场景。在warp过程使用一个基于方差的不确定估计模块自适应调整采样区域。
2023-12-13 16:38:11
1097
5
原创 论文阅读《High-frequency Stereo Matching Network》
在立体匹配研究领域,当前的方法在估计视差图的细微特征方面表现不足,尤其是在对象的边缘性能方面。此外,弱纹理区域的混淆匹配和细小物体的错误匹配也是模型性能表现不佳的重要因素。在迭代式的方法中,现有的基于GRU的结构存在一定局限性,用于生成视差图更新的信息与GRU的隐藏状态信息耦合在一起,使得在隐藏状态中保持细微的细节变得困难。
2023-12-12 00:20:21
1573
1
原创 论文阅读《Masked representation learning for domain generalized stereo matching》
近年来,立体匹配的领域泛化能力受到了越来越多的关注,但是现有的方法往往忽略了模型在不同训练阶段的泛化性能变化。如图1所示。现有的工作常使用带有标签的目标域样本来测试模型的泛化性能,而现实世界里,目标域数据集的标签是难以获取的。本文基于掩码表征学习和多任务学习的思想,提出了一种简单有效的掩码表征方法,用于提升立体匹配的领域泛化性能。具体地,将掩码后的左视图和完整的右视图作为模型的输入,然后利用一个轻量级的解码器和一个特征提取模块来重建完整的左视图。
2023-12-11 15:14:18
1329
2
原创 论文阅读《Domain Generalized Stereo Matching via Hierarchical Visual Transformation》
立体匹配模型是近年来的研究热点。但是,现有的方法过分依赖特定数据集上的简单特征,导致在新的数据集上泛化能力不强。现有的立体匹配方法在训练过程中容易学习合成数据集中的表面特征(捷径特征 shortcut features)。这些特征主要有两种伪影(artifacts):一是局部颜色统计特征的一致性,二是对局部色度特征的过度依赖。这些特征不能有效地适应不同域之间的迁移。之前的研究主要关注于(1)利用目标域的有标签数据对模型进行微调。(2)同时使用有标签的合成数据集和无标签的真实数据集来训练域自适应立体匹配模型。
2023-12-10 19:55:59
1413
1
原创 论文阅读《Unsupervised Deep Asymmetric Stereo Matching with Spatially-Adaptive Self-Similarity》
无监督立体匹配因摆脱视差标签的限制而广受关注,而多数无监督立体匹配算法都基于左右视图具有一致的视觉属性的前提,当该前提不成立时模型可能会坍塌。在本文中,作者提出一种空间自适应的自相似(SASS)用于无监督非对称的立体匹配。该方法通过扩展自相似来自适应生成对非对称鲁棒的深度特征。为了学习到有效的采样模式,作者提出了一种带有正负权重的对比相似性损失,该损失进一步引导SASS生成对称性不敏感的特征,同时保持同名点特征之间的一致性。在多个数据集上的实验结果表明该方法可以应对不同尺度与不同非对称的噪声条件。
2023-12-10 00:37:00
1010
1
原创 论文阅读《Learning Adaptive Dense Event Stereo from the Image Domain》
事件相机在低光照条件下可以稳定工作,然而,基于事件相机的立体方法在域迁移时性能会严重下降。无监督邻域自适应作为该问题的一种解决方法,传统的无监督自适应方法依赖于源域的标签值,但源域的视差标签值难以获取。针对该问题,文中提出一种新的无监督域自适应密集时间立体匹配方法(ADES)用于缓解目标域域源域之间的域偏差导致的模型性能下降问题。首先,文中提出一种自监督模块通过图像重建来训练在目标域的模型。与此同时,在源域上训练一个伪影去除网络协助去除重建图像中的间歇性伪影。
2023-12-08 21:59:24
1317
1
原创 论文阅读《Robust Monocular Depth Estimation under Challenging Conditions》
现有SOTA的单目估计方法在理想的环境下能得到满意的结果,而在一些极端光照与天气的情况下往往会失效。md4all。该方法首先生成一组与正常样本对应的复杂样本,然后通过生成的样本来计算相应原始视图上的标准损失,引导其自监督或者全监督来训练模型,使得模型在不同条件下能够恢复原始的信息。在nuScenes 和 Oxford RobotCar 数据集上的结果表明该方法的有效性,在标准条件下和极端条件下的表现都超过了之前的工作。
2023-09-06 17:32:24
881
1
原创 ELFNet: Evidential Local-global Fusion for Stereo Matching
针对现有立体匹配模型面临可靠性和跨域泛化的问题,本文提出了Evidential Local-global Fusion(ELF)框架,该框架包含了不确信估计和置信度感知融合模块,并基于模糊不确定性和认知不确定性来预测视差图。此外,该模型还使用逆伽马分布来引导多层级融合与基于成本代价体和transformer结构的立体匹配信息融合。实验结果表明该框架在准确度和跨域泛化性能上达到了最先进的水平。
2023-08-24 22:20:15
620
原创 论文阅读《Centralized Feature Pyramid for Object Detection》
特征金字塔模块在众多计算机视觉任务中都有优异的性能表现。针对现有的方法过渡关注于层间的特征交互而忽略了层内的特征交互的问题,本文提出一种基于全局显式集中式特征调节的中心化的特征金字塔(Centralized Feature Pyramid, CFP)用于目标检测任务。其中,发明了一个空间视觉中心策略用于捕获信息,包含一个捕获全局长程依赖的轻量化MLP与一个捕获局部角落区域信息的可学习的视觉中心机制;
2023-05-08 16:22:02
1158
1
原创 论文阅读《PIDNet: A Real-time Semantic Segmentation Network Inspired by PID》
针对双分支模型在语义分割任务上直接融合高分辨率的细节信息与低频的上下文信息过程中细节特征会被上下文信息掩盖的问题,提出了一种新的网络架构PIDNet,该模型受启发于PID控制器并包含:空间细节分支、上下文分支与边界注意力分支。通过使用边界注意力来引导空间细节与上下文信息融合。实验结果表明该模型的精度超过了具有相似推理速度的所有模型,在Cityscapes和CamVid数据集上取得了最佳的推理速度和精确度的平衡。将PID控制器与CNN相结合,提出一个三分支的网络结构。
2023-04-30 22:38:31
1254
1
原创 论文阅读《Learning the Distribution of Errors in Stereo Matching for Joint Disparity and Uncertainty Est》
受启发于多任务学习模型,本文提出一种联合了视差与不确定性估计的损失函数用于监督立体匹配模型的训练,通过使用KL散度来约束预测的不确定性分布与预测误差分布,从而实现模型性能的提升。此外,文中还提出一种可微的 soft-histogramming 来拟合分布。实验结果表明,该方法可以使得模型在视差与不确定性预测的性能得到较大提升。提出一种新的不确定性估计模块来从视差子网络生成的中间多分辨率视差图中提取信息。提出一种可微的软直方图技术,用于近似视差误差和不确定性的分布。基于KL散度损失监督模型训练。
2023-04-19 16:51:51
490
1
原创 论文阅读《GlueStick: Robust Image Matching by Sticking Points and Lines Together》
针对视角变化时在闭塞、无纹理、重复纹理区域的线段匹配难的问题,本文提出一种新的匹配范式(GlueStick),该方法基于深度图神经网络将点、线的描述符统一到一个框架中,利用点之间的信息将来自匹配图像之间的线进行粘合,提高了模型的联合匹配效率,表明了在单一框架中使用两种特征的互补性能大幅度提升性能。使用数据驱动的方法代替启发式几何策略进行线匹配,在统一的框架中联合表征点与线。提供了一种新的架构,充分挖掘图像内特征之间的局部关联信息。实验结果表明,所提出的方法比之前最先进的方法有较大提升。
2023-04-12 20:14:34
2758
1
原创 论文阅读《NeRF-Supervised Deep Stereo》
针对深度估计的标签数据难以获取,自监督方法在病态(遮挡、非朗伯面)区域的表现差,跨域泛化能力弱的问题,本文提出了一种新的框架用于在无标签条件下训练双目立体深度估计模型,该方法通过NeRF来对单目拍摄的图像序列进行有监督训练得到目标场景的神经辐射场,使用体渲染得到的立体三元组来补偿遮挡区域的信息,并将深度图作为代理标签(proxy label)对双目深度估计模型进行训练。
2023-04-11 11:14:26
1553
2
原创 论文阅读《LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs》
本文针对 3D 卷积过程中深度分离卷积与大卷积核卷积难以有效应用的难题,提出了空间分区卷积与与适用于3D卷积过程的大卷积核卷积方式,通过在空间上相邻的位置之间共享权重来将大卷积核重新映射为小卷积核,与普通大卷积核相比,该方法的延迟更短,而且空间维度之间的权重共享可以克服过拟合问题,实验数据表明该方法在多个下游任务中有较好的性能表现。
2023-04-06 13:48:33
989
1
原创 论文阅读《Iterative Geometry Encoding Volume for Stereo Matching》
该文章针对立体匹配中缺乏非局部几何知识,难以处理病态区域中的局部歧义性的问题,提出用于立体匹配。该模型构建了一个来学习几何信息与上下文信息,并通过迭代优化的策略来更新视差图。
2023-04-05 12:08:14
971
1
原创 论文阅读《Parallax Attention for Unsupervised Stereo Correspondence Learning》
不同数据集的视图之间的基线、焦距与分辨率不同,基于Cost Volume固定预设视差范围的立体匹配方法无法很好处理大视差预测问题。为此,作者提出一个基于视差注意力机制的立体匹配方法来捕捉大视差范围的匹配点的信息,通过将极线约束与注意力机制结合,计算沿着极线方向的特征相似度来获取匹配点之间的匹配关系。
2023-03-21 12:34:39
520
1
原创 论文阅读《Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields》
基于神经辐射场的渲染过程中,每个像素仅对应一条渲染射线导致当训练与测试图像尺度不同会引起渲染场景出现模糊与锯齿现象。增加采样光线(增加采样频率)可以缓解锯齿与模糊现象但同时伴随计算量的剧增,为此Mip-NeRF的将沿射线的渲染过程改进为渲染圆锥体的过程。
2023-03-14 15:05:25
401
1
原创 论文阅读《Block-NeRF: Scalable Large Scene Neural View Synthesis》
Block-NeRF是一种能够表示大规模环境的神经辐射场(Neural Radiance Fields)的变体,将 NeRF 扩展到渲染跨越多个街区的城市规模场景。该方法将场景分解为单独训练的 NeRF,使渲染时间与场景大小解耦,并允许对环境进行每个街区的更新。
2023-03-10 17:37:02
2706
1
原创 论文阅读《Point NeRF:Point-based Neural Radiance Fileds》
体素神经渲染的方法生成高质量的结果非常耗时,且对不同场景需要重新训练(模型不具备泛化能力),而基于MVS的方法可以快速重建场景。Point NeRF结合了两种方法的优点,通过在基于光线进行的渲染管道中聚合场景表面附近的神经点特征来有效渲染。Point NeRF与可以与其他 3D 重建方法结合,并使用一种新的剪枝与生长机制来处理此类方法中的错误与异常值,其重建方法比NeRF提升了30倍。
2023-03-09 20:46:04
1251
2
原创 基于神经辐射场(Neural Radiance Fileds, NeRF)的三维重建- 简介
Nerf(neural Radiance Fileds) 为2020年ICCV上提出的一个基于隐式表达的三维重建方法,使用2D的 Posed Imageds 来生成(表达)复杂的三维场景。现在越来越多的研究人员开始关注这个潜力巨大的领域,也有方方面面关于 Nerf 的工作在不断被提出。Nerf 为输入为稀疏的、多角度、带有姿态信息的图像的神经网络模型,可以用于渲染出任意视角下的清晰照片。
2023-03-04 00:29:02
3706
原创 论文阅读《Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》
此文提出了一个基于transformer的匹配方法名为STereo TRansformer (STTR),该方法使用位置信息与注意力机制来提高模型表现。放宽了视差范围限制明确了遮挡区域并进行了置信度估计保证了匹配的唯一性基于transformer架构,使用可以选择的自注意力与交叉注意力机制和最优传输理论来进行特征匹配提出一个相对位置编码来增强匹配特征的表达性使用注意力机制来处理匹配过程中的易混淆特征提出一种内存节省的STTR模型,使得模型能在现有的硬件上训练与推理。
2023-02-27 11:44:32
489
1
原创 pytorch单机多卡混合精度分布式训练(DDP+AMP) 简单完整例程
pytorch单机多卡混合精度分布式训练(DDP+AMP) 简单完整示例
2022-11-06 15:15:40
1854
原创 论文阅读《Local Similarity Pattern and Cost Self-Reassembling for Deep Stereo Matching Networks》
基于CNN的立体匹配网络存在以下的不足:1) 卷积特征(CF)只学到了外观信息。2)由于卷积操作带有滤波作用,目前基于卷积的视差细化模块往往会产生过于平滑的结果。在这篇工作中,作者提出了两个模块来解决这些问题,首先,为深度立体匹配模型引入了一个成对的特征,名为LSP(Local Similarity Patern),通过探索邻域之间的信息来得到一个更具有判别性的匹配特征。其次,作者设计了一个视差增强策略,并将其应用于代价分布与视差图上。
2022-10-16 13:21:29
1012
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人