自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 【IEEE2021】ORStereo: Occlusion-Aware Recurrent Stereo Matching for4K-Resolution Images

本文提出ORStereo框架解决高分辨率立体匹配难题。针对4K/1000+px大视差场景存在的训练数据稀缺、显存爆炸和遮挡问题,创新性采用两阶段策略:先用低分辨率数据(≤512×448px)训练基础网络,测试时通过分块循环细化和局部归一化实现高精度匹配。核心模块包括基础视差/遮挡估计器(BDE/BME)、循环残差更新器(RRU)和归一化局部细化器(NLR)。实验表明,该方法在4K数据上的误差仅为对比方法的60%,显存占用≤2059MB,且重建完整度更优。同时公开首个合成4K双目数据集,填补领域空白。未来可改

2025-09-12 17:14:44 682

原创 第3周 机器学习课堂记录

本文概述了机器学习的关键概念:1)学习问题分类(监督、无监督、强化学习);2)泛化与过拟合问题;3)模型评估方法(测试集、均方根误差);4)正则化技术及其作用;5)验证集在模型优化中的应用。重点讨论了如何通过数据集划分、正则化和验证集来平衡模型复杂度,避免过拟合,提高泛化能力。这些方法为构建有效机器学习模型提供了基础框架。

2025-09-09 16:16:56 211

原创 【ICCV2015】A Deep Visual Correspondence Embedding Model for Stereo Matching Costs

本文提出一种数据驱动的立体匹配代价(matching cost)计算方法。核心贡献是一个深度视觉对应嵌入(deep visual correspondence embedding)模型,用卷积神经网络(CNN)在大规模带真实视差的立体图像对上训练。网络把原始灰度值显式映射到一个可度量的嵌入特征空间,用内积直接度量 patch 间的视觉相似度/不相似度。实验表明:该度量显著优于传统AD、BT、NCC、Census 等代价函数;嵌入代价与半全局匹配(SGM)结合。

2025-08-19 19:04:02 904

原创 【SMBV2001】经典立体匹配文献:A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms

摘要 本文提出了一种两帧立体匹配算法的模块化框架,将算法分解为匹配代价计算、代价聚合、视差优化和视差精修四个可替换的组件。研究假设已标定和极线校正的图像输入,聚焦于稠密视差图输出。论文详细介绍了各类匹配代价函数(如AD、BT、Census等)、代价聚合方法(方窗、高斯、扩散等)和优化算法(WTA、DP、GC、BP等),并提出了基于能量最小化的全局优化框架。针对视差精修,讨论了亚像素拟合和遮挡检测技术。研究还开发了统一的C++实现平台和公开评测数据集,为立体匹配算法提供了标准化评估基准。该框架为立体视觉算法的

2025-08-16 07:26:20 937

原创 【ECCV1994】立体匹配经典论文:Non-parametric Local Transforms for Computing Visual Correspondence

本文提出两种新型非参数局部变换(Rank和Census变换)用于解决立体匹配和光流中的对应问题。与传统基于像素强度的方法不同,这些变换通过比较局部区域内像素的相对顺序(而非绝对值)来实现匹配,具有对光照变化、异常值和物体边界更鲁棒的优势。Rank变换统计邻域内比中心像素暗的点数,Census变换生成表示局部结构的二进制码。实验表明,这两种方法在物体边界等复杂区域表现优于传统互相关匹配,且计算效率较高(Sun工作站上可达1-2帧/秒)。该研究为非参数统计在计算机视觉中的应用提供了新思路。

2025-08-16 07:04:11 756

原创 【CVPR2019】Deformable ConvNets v2: More Deformable, Better Results

DCNv2 通过三方面创新显著提升目标检测性能:(1)扩展可变形卷积范围至conv3-5阶段,增强几何形变建模能力;(2)引入调制机制,同时控制采样位置偏移Δp和特征幅度Δm∈[0,1];(3)采用R-CNN特征模仿训练策略,通过余弦相似度损失使Faster R-CNN学习前景聚焦特征。在COCO数据集上,DCNv2相比DCNv1提升2.6mAP(检测)和2.0mAP(分割),计算量增加小于5%。未来可改进方向包括调制函数优化、轻量化设计和Transformer架构融合等。

2025-08-05 09:39:04 653

原创 【ICCV2017】Deformable Convolutional Networks

本文提出可变形卷积和可变形RoI池化模块,通过为传统CNN的固定采样位置增加可学习的偏移量,显著提升了模型处理几何变换的能力。这些模块可直接替换现有CNN中的对应组件,通过标准反向传播端到端训练,无需额外监督。实验证明该方法在目标检测和语义分割任务中表现优异,首次验证了深度CNN学习密集空间变换的有效性。虽然存在计算开销增加和偏移学习稳定性等挑战,但该技术通过自适应感受野调整,为处理物体形变提供了新思路。未来可结合自监督学习、架构搜索等技术进一步优化。

2025-08-03 23:56:03 1098

原创 【CVPR2020】WaveletStereo: Learning Wavelet Coefficients of Disparity Map inStereo Matching

本文提出WaveletStereo,一种基于小波变换的新型立体匹配方法,通过多分辨率小波系数学习解决平滑区域和细节区域的视差估计难题。方法采用三个核心模块:1)DCASPP特征提取模块结合密集连接与空洞卷积实现高效多尺度特征学习;2)多分辨率代价体模块构建分层特征表达;3)小波重建模块通过逆向变换从低频到高频逐步恢复视差。在SceneFlow数据集上取得最优性能(EPE=0.84),但KITTI数据上因标注稀疏导致高频学习受限。创新性体现在小波表示范式、DCASPP设计和多分辨率协同机制,未来可优化稀疏数据

2025-07-31 18:17:04 609

原创 【CVPR2020】AANet: Adaptive Aggregation Network for Efficient Stereo Matching

本文提出AANet模型,通过两个创新模块完全替代传统3D卷积,显著提升立体匹配效率。首先,基于可变形卷积的尺度内聚合(ISA)模块动态调整采样位置和权重,有效处理视差不连续区域;其次,并行跨尺度聚合(CSA)模块通过多尺度代价体融合优化无纹理区域匹配。实验表明,该方法在保持精度的同时大幅加速推理(比GC-Net快41倍),在SceneFlow和KITTI数据集上62ms内取得竞争性结果,并具有良好的泛化能力。

2025-07-25 14:45:13 877

原创 立体匹配7——经典算法ADCensus

本文介绍了ADCensus立体匹配算法的完整流程。算法首先通过融合Census结构特征和AD亮度差异特征进行代价计算,然后采用可变形状支持窗进行多方向代价聚合。接着使用扫描线优化方法减少噪声,并通过视差后处理步骤进一步优化结果,包括错误检测分类、区域投票、分情况插值、边缘修正和亚像素增强等处理。实验结果表明,该方法能有效处理图像中的平坦区域、重复结构和遮挡等问题,最终生成高精度的视差图。整个算法在保持计算效率的同时,显著提升了立体匹配的精度和鲁棒性。

2025-07-21 15:17:28 885

原创 立体匹配6——解析KITTI立体匹配数据集

KITTI数据集是自动驾驶领域的重要视觉基准数据集,由德国卡尔斯鲁厄理工学院和丰田技术研究所团队于2012年首次发布。该数据集包含立体匹配、光流、视觉里程计和3D目标检测等多任务数据,采集设备包括高精度激光雷达、多组摄像头及GPS/IMU系统。2015年升级版增加了动态场景数据,采用CAD模型辅助标注运动物体。2020年推出的KITTI-360进一步扩展了数据规模,新增鱼眼镜头和360度激光扫描仪。该数据集推动了自动驾驶视觉算法的发展,为解决真实场景中的立体匹配、目标检测等任务提供了重要基准。

2025-07-20 20:50:20 777

原创 立体匹配5——解析MiddleBurry立体匹配数据集

摘要:本文系统梳理了立体匹配测试数据集的发展历程与评价方法。评价指标主要包括均方根误差、错误匹配像素比例等,并在无纹理、遮挡和深度不连续区域进行细分评估。2001年早期数据集采用平面场景和人工标注;2003年引入结构光技术,实现高精度视差图生成;2014年通过改进标定方法和处理流程,制作了更复杂的33组数据集;2021年新增移动设备拍摄的数据集。这些数据集推动了立体匹配算法的量化评估与改进,从简单平面场景发展到复杂真实场景,图像分辨率从几百像素提升至3000×2000,评价体系也日趋完善。(150字)

2025-07-19 19:36:07 1109

原创 Anaconda和Pycharm基础操作【随时更新】

(1)清华 https://pypi.tuna.tsinghua.edu.cn/simple/(2)中科大 https://pypi.mirrors.ustc.edu.cn/simple/(3)豆瓣 http://pypi.doubanio.com/simple/(4)阿里云 http://mirrors.aliyun.com/pypi/simple/

2025-07-17 22:04:18 305

原创 一些实用的Python包【随时更新】

【代码】一些实用的Python包【随时更新】

2025-07-17 20:41:05 172

原创 立体匹配4——利用视差后处理完善结果

本文介绍了立体匹配算法中的视差后处理技术,主要包括五个方面:1)亚像素插值方法,通过抛物线拟合实现浮点视差计算;2)图像滤波技术如中值滤波、形态学处理等基础优化手段;3)双向匹配的左右一致性检查方法及其改进的单次匹配方案SMP;4)基于分割的视差优化方法,通过超像素分割和鲁棒平面参数估计提升精度;5)鲁棒平面拟合技术如RANSAC和直方图投票法。这些方法能有效纠正视差图中的错误并提高精度,其中基于分割的方案和鲁棒拟合技术效果尤为显著。视差后处理作为立体匹配的关键环节,大大提升了算法的准确性和实用性。

2025-07-14 21:23:35 755

原创 立体匹配3——立体匹配算法中的视差优化

本文系统介绍了立体匹配中的视差计算与优化方法。主要内容包括:1. 全局优化算法(图割法、置信度传播、合作优化),通过最小化能量函数实现视差优化,效果好但计算量大;2. 一维优化算法(动态规划、半全局匹配),在扫描线方向优化,效率高但存在水平撕裂问题;3. 局部一致性优化,作为后处理步骤提升精度,结合超像素分割可进一步改善效果。不同方法在精度、速度等方面各有优劣,需要根据应用场景权衡选择。

2025-07-14 20:43:37 1084

原创 激活函数的优化目标与方向

摘要 激活函数的优化目标主要包括训练稳定性、计算效率和任务适应性。训练稳定性涉及导数特性(防止梯度消失/爆炸)、零均值输出和饱和性控制;计算效率关注数学运算复杂度、导数计算简便性和硬件优化;任务适应性则体现为不同网络架构对激活函数的特定需求(如GELU/Swish适合Transformer,ReLU更适合CNN)。当前优化方向分为两类:一是改进激活函数本身,解决神经元死亡、平滑非线性等问题;二是对FFN结构进行改造,如引入门控机制或混合专家模型(MoE),突破传统"扩展-激活-压缩"的框

2025-07-13 21:32:20 719

原创 深度学习调参经验

深度学习模型调参指南:先做好模型选择与数据清洗,使用预训练模型微调。数据处理需归一化,视觉任务要增强数据。调参核心关注损失函数、学习率、批次大小等参数,建议批次设为16倍数,学习率0.0001(微调)。常用Adam+SGD组合优化,激活函数按层选择。正则化推荐Dropout(≤0.5),BN层需谨慎使用。调参要单变量调整并记录,通过验证集loss和自定义规则筛选最优参数。注意训练与验证表现的差异判断模型能力。

2025-07-13 14:19:46 458

原创 立体匹配2——立体匹配中的代价聚合

本文分析了立体匹配中代价聚合算法的局限性及改进方案。传统固定支持窗方法存在假设过于理想、边缘模糊等问题。文章系统梳理了多种优化方案:基于空间假设的改进(如Shiftable Windows、Variable Windows等)通过调整窗口形状和位置提升精度;基于颜色一致性的方法(如Segmentation-Based、Adaptive Weights等)利用图像分割和滤波技术改善匹配效果。研究指出,结合空间距离和颜色距离的混合策略能取得更好效果,但计算复杂度较高。最后介绍了Fast Bilateral St

2025-07-05 19:27:25 881

原创 立体匹配1——立体匹配算法总体理解

摘要:立体校正算法将双摄图像对校正为标准形态,使对极线水平对齐,方便在水平方向搜索对应点进行三角测距。物距计算依赖视差,即两图像对应点的横坐标差。立体匹配过程通过定义匹配代价(如像素值绝对差)在目标图像中寻找参考图像点的最佳匹配点,生成视差图。理想的视差图应符合近大远小、物距突变边缘清晰、渐变平滑等特征。

2025-07-04 15:34:03 557

原创 轻量视觉网络积累【持续更新】

各种轻量视觉网络的日常积累

2025-07-03 11:54:27 1011

原创 CV顶刊顶会

计算机视觉顶会顶刊概览 计算机视觉领域的重要会议包括CVPR、ICCV和ECCV三大会议,以及TPAMI和TIP两大顶刊。会议分为A类(如CVPR、ICML)、B类(ECCV)和C类(ACCV等);期刊也分A类(TPAMI、IJCV)、B类(CVIU)和C类(IET-CVI等)。这些会议和期刊代表了计算机视觉研究的最高水平,是学者发表成果的主要平台。

2025-07-03 10:14:51 447

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除