美丽人参.-优快云博客

原创二十年代深度立体匹配的进化与前沿综述

深度立体匹配在深度学习的推动下迎来革命性突破，论文《A Survey on Deep Stereo Matching in the Twenties》系统梳理了2020年代的研究进展。从CNN成本体积聚合、NAS架构搜索到迭代优化（如RAFT-Stereo）、Transformer和马尔可夫随机场等范式，论文详细分析了各类方法的创新设计。针对效率优化和多任务延伸，提出了紧凑成本体积、轻量网络及跨模态融合等方案，并探讨了领域迁移、非朗伯物体等挑战的解决方案。

2025-08-04 22:27:36 1233

原创 CasMVS：基于级联成本体积的高效立体匹配方法

摘要：针对三维重建中高分辨率图像导致的显存与计算瓶颈，Gu等人提出级联成本体积方法，将单一大成本体积分解为多阶段逐步精化的结构。该方法通过特征金字塔网络，以粗到细方式逐层构建成本体积，动态调整采样范围与分辨率。实验表明，在DTU和Tanks & Temples数据集上，该方法在提升重建精度的同时，显存降低50.6%，运行时间减少59.3%。在Scene Flow和KITTI 2015等双目任务中同样表现出色，验证了其高效性与泛化能力。该方法为高分辨率三维重建提供了可扩展的解决方案。

2025-08-01 13:44:32 879

原创 Effi-MVS：迭代动态成本体积在高效多视图立体重建中的应用

本文介绍一种基于迭代动态成本体积的高效多视图立体重建方法，通过轻量级3D CNN预测初始深度图，并利用2D卷积GRU网络在窄逆深度范围内迭代优化，显著降低了高分辨率MVS任务的GPU内存和计算消耗。实验表明，该方法在DTU和Tanks&Temples基准上保持重建精度的同时，将显存需求减少1.8GB以上，运行速度提升2倍。主要创新在于动态成本体积构建策略和多阶段迭代优化机制，但仍存在对极端光照和动态场景适应性不足的局限。未来可结合Transformer等结构进一步增强性能。

2025-07-28 14:26:52 888

原创 FDN-MVS：基于特征分布归一化的多视图立体匹配方法深度解析

摘要： FDN-MVS提出了一种基于特征分布归一化的多视图立体匹配方法，通过分布残差细化模块（DRR）和迭代深度精炼框架解决多视角特征分布不一致问题。核心创新包括：1）DRR模块自适应归一化跨视角特征，在DTU数据集上误差降低11.4%；2）采用ConvGRU替代LSTM提升30%计算效率。实验表明，该方法在DTU和Tanks & Temples数据集上均达到SOTA性能（DTU综合误差0.307mm）。FDN-MVS为复杂场景三维重建提供了新思路，但计算开销和极端场景泛化能力仍有优化空间。

2025-07-21 17:33:36 800

原创 ConvNeXt V2：卷积网络与自监督学习的协同设计革命

Meta AI与纽约大学团队提出ConvNeXt V2，通过协同设计全卷积掩码自编码器（FCMAE）和全局响应归一化（GRN）层，解决了传统卷积网络在自监督学习中的瓶颈。FCMAE采用稀疏卷积处理遮罩输入，实现高效预训练；GRN通过通道竞争机制防止特征坍塌。实验表明，ConvNeXt V2在ImageNet分类（84.6% top-1）、目标检测和语义分割任务中超越Transformer架构（如Swin），同时保持计算高效性。该工作首次证明了纯卷积网络在自监督学习中的强大潜力，为视觉模型设计提供了新方向。

2025-06-16 20:47:41 1158

原创《A ConvNet for the 2020s》：CNN的“复兴”之路——ConvNeXt

本文探讨了CNN架构在现代视觉任务中的复兴。研究表明，通过系统借鉴Transformer的设计理念（如层次化结构、大卷积核、归一化优化），传统ResNet可以升级为ConvNeXt，其性能媲美甚至超越Swin Transformer。关键改进包括：1) 训练策略现代化（AdamW优化、数据增强）；2) 宏观结构调整（多阶段计算分配）；3) 微观优化（GELU激活、LN）。ConvNeXt验证了CNN的持续生命力，在保持计算效率的同时实现了与Transformer相当的性能，为视觉模型架构提供了新思路。

2025-06-02 11:16:44 1301

原创 MVSNet：多视角立体视觉的深度推断方法

简单的介绍了多视图立体匹配MVSNet的方法，并阐述了一些个人的理解

2025-05-26 00:06:39 1643

原创深入解析经典论文：用可视化「打开」CNN的黑箱

Zeiler与Fergus的这篇工作，不仅揭开了CNN的“黑箱”之谜，更奠定了可视化驱动模型优化的方法论。通俗来说，这篇论文教会我们：不要盲目堆参数，可视化帮你找问题。小滤波器+合理步长，低层特征更健康。CNN真的在“看”物体，不是瞎猜！

2025-05-18 23:10:28 1167

原创使用aliyun创建springboot项目出现unknown的解决办法

在Spring initializr中因为不能正常的使用https://start.spring.io网址，转而使用许多博客中提供的https://start.aliyun.com/的服务器URL快速创建springboot项目后，发现创建的结果异常，出现以下图中的现象。将https://start.aliyun.com/换成https://start.aliyun.com，即把最后的/去掉。

2023-12-29 21:55:25 947

原创 mmseg potsdam训练集的准备

按照mmseg的文档，我们只需要下载 ‘2_Ortho_RGB.zip’ 和 ‘5_Labels_all_noBoundary.zip’。随后按照mmseg官方提供的命令运行即可。打开数据处理的python文件，这里可以发现，这个转换的文件里面会把你指定目录下的所有zip压缩包都进行处理并把图像和标签添加到数据集中。到这里你可能会认为，每个压缩包的名字都不一样，即使下载了多余的压缩包数据，应该也不会出现错误吧。这个操作会导致后面一系列的问题，可能你会认为是学习率的问题、又或者是哪里出现了bug等等等。

2023-12-25 17:02:13 1562

原创 Linux通过文件名查找对应文件路径

当我们使用Linux时，有时候只记住了文件名，但是我们更想知道它对应的路径，这时候就可以通过find命令进行查找。

2023-12-25 14:57:28 2181

原创 anaconda中如何查看.condarc配置文件

最近在配置环境，用到了conda安装各种包。一次不小心添加了一个错误的镜像网址，导致下载包出现错误，所以需要将.condarc中的错误镜像删除。实验适用在Linux操作系统中1.首先在终端输入conda infoconda info像下面这样然后你会看到以下的信息：红色框中即为我们需要的信息，即.condarc文件的位置，但是我们正常打开是看不到的，因为这是一个隐藏文件。

2023-11-30 16:28:51 3088

原创 ECANet中的轻量级注意力模块

Excitation部分则与SE模块不同，将两个全连接提取特征的部分替换成了一维卷积，作者的经验表明避免降维对于学习通道注意力非常重要，适当的跨信道交互可以在显著降低模型复杂度的同时保持性能。在经过这两个部分后，再对结果使用激活函数，得到通道注意力权重，再将其与原输入相乘（即对通道进行加权）得到最终的结果。Squeeze部分与SE模块相同，采用的自适应下采样，将通道方向矩阵的大小自适应的缩小到1×1的大小。ECA模块是在SE模块的基础上改进而来，同样的具有Squeeze和Excitation两部分。

2023-09-20 23:25:28 247 1

原创 SENet中SE通道注意力模块

对Squeeze后的结果进行两次全连接，第一次降低通道的数量[c2/16, 1, 1]，第二次又恢复到原来的大小[c2, 1, 1]，再经过一个Sigmoid激活函数，得到通道方向的注意力分数[c2, 1, 1]对输入X进行降维，输入X原来的维度是[c2, h, w]，降维后变成[c2, 1, 1]，这里是使用了全局平均池化操作，将通道方向的每个矩阵通过池化变成一个实数。我们将特征维度降低到输入的 1/16，然后经过ReLu激活后再通过一个全连接层回到原来的维度。②极大地减少了参数量和计算量。

2023-09-17 21:37:01 667 1

原创 PaddleSeg-2.6.0中运行官方演示代码出错解决办法

2.‘avg_loss_list = [l[0] / log_iters for l in avg_loss_list]’也是要改成‘avg_loss_list = [l / log_iters for l in avg_loss_list]’。1./home/aistudio/PaddleSeg/paddleseg/core/train.py 文件内'avg_loss += loss.numpy()[0]'改成‘avg_loss += loss.numpy()’使用VOCaug数据集时会出现错误。

2023-09-15 15:32:43 3372 12

原创汉诺塔问题的多杆与prolog的实现

hanoi5(2,A,C,D,E,B) :- %当A杆上只有两个盘子时，通过C、D、E杆的辅助，移动三次，到达B杆上。hanoi5(2,A,C,D,E,B) :- %当A杆上只有两个盘子时，通过C、D、E杆的辅助，移动三次，到达B杆上。hanoi5(M,B,A,C,D,E). %将B杆上的n-3个盘子通过A、C、D杆的辅助，移动到E杆上。hanoi5(M,B,A,C,D,E). %将B杆上的n-3个盘子通过A、C、D杆的辅助，移动到E杆上。

2023-07-17 13:25:46 794 1

原创 Machine Learning-Clustering-语义分割

图像语义分割

2023-07-01 16:32:03 249

原创深度学习的自学笔记-7

1.AlexNet在激活函数上选取了Relu函数，在训练阶段梯度衰减快慢方面，Relu函数比传统神经网络所选取的非线性饱和函数要快，非线性饱和函数有：sigmoid函数，tanh函数。对于非饱和函数Relu来说，不需要对其输入进行标准化，但Alex等人发现，在Relu层加入LRN，可形成某种形式的横向抑制，从而提高网络的泛华能力。（可以避免过拟合现象的发生）2.AlexNet的模型在两个GPU上面运行，每个GPU负责一半网络的运算。，数据增强等手段增加训练的数据样本，以达到防止过拟合的目的。

2023-06-28 19:37:26 97 1

原创深度学习的自学笔记-6

1.residual learning，模块主要解决在加深网络层数的情况下，训练缓慢及效果却更差的问题，从数学角度看待，在未使用残差结构时候，由于链式法则，使得梯度相乘后变为一个很小的值，导致训练的时候很慢，在加上残差结构时，梯度在其原来的基础上加上了一个原输入，使得梯度相对于前一种情况而言较大，能够使得训练加速收敛。阅读resnet原论文、在paddle中跑了fcn网络并得到预测结果。这是在paddle上进行预测的结果（左）与真实的图片（右）进行对比。在跑代码的过程中得到了一些直观性的感受。

2023-06-23 14:04:02 119 1

原创深度学习的自学笔记-5

FCN网络结构使用的是vgg16的backbone，主要区别就是抛弃了传统的全连接层，使用卷积代替，通过backbone后的卷积，将图像的通道数变成了图像的分类数，大小即为W/下采样倍数×H/下采样倍数×num_cls，再经过一个上采样，转置卷积，也可使用双线性插值，将图像还原回原大小尺寸，得到W×H×num_cls大小的图像，再经过一个softmax函数，对每个像素进行分类预测，得到分割后的图像。总结：在上采样的这个操作上，不宜一次性进行过大倍数的上采样，而是应该分层次的进行。

2023-06-15 21:12:02 83

转载拉格朗日乘子法、KKT条件

KKT条件

2023-06-10 14:43:36 78

原创协方差矩阵

其中，对角线上的元素为各个随机变量的方差，非对角线上的元素为两两随机变量之间的协方差，根据协方差的定义，我们可以认定：矩阵 Σ 为。分别表示两个随机变量所对应的观测样本均值，据此，我们发现：方差。(symmetric matrix)，其大小为 d × d。对于这些随机变量，我们还可以根据协方差的定义，求出。表示样本量，每个随机变量所对应的观测样本数量均为。可视作随机变量 x 关于其自身的协方差。根据方差的定义，给定d个随机变量。,k=1,2,...,d ，则这些。

2023-06-10 14:02:50 112

原创深度学习的自学笔记-4

FCN网络舍弃掉了CNN中的全连接层，采用反卷积层对最后一个卷基层的特征图进行上采样，使它恢复到输入图像相同的尺寸，从而可以对每一个像素都产生一个预测，同时保留了原始输入图像中的空间信息，最后在特征图进行像素的分类。从宏观的角度看待，即是把图片中的同一物体打上相同的标签，达到分割的效果。转置卷积的作用即是为了还原feature map的尺寸大小，因为语义分割的目的是将图片中的每个像素进行分类，而在经过卷积后，图片中的特征信息已经被压缩，所以就需要一个上采样的操作还原图片的尺寸。

2023-06-07 19:29:58 77 1

原创深度学习的自学笔记-3

GoogLeNet基于LeNet提出，其采用了Inception模块，模块内部分四路进行特征提取，最后在进行连接得到这一层的输出，Inception模块的每个分路保证相同的大小，便于最后的连接；同时模型中使用了辅助分类器，其在训练的过程中使用到，将模型中间层作为一个输出，计算预测值与真实值的损失，通过损失的反向传播，改善了之前的模型中梯度下降缓慢的情况。神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失。

2023-05-31 19:24:50 87 1

原创深度学习的自学笔记-2

验证集的表现，与7类似，不同之处在于得到模型的输出后，结果softmax得到了一组概率值，需要对输出取最大值对应的索引位置值，表示模型的预测结果，谁的概率值越大，模型就预测结果为哪一类别，这里会使用到torch.max函数，得到预测结果和真实标签后就可以对模型进行相应的评价，如acc，f1_score等等。在上一个遍历中首先拿到每一个数据将输入和标签分开，再进行优化器的梯度清零，接着将输入放到模型得到输出，其次就根据定义的损失函数计算预测值和真实值之间的损失，然后对损失的反向传播，最后更新模型的权重。

2023-05-27 17:35:40 73 1

m0_64719223的博客