xiongxyowo-优快云博客

虽然data_preprocessor名字里面有个pre，但实际上，数据是先通过train_pipeline/test_pipeline中的各项数据增强后，然后再交由SegDataPreProcessor打包成偏tensor的形式，最终输入网络进行训练/测试。从更加容易理解的角度出发，data_preprocessor实质上更像是data_augmentation的最后一步。本文讨论的是MMSeg 1.x的实现。

2024-12-12 11:39:05 295

原创关于MMSegmentation/MMCV中的random resize与keep ratio

具体来说，在缩放完后，会将新图的高度除以原图的高度，得到高度的缩放比例r1；那么，如果keep_ratio设为False，此时当前新图像的宽度为，从s1与s2区间内随机取一个倍率，并乘以scale[0]。ratio_range也是一个tuple，格式为(s1, s2)，可以理解为缩放的倍率。如果keep_ratio设为True，那么宽度的倍率为4320/1280=3.375，高度的倍率为1080/720=1.5。其中，scale一般是个tuple，格式为(w, h)，可以理解为缩放的基数。

2024-12-12 10:36:20 357

原创 MMSegmentation训练阶段自定义Loss不下降/下降非常缓慢问题排查

在分割模型中引入了自定义loss(例如kl_loss)，训练过程中新loss几乎不会下降，未被正常优化。这个loss命名的问题一般存在config或者loss的具体实现代码中。例如，kl散度损失记为。也就是损失函数的命名必须以。是可以正常优化的，而。

2024-12-06 14:35:19 194

原创 MMSegmentation验证阶段显存泄露问题排查

这就会导致一个问题，如果任务的分割类别比较多(如本文场景中的150类)且分辨率较高(1080P以上)，那么这个seg_logits将会占用很大的显存，且不会被自动释放(seg_logits包装在SegDataSample对象中，该对象中还有一些其他重要的元数据)。考虑调试场景，训练/验证阶段batch size均为1。训练阶段显存占用正常，约2GB;验证阶段显存占用异常，从2GB开始逐渐上升直到Out-Of-Memory.由于这个seg_logits根本就没用，因此直接将其删除即可。

2024-11-25 13:10:21 286

原创 MMSegmentation测试阶段推理速度非常慢的一种可能原因

visualizer会在测试阶段导出可视化图到本地，而这一过程会非常慢。如果只需要获取预测结果本身，并不需要在预测结果的基础上进一步可视化，则应该将visualizer关闭。

2024-11-02 15:29:15 286

原创每日论文阅读1——LSKANet: Long Strip Kernel Attention Network for Robotic Surgical Scene Segmentation

手术场景分割是机器人辅助手术中的一项关键任务。然而，手术场景的复杂性，主要包括局部特征相似性(例如，在不同解剖组织之间)、术中复杂的伪影和难以区分的边界，对准确分割构成了重大挑战。为了解决这些问题，我们提出了长条核注意力网络(LSKANet)，包括两个设计良好的模块，分别是双块大核注意力模块(DLKA)和多尺度亲和特征融合模块(MAFF)，可以实现手术图像的精确分割。具体来说，通过在两个块中引入具有不同拓扑结构(级联和并行)的条形卷积和大内核设计，DLKA可以充分利用区域和条状手术特征，并提取视觉和结构信息

2024-09-17 22:01:48 1362 6

原创每日Attention学习16——Multi-layer Multi-scale Dilated Convolution

与传统的编码器-解码器结构相比，更好的分割模型应该使其编码器能够尽可能多地获取全局信息。然而，这通常受到小感受野应用的限制，因此传统编码器学习的图像特征包含的全局信息不足。多尺度膨胀卷积可以在一定程度上解决这个问题。但是，它仍然存在以下缺点：1）相应的图像大小通常是单一的，可能会错过不同尺度的全局信息，2）由于多层信息组合效率低下，可能会丢失更多的血管细节，特别是影响眼底图像中那些小血管的分割。为了解决这两个问题，我们提出了 MMDC 模块并将其插入 U-Net 模型的 skip 连接中。

2024-08-25 22:45:35 733

原创每日Attention学习15——Cross-Model Grafting Module

Transformer在全局特征上更优，CNN在局部特征上更优，对这两者进行进行融合的最简单做法是直接相加或相乘。但是，相加或相乘本质上属于"局部"操作，如果某片区域两个特征的不确定性都较高，则会带来许多噪声。为此，本文提出了CMGM模块，通过交叉注意力的形式引入更为广泛的信息来增强融合效果。

2024-08-25 21:25:55 809

原创 [作者解读] SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation

SAM2-UNet 采用 SAM2 的 Hiera 骨干作为编码器，而解码器则采用经典的 U 型设计。此外，还在编码器中插入了Adapter，以便进行参数高效微调。在各种下游任务(如伪装目标检测、显著目标检测、海洋动物分割、镜面检测和息肉分割)上进行的初步实验表明，我们的 SAM2-UNet 完全可以击败现有的最先进专业方法，而无需任何花哨设计。

2024-08-22 01:10:07 3427

原创每日Attention学习13——Adaptive Feature Fusion

【代码】每日Attention学习13——Adaptive Feature Fusion。

2024-07-29 23:24:47 439

原创每日Attention学习14——Efficient Self-Attention

Self Attention操作在具有优秀的长距离建模能力的同时，也有着较高的计算与内存成本，因此需要进行优化。本文的ESA模块中的Query直接通过原特征Reshape得到，而Key与Value则通过Pyramid Pooling操作得到。

2024-07-29 23:16:22 680

原创每日Attention学习12——Exterior Contextual-Relation Module

原文表述：在临床环境中，不同样本之间存在息肉的同步视觉模式。基于这一关键观察，属于所有训练数据的同一语义类的区域特征应该具有上下文关系。因此，我们提出了一种新颖的跨不同样本的上下文关系探索模块。具体做法则是，对于编码器最后一层得到的全局特征(图中红色方块)，进行两次增强：第一次是直接将全局特征送入一个1×11×1卷积(图中浅紫色部分)以获取一个粗糙分割mask，该mask与全局特征相乘后便能得到过滤掉背景特征的增强特征(图中enqueue左边的部分)。

2024-07-23 17:41:41 365

原创每日Attention学习11——Lightweight Dilated Bottleneck

LDB的结构整体上借鉴了ResNet的思想，将模块设计为残差模块，以在网络层数尽可能少的情况下收集更多的特征信息。具体来说，在bottleneck处，通过1×1卷积将输入特征的通道数减半，减少通道数之后，参数量和计算量大大减少，虽然这样会损失一部分准确率，但此时多堆叠两个模块比弥补损失更为有利。同时，由于使用了1×1卷积，必须加深网络深度才能获得更大的感受野，因此在1×1卷积之后，增加了3×1和1×3的分解卷积，以拓展感受野，从而捕捉更大范围的上下文信息。而且分解卷积也是基于考虑参数数量和计算量。

2024-07-14 22:24:21 532

原创每日Attention学习10——Scale-Aware Modulation

我们提出了一种新颖的卷积调制，称为尺度感知调制 (SAM)，它包含两个新模块：多头混合卷积 (MHMC) 和尺度感知聚合 (SAA)。MHMC 模块旨在增强感受野并同时捕获多尺度特征。SAA 模块旨在有效地聚合不同头部之间的特征，同时保持轻量级架构。

2024-07-14 22:07:35 501

原创每日Attention学习9——Efficient Channel Attention

通过剖析 SENet 中的通道注意模块，我们通过经验证明避免降维对于学习通道注意很重要，适当的跨通道交互可以保持性能，同时显着降低模型复杂性。因此，我们提出了一种无需降维的局部跨通道交互策略，可以通过 1D 卷积有效实现。此外，我们开发了一种自适应选择 1D 卷积核大小的方法，确定局部跨通道交互的覆盖范围。

2024-07-09 23:51:31 345

原创每日Attention学习8——Rectangular self-Calibration Attention

矩形自我校准注意力（RCA）明确地模拟矩形区域并校准注意力形状。

2024-07-05 00:02:27 378

原创每日Attention学习7——Frequency-Perception Module

具体来说，我们采用八度卷积以端到端的方式自动感知高频和低频信息，从而实现伪装物体检测的在线学习。八度卷积可以有效避免DCT引起的块状效应，并利用GPU的计算速度优势。此外，它可以轻松插入任意网络。

2024-07-01 23:04:18 429

原创每日Attention学习6——Context Aggregation Module

为了将多层次的融合特征整合到伪装物体预测中，我们设计了一个上下文聚合模块（CAM）来挖掘上下文语义，以增强物体检测，如图5所示。不同于BBSNet中的全局上下文模块不考虑各分支之间的语义关联，CAM考虑到跨尺度交互作用以增强特征表示。

2024-05-09 20:01:13 580

原创每日Attention学习5——Multi-Scale Channel Attention Module

MS-CAM的核心思想在于，通过改变空间池化的大小，可以在多个尺度上实现通道注意力。为了尽可能保持轻量级，我们只是在注意力模块内将局部上下文添加到全局上下文中。我们选择点卷积（PointWise Conv）作为局部通道上下文融合器，它只利用每个空间位置的点级通道交互。

2024-05-09 19:58:00 958

原创每日Attention学习4——Spatial Attention Module

我们设计了空间注意力模块 (SAM)，以有效地完善特征（见图 3）。我们首先沿通道轴使用平均和最大运算，分别生成两个不同的单通道空间图$S_{avg}$和$S_{max}$。然后，我们将它们连接起来，通过3×3卷积和sigmoid函数计算出空间注意力图。空间注意力图$M_{sa}$可以通过元素级相乘从空间维度对特征重新加权。最后，细化后的特征被送入3×3卷积层，将通道压缩至64。

2024-05-09 19:53:18 976

原创每日Attention学习3——Cross-level Feature Fusion

利用特征提取网络可以获得不同分辨率的多级特征。因此，有效整合多级特征非常重要，这可以提高不同尺度特征的表示能力。因此，我们提出了一个 CFF模块来融合相邻的两个特征，然后将其输入分割网络。

2024-05-09 19:47:39 636

原创每日Attention学习2——Multi-Scale Convolutional Attention

MSCA包含三个部分：一个深度卷积以汇总局部信息；一个多分支深度条带卷积以获取多尺度上下文；一个1×1卷积以建模不同通道之间的信息。该1×1卷积的输出将直接作为注意力以对MSCA的输出结果进行后处理加权。

2024-05-09 19:42:34 680

原创每日Attention学习1——Parallel Aggregation Pyramid Pooling Module

为了更好地构建全局场景先验，PSPNet引入了金字塔池化模块（PPM），在卷积层之前串联多尺度池化映射，形成局部和全局上下文表示。文献[20]提出的深度聚合PPM（DAPPM）进一步提高了PPM的上下文嵌入能力，并显示出卓越的性能。然而，DAPPM的计算过程无法就其深度进行并行化，耗时较长，而且DAPPM每个尺度包含的通道过多，可能会超出轻量级模型的表示能力。因此，我们修改了DAPPM中的连接，使其可并行化，如图6所示，并将每个尺度的通道数从128个减少到96个。这种新的上下文采集模块被称为并行聚合PPM

2024-05-08 23:41:38 522

原创 MMSegmentation ImportError: Failed to import custom modules from {‘allow_failed_imports‘: False

在configs的配置文件中，加入了自定义的导入包，例如：而custom_pack文件夹已经正确置于mmsegmentation目录下。此时使用该配置文件进行训练，报错信息如下按照报错字面意思，是包的位置不正确，没有放在系统路径或当前路径下。然而实际上，包内代码本身存在错误也会引发该问题。例如，我们在mmsegmentation/custom_pack/init.py文件中加入以下一行代码：这里的abcde包是乱编的，也就是在import custom_pack这个包的同时，包内的代码逻辑存在impo

2024-04-10 19:37:49 1103

原创视觉参数高效微调(Visual Parameter Efficient Tuning)部分论文汇总

视觉参数高效微调(Visual Parameter Efficient Tuning)部分论文汇总

2024-01-11 21:36:02 1506

WindowsApp1.zip

空空如也