- 博客(353)
- 资源 (1)
- 收藏
- 关注
原创 每日Attention学习27——Patch-based Graph Reasoning
【代码】每日Attention学习27——Patch-based Graph Reasoning。
2025-03-16 20:57:25
275
原创 每日Attention学习26——Dynamic Weighted Feature Fusion
我们提出了 DWFF 策略,选择性地关注特征图中信息量最大的部分,以有效地结合浅层和深层特征,提高分割精度。DWFF 可用于在具有细粒度细节的区域中更重地加权浅层特征,在具有较高语义信息的区域中更重地加权深层特征,从而实现更好的特征组合和准确的分割。
2025-03-16 20:53:01
328
原创 每日Attention学习25——Multi-Scale Attention Fusion
MSAF的主要思想是让网络根据损失学习特征权重,允许模型选择性地融合来自不同尺度的信息。
2025-03-16 20:49:07
243
原创 每日Attention学习24——Strip Convolution Block
【代码】每日Attention学习24——Strip Convolution Block。
2025-02-23 20:22:18
493
原创 每日Attention学习21——Cascade Multi-Receptive Fields
【代码】每日Attention学习21——Cascade Multi-Receptive Fields。
2025-02-06 18:59:08
217
原创 每日Attention学习20——Group Shuffle Attention
【代码】每日Attention学习20——Group Shuffle Attention。
2025-02-05 23:56:45
456
原创 每日Attention学习19——Convolutional Multi-Focal Attention
每日Attention学习19——Convolutional Multi-Focal Attention。
2025-02-05 20:45:52
436
原创 每日Attention学习18——Grouped Attention Gate
每日Attention学习18——Grouped Attention Gate。
2025-02-05 20:20:12
432
原创 每日Attention学习17——Multi-Kernel Inverted Residual
【代码】每日Attention学习17——Multi-Kernel Inverted Residual。
2025-01-26 11:21:35
334
原创 Pytorch转onnx错误:please report a bug to PyTorch. ONNX Tile input shapes do not match.
解决方案:使用其他算子代替repeat操作。
2024-12-17 15:27:00
155
原创 关于MMSegmentation的data_preprocessor
虽然data_preprocessor名字里面有个pre,但实际上,数据是先通过train_pipeline/test_pipeline中的各项数据增强后,然后再交由SegDataPreProcessor打包成偏tensor的形式,最终输入网络进行训练/测试。从更加容易理解的角度出发,data_preprocessor实质上更像是data_augmentation的最后一步。本文讨论的是MMSeg 1.x的实现。
2024-12-12 11:39:05
295
原创 关于MMSegmentation/MMCV中的random resize与keep ratio
具体来说,在缩放完后,会将新图的高度除以原图的高度,得到高度的缩放比例r1;那么,如果keep_ratio设为False,此时当前新图像的宽度为,从s1与s2区间内随机取一个倍率,并乘以scale[0]。ratio_range也是一个tuple,格式为(s1, s2),可以理解为缩放的倍率。如果keep_ratio设为True,那么宽度的倍率为4320/1280=3.375,高度的倍率为1080/720=1.5。其中,scale一般是个tuple,格式为(w, h),可以理解为缩放的基数。
2024-12-12 10:36:20
357
原创 MMSegmentation训练阶段自定义Loss不下降/下降非常缓慢问题排查
在分割模型中引入了自定义loss(例如kl_loss),训练过程中新loss几乎不会下降,未被正常优化。这个loss命名的问题一般存在config或者loss的具体实现代码中。例如,kl散度损失记为。也就是损失函数的命名必须以。是可以正常优化的,而。
2024-12-06 14:35:19
194
原创 MMSegmentation验证阶段显存泄露问题排查
这就会导致一个问题,如果任务的分割类别比较多(如本文场景中的150类)且分辨率较高(1080P以上),那么这个seg_logits将会占用很大的显存,且不会被自动释放(seg_logits包装在SegDataSample对象中,该对象中还有一些其他重要的元数据)。考虑调试场景,训练/验证阶段batch size均为1。训练阶段显存占用正常,约2GB;验证阶段显存占用异常,从2GB开始逐渐上升直到Out-Of-Memory.由于这个seg_logits根本就没用,因此直接将其删除即可。
2024-11-25 13:10:21
286
原创 MMSegmentation测试阶段推理速度非常慢的一种可能原因
visualizer会在测试阶段导出可视化图到本地,而这一过程会非常慢。如果只需要获取预测结果本身,并不需要在预测结果的基础上进一步可视化,则应该将visualizer关闭。
2024-11-02 15:29:15
286
原创 每日论文阅读1——LSKANet: Long Strip Kernel Attention Network for Robotic Surgical Scene Segmentation
手术场景分割是机器人辅助手术中的一项关键任务。然而,手术场景的复杂性,主要包括局部特征相似性(例如,在不同解剖组织之间)、术中复杂的伪影和难以区分的边界,对准确分割构成了重大挑战。为了解决这些问题,我们提出了长条核注意力网络(LSKANet),包括两个设计良好的模块,分别是双块大核注意力模块(DLKA)和多尺度亲和特征融合模块(MAFF),可以实现手术图像的精确分割。具体来说,通过在两个块中引入具有不同拓扑结构(级联和并行)的条形卷积和大内核设计,DLKA可以充分利用区域和条状手术特征,并提取视觉和结构信息
2024-09-17 22:01:48
1362
6
原创 每日Attention学习16——Multi-layer Multi-scale Dilated Convolution
与传统的编码器-解码器结构相比,更好的分割模型应该使其编码器能够尽可能多地获取全局信息。然而,这通常受到小感受野应用的限制,因此传统编码器学习的图像特征包含的全局信息不足。多尺度膨胀卷积可以在一定程度上解决这个问题。但是,它仍然存在以下缺点:1)相应的图像大小通常是单一的,可能会错过不同尺度的全局信息,2)由于多层信息组合效率低下,可能会丢失更多的血管细节,特别是影响眼底图像中那些小血管的分割。为了解决这两个问题,我们提出了 MMDC 模块并将其插入 U-Net 模型的 skip 连接中。
2024-08-25 22:45:35
733
原创 每日Attention学习15——Cross-Model Grafting Module
Transformer在全局特征上更优,CNN在局部特征上更优,对这两者进行进行融合的最简单做法是直接相加或相乘。但是,相加或相乘本质上属于"局部"操作,如果某片区域两个特征的不确定性都较高,则会带来许多噪声。为此,本文提出了CMGM模块,通过交叉注意力的形式引入更为广泛的信息来增强融合效果。
2024-08-25 21:25:55
809
原创 [作者解读] SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation
SAM2-UNet 采用 SAM2 的 Hiera 骨干作为编码器,而解码器则采用经典的 U 型设计。此外,还在编码器中插入了Adapter,以便进行参数高效微调。在各种下游任务(如伪装目标检测、显著目标检测、海洋动物分割、镜面检测和息肉分割)上进行的初步实验表明,我们的 SAM2-UNet 完全可以击败现有的最先进专业方法,而无需任何花哨设计。
2024-08-22 01:10:07
3427
原创 每日Attention学习13——Adaptive Feature Fusion
【代码】每日Attention学习13——Adaptive Feature Fusion。
2024-07-29 23:24:47
439
原创 每日Attention学习14——Efficient Self-Attention
Self Attention操作在具有优秀的长距离建模能力的同时,也有着较高的计算与内存成本,因此需要进行优化。本文的ESA模块中的Query直接通过原特征Reshape得到,而Key与Value则通过Pyramid Pooling操作得到。
2024-07-29 23:16:22
680
原创 每日Attention学习12——Exterior Contextual-Relation Module
原文表述:在临床环境中,不同样本之间存在息肉的同步视觉模式。基于这一关键观察,属于所有训练数据的同一语义类的区域特征应该具有上下文关系。因此,我们提出了一种新颖的跨不同样本的上下文关系探索模块。具体做法则是,对于编码器最后一层得到的全局特征(图中红色方块),进行两次增强:第一次是直接将全局特征送入一个1×11×1卷积(图中浅紫色部分)以获取一个粗糙分割mask,该mask与全局特征相乘后便能得到过滤掉背景特征的增强特征(图中enqueue左边的部分)。
2024-07-23 17:41:41
365
原创 每日Attention学习11——Lightweight Dilated Bottleneck
LDB的结构整体上借鉴了ResNet的思想,将模块设计为残差模块,以在网络层数尽可能少的情况下收集更多的特征信息。具体来说,在bottleneck处,通过1×1卷积将输入特征的通道数减半,减少通道数之后,参数量和计算量大大减少,虽然这样会损失一部分准确率,但此时多堆叠两个模块比弥补损失更为有利。同时,由于使用了1×1卷积,必须加深网络深度才能获得更大的感受野,因此在1×1卷积之后,增加了3×1和1×3的分解卷积,以拓展感受野,从而捕捉更大范围的上下文信息。而且分解卷积也是基于考虑参数数量和计算量。
2024-07-14 22:24:21
532
原创 每日Attention学习10——Scale-Aware Modulation
我们提出了一种新颖的卷积调制,称为尺度感知调制 (SAM),它包含两个新模块:多头混合卷积 (MHMC) 和尺度感知聚合 (SAA)。MHMC 模块旨在增强感受野并同时捕获多尺度特征。SAA 模块旨在有效地聚合不同头部之间的特征,同时保持轻量级架构。
2024-07-14 22:07:35
501
原创 每日Attention学习9——Efficient Channel Attention
通过剖析 SENet 中的通道注意模块,我们通过经验证明避免降维对于学习通道注意很重要,适当的跨通道交互可以保持性能,同时显着降低模型复杂性。因此,我们提出了一种无需降维的局部跨通道交互策略,可以通过 1D 卷积有效实现。此外,我们开发了一种自适应选择 1D 卷积核大小的方法,确定局部跨通道交互的覆盖范围。
2024-07-09 23:51:31
345
原创 每日Attention学习8——Rectangular self-Calibration Attention
矩形自我校准注意力(RCA)明确地模拟矩形区域并校准注意力形状。
2024-07-05 00:02:27
378
原创 每日Attention学习7——Frequency-Perception Module
具体来说,我们采用八度卷积以端到端的方式自动感知高频和低频信息,从而实现伪装物体检测的在线学习。八度卷积可以有效避免DCT引起的块状效应,并利用GPU的计算速度优势。此外,它可以轻松插入任意网络。
2024-07-01 23:04:18
429
原创 每日Attention学习6——Context Aggregation Module
为了将多层次的融合特征整合到伪装物体预测中,我们设计了一个上下文聚合模块(CAM)来挖掘上下文语义,以增强物体检测,如图5所示。不同于BBSNet中的全局上下文模块不考虑各分支之间的语义关联,CAM考虑到跨尺度交互作用以增强特征表示。
2024-05-09 20:01:13
580
原创 每日Attention学习5——Multi-Scale Channel Attention Module
MS-CAM的核心思想在于,通过改变空间池化的大小,可以在多个尺度上实现通道注意力。为了尽可能保持轻量级,我们只是在注意力模块内将局部上下文添加到全局上下文中。我们选择点卷积(PointWise Conv)作为局部通道上下文融合器,它只利用每个空间位置的点级通道交互。
2024-05-09 19:58:00
958
原创 每日Attention学习4——Spatial Attention Module
我们设计了空间注意力模块 (SAM),以有效地完善特征(见图 3)。我们首先沿通道轴使用平均和最大运算,分别生成两个不同的单通道空间图$S_{avg}$和$S_{max}$。然后,我们将它们连接起来,通过3×3卷积和sigmoid函数计算出空间注意力图。空间注意力图$M_{sa}$可以通过元素级相乘从空间维度对特征重新加权。最后,细化后的特征被送入3×3卷积层,将通道压缩至64。
2024-05-09 19:53:18
976
原创 每日Attention学习3——Cross-level Feature Fusion
利用特征提取网络可以获得不同分辨率的多级特征。因此,有效整合多级特征非常重要,这可以提高不同尺度特征的表示能力。因此,我们提出了一个 CFF模块来融合相邻的两个特征,然后将其输入分割网络。
2024-05-09 19:47:39
636
原创 每日Attention学习2——Multi-Scale Convolutional Attention
MSCA包含三个部分:一个深度卷积以汇总局部信息;一个多分支深度条带卷积以获取多尺度上下文;一个1×1卷积以建模不同通道之间的信息。该1×1卷积的输出将直接作为注意力以对MSCA的输出结果进行后处理加权。
2024-05-09 19:42:34
680
原创 每日Attention学习1——Parallel Aggregation Pyramid Pooling Module
为了更好地构建全局场景先验,PSPNet引入了金字塔池化模块(PPM),在卷积层之前串联多尺度池化映射,形成局部和全局上下文表示。文献[20]提出的深度聚合PPM(DAPPM)进一步提高了PPM的上下文嵌入能力,并显示出卓越的性能。然而,DAPPM的计算过程无法就其深度进行并行化,耗时较长,而且DAPPM每个尺度包含的通道过多,可能会超出轻量级模型的表示能力。因此,我们修改了DAPPM中的连接,使其可并行化,如图6所示,并将每个尺度的通道数从128个减少到96个。这种新的上下文采集模块被称为并行聚合PPM
2024-05-08 23:41:38
522
原创 MMSegmentation ImportError: Failed to import custom modules from {‘allow_failed_imports‘: False
在configs的配置文件中,加入了自定义的导入包,例如:而custom_pack文件夹已经正确置于mmsegmentation目录下。此时使用该配置文件进行训练,报错信息如下按照报错字面意思,是包的位置不正确,没有放在系统路径或当前路径下。然而实际上,包内代码本身存在错误也会引发该问题。例如,我们在mmsegmentation/custom_pack/init.py文件中加入以下一行代码:这里的abcde包是乱编的,也就是在import custom_pack这个包的同时,包内的代码逻辑存在impo
2024-04-10 19:37:49
1103
原创 视觉参数高效微调(Visual Parameter Efficient Tuning)部分论文汇总
视觉参数高效微调(Visual Parameter Efficient Tuning)部分论文汇总
2024-01-11 21:36:02
1506
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人