
深度学习
文章平均质量分 64
CNN,Transformer等
蓝海渔夫
主要方向:图像分类,图像分割;兴趣:生成式AI;下半年目标两千粉
展开
-
图像分割论文阅读:BCU-Net: Bridging ConvNeXt and U-Net for medical image segmentation
本文提出了一种集合ConvNeXt和U-Net优势的网络模型来分割医学图像。当然,模型整体结构就是并列双分支,如果只是这些内容,不值得拿出来讲。multilabel recall loss module,简称MRL。原创 2024-08-23 23:38:24 · 958 阅读 · 3 评论 -
论文阅读:自适应ViT(A-ViT)
本文来自cvpr 2022 :介绍了一种名为A-ViT(Adaptive Vision Transformer)的新方法,旨在通过自适应调整Vision Transformer的推理成本来适应不同复杂度的图像。原创 2024-06-16 23:39:23 · 1156 阅读 · 1 评论 -
论文阅读:基于谱分析的全新早停策略
来自JMLR的一篇论文,这篇文章试图通过分析模型权重矩阵的频谱来解释模型,并在此基础上提出了一种用于早停的频谱标准。原创 2024-06-16 00:03:08 · 1518 阅读 · 0 评论 -
论文阅读:H-ViT,一种用于医学图像配准的层级化ViT
来自CVPR的一篇文章,用CNN+Transformer混合模型做图像配准。可变形图像配准是一种在相同视场内比较或整合单模态或多模态视觉数据的技术,它旨在找到两幅图像之间的非线性映射关系。原创 2024-06-13 22:53:07 · 1645 阅读 · 0 评论 -
论文阅读ReLU-KAN和Wav-KAN
这是我读KAN系列论文的第三篇,今天把两篇论文放在一起写,分别是:Wav-KAN:之所以放在一起,是因为这两篇论文针对KAN的改进思路是相似的,都是采用新的基函数,来替代KAN中的B样条函数。原创 2024-06-12 23:59:48 · 1002 阅读 · 0 评论 -
论文阅读U-KAN Makes Strong Backbone for MedicalImage Segmentation and Generation
在我看来,虽然本文模型大概率并不SOTA,但是也不是非要SOTA的模型和实验才有价值。本文的价值在于验证了KAN可以用于更广泛的数据集,并且在更多场景下展现了超越和取代MLP的潜力。原创 2024-06-11 20:20:27 · 3679 阅读 · 2 评论 -
论文阅读KAN: Kolmogorov–Arnold Networks
学习了最近大热的KAN网络。原创 2024-06-09 20:55:04 · 2198 阅读 · 0 评论 -
论文阅读:Transformer的表示坍塌和过度压缩问题,Transformers need glasses!Information over-squashing in language tasks
本文是6月4号新鲜出炉的arxiv文章,探索了decoder-only Transformer的表示坍塌和过度压缩问题,感觉其思考很有意思。原创 2024-06-09 12:21:51 · 1187 阅读 · 0 评论 -
论文阅读:Polyp-PVT: Polyp Segmentation with PyramidVision Transformers
这篇论文提出了一种名为Polyp-PVT的新型息肉分割框架,该框架采用金字塔视觉变换器(Pyramid Vision Transformer, PVT)作为编码器,以显式提取更强大的特征。本模型中使用到的关键技术有三个:渐进式特征融合、通道和空间注意力、自注意力。原创 2024-04-12 10:12:26 · 1253 阅读 · 2 评论 -
pytorch实现胶囊网络(capsulenet)
胶囊网络分类结果不算差,在我的一些任务中train from scratch的胶囊网络就超越了imagenet1k上预训练过再finetune的vit。也超过了无预训练的VGG和resnet。(但是不如预训练过的vgg和resnet)。这样的表现放在2017年已经很能打了,没火的原因我感觉有两个:首先,由于胶囊网络迭代过程需要多次完整的特征图点乘特征图,所以内存消耗和时间消耗都是巨大的。我跑256的图时,24g显存的4090也只能把batch设置成5。另外一个原因可能是它的改进潜力不大。原创 2024-04-12 03:18:08 · 1645 阅读 · 2 评论 -
图像分割论文阅读:Automatic Polyp Segmentation via Multi-scale Subtraction Network
(利用特征差值的卷积分类模型也不少,估计是作者的灵感来源)整体结构包括编码器,解码器,编码器和解码器之间是多尺度差值模块模块(MSM),以及一个额外的不需要训练的LossNet提供额外的监督信息。3)损失函数:除了常用的分割损失(如加权IoU损失和二元交叉熵损失)之外,LossNet通过计算预测和真实标签在不同层级的特征差异来生成额外的损失(Lf)。2)为了捕获不同尺度的息肉特征,MSM通过金字塔式地连接多个SUs,这些SUs具有不同的感受野,能够计算具有不同顺序和感受野的差值特征。原创 2024-03-30 20:08:07 · 753 阅读 · 0 评论 -
图像分割论文阅读:Adaptive Context Selection for Polyp Segmentation
模型的整体结构基于编码器-解码器框架,并且包含了三个关键模块:局部上下文注意力模块(LCA)、全局上下文模块(GCM)和自适应选择模块(ASM)。它的主要目的是在合并浅层特征时,通过挖掘硬样本来引导网络更加关注不确定性较高和更复杂的区域,从而实现层级特征的补充和预测的精细化。ASM模块接收来自前一个解码器块的输出特征、LCA模块生成的局部上下文特征以及GCM模块提供的全局上下文特征。注意力权重的计算是用对应位置解码器生成的预测图和一个事先设定的阈值(比如0.5)来计算的。原创 2024-03-21 02:17:44 · 689 阅读 · 0 评论 -
图像分割论文阅读:SSN: A STAIR-SHAPE NETWORK FOR REAL-TIME POLYP SEGMENTATION INCOLONOSCOPY IMAGES
这篇论文的主要介绍了一种名为SSN(Stair-Shape Network)的网络结构,用于实时结肠镜图像中的息肉分割。1)用于融合不同层次的特征,首先将三个尺度的输出特征进行连接,然后通过一个ConvBlock来融合这三个尺度的特征。采用简化的上采样操作(即双线性插值),而不是U-Net中的多阶段上采样和卷积层,从而显著降低了计算成本。1)在编码器和解码器之间的跳跃连接中使用,以补偿由于简化的上采样操作可能导致的特征损失。2)DAM包含通道注意力和空间注意力,用于细化每个残差块的输出特征。原创 2024-03-21 02:14:08 · 427 阅读 · 0 评论 -
图像分割论文阅读:PlutoNet: An Efficient Polyp Segmentation Network with Modified Partial Decoder
这篇论文介绍了一种名为PlutoNet的高效息肉分割网络,旨在减少在内镜检查中被专家忽略的息肉数量,并准确地对检测到的息肉进行分割。原创 2024-03-20 05:13:26 · 900 阅读 · 0 评论 -
论文阅读:LAPFormer: A Light and Accurate PolypSegmentation Transformer
这是一个基于Transformer的轻量级图像分割模型。作者们使用MiT(Mix Transformer)作为编码器,并为LAPFormer设计了一个新颖的解码器,该解码器利用多尺度特征,并包含特征精炼模块和特征选择模块,以生成精细的息肉分割掩码。原创 2024-03-12 16:38:40 · 741 阅读 · 0 评论 -
论文阅读:FCB-SwinV2 Transformer for Polyp Segmentation
TB模块采用了SwinV2 Transformer作为其核心,SwinV2 Transformer通过引入“残差后归一化”(residual post normalization)和修改注意力机制来优化原始的Swin Transformer。2)组归一化顺序调整:在FCB分支的残差块(RB)中,组归一化(GN)的顺序被调整,以适应SwinV2 Transformer中的残差后归一化(residual post normalization)方法。左边为原来的RB模块,右边是本文用的RB模块。原创 2024-03-12 16:00:28 · 1093 阅读 · 1 评论 -
论文阅读 Stepwise Feature Fusion: Local Guides Global
PVTv2是一种用于图像识别任务的Transformer架构,它通过使用卷积操作来替代传统Transformer中的位置上的嵌入(PE)操作,以保持空间信息的一致性并提供出色的性能和稳定性。我在找论文时发现,把自己的分割模型命名为ssformer的有两个:,一个论文SSformer: A Lightweight Transformer for Semantic Segmentation中提出的一种轻量级Transformer模型,结构如下。我们要重点说的ssformer是。这个没什么太多好说的。原创 2024-03-11 23:34:28 · 656 阅读 · 1 评论 -
论文阅读FCN-Transformer Feature Fusion for PolypSegmentation
本文提出了一种名为Fully Convolutional Branch-TransFormer (FCBFormer)的图像分割框架。该架构旨在结合Transformer和全卷积网络(FCN)的优势,以提高结肠镜图像中息肉的检测和分类准确性。原创 2024-03-11 23:13:41 · 1243 阅读 · 0 评论 -
pytorch实现分割模型TransUNet
TransUNet是一个非常经典的图像分割模型。该模型出现在Transformer引入图像领域的早期,所以结构比较简单,但是实际上效果却比很多后续花哨的模型更好。所以有必要捋一遍pytorch实现TransUNet的整体流程。首先,按照惯例,先看一下TransUNet的结构图:根据结构图,我们可以看出,整体结构就是基于UNet魔改的。原创 2024-03-10 22:02:15 · 9354 阅读 · 27 评论 -
什么是deterministic training(确定性训练),pytorch如何实现
想要实现deterministic training,首先需要知道模型随机性的来源,有如下几个方面:初始化权重、数据加载的顺序、优化器的随机性、dropout、优化器的随机性(如随机梯度下降中的随机梯度选择)、CUDA的随机性等。deterministic training(确定性训练)是一种训练机器学习模型的方式,其主要特点是确保在相同的初始条件下,每次训练都会得到相同的结果。换句话说,确定性训练旨在消除随机性,使得模型的训练过程是可重复和可预测的。原创 2024-03-08 20:38:54 · 2073 阅读 · 0 评论 -
分割模型TransNetR的pytorch代码学习笔记
nn.TransformerEncoder的参数包括:encoder_layer(用于构建模块的每个Transformer层),num_layer(堆叠的层数),norm(执行的标准化方法),apply(同上)。可以看出来,就是Transformer模块和残差连接相加,然后再经过一个residual模块处理。其中,x1,x2,x3,x4就是编码器模块,用的都是resnet50的预训练模块。其中r1,r2,r3,r4则是解码器的模块,就是上面实现的模块。这个代码就是简单的残差卷积模块,不赘述。原创 2024-03-08 19:57:21 · 702 阅读 · 0 评论 -
魔改检测模型RFBNet用作分类的实验,含pytorch代码
改进的思路很简单,首先图像输入vgg19的前两个stage,后接一个RFB模块,最后接全局池化和FC层。实验结果还是比VGG19强的,但是这种级别的实验想发论文是不可能的,只能发表在csdn上,哈哈。RFBNet是一个比较经典的图像分割模型,该模型使用了空洞卷积、多分支融合和残差的思路。一方面是好奇,是否能提升分类结果,其次也是作为pytorch代码的日常训练。因为我本身的研究方向只有分类和分割,不做检测。所以,我尝试把这个模块融入到分类模型中。原创 2024-03-04 16:49:28 · 558 阅读 · 0 评论 -
图像分割IoU loss损失函数的实现代码
Intersection over Union (IoU) loss是一种用于目标检测和图像分割任务的损失函数,它基于预测结果与真实目标之间的重叠程度来衡量模型性能。其原理是通过计算预测边界框(或分割掩模)与真实边界框(或分割掩模)之间的重叠区域占两者并集的比例,来评估模型的准确性。由于IoU越高,证明分割或者检测的效果越好,那么我们只要将其取反,就可以作为优化的目标。表示模型预测的边界框或分割掩模,表示真实的边界框或分割掩模,原创 2024-03-02 15:23:42 · 1581 阅读 · 0 评论 -
图像分割模型R2UNet的pytorch实现代码
1,其中for循环这块就是recurrent的核心,通过将卷积层输出的结果和自身的输入相加,然后再次输入到本层的卷积之中,这样就实现了recurrent。最后,我需要提醒的是,这篇论文的结果是由争议的。我的复现只能保证理论上是正确的,最终跑出什么结果,不能保证。这里实现的是b,如果需要实现d,就在forward里把输入x也加到out上。这个模型把recurrent模块融入到UNet结构中的图像分割模型,至于效果见仁见智。3,原文中提到了两种种recurrent模块的结构,下图的b和d。原创 2024-03-02 11:06:57 · 971 阅读 · 0 评论 -
CNN瓶颈层的几种构建方式
1. 1x1卷积层:1x1卷积层是一种常用的瓶颈层构建方式。它可以通过减少特征图的通道数来降低参数量,同时保持特征图的空间维度不变。1x1卷积层在卷积神经网络中被广泛应用,例如在GoogLeNet和ResNet等网络结构中。4. 分组卷积:分组卷积将输入特征图分成多个组,并对每个组进行独立的卷积操作,然后将结果合并。2. 深度可分离卷积层:深度可分离卷积层由深度卷积和逐点卷积两个步骤组成。它可以在减少计算量的同时保持网络的表达能力。在CNN和Transformer模型研究中,有几种常见的构建瓶颈层的方式。原创 2024-02-28 18:50:24 · 425 阅读 · 1 评论 -
息肉分割数据集kvasir-seg的处理
kvasir-seg数据集作为一个只有单一前景的分割任务,按理说其mask只能是二值化的,但是现在却有不止两种值。其黑色区域的值可能是0, 1, 2, 3, 4, 5, 6, 7,8;白色区域可能是48, 249, 250, 251, 252, 253, 254, 255等。虽然做息肉分割除了kvasir-seg也没有太多好的选择,但这个数据集的问题挺多的,不能直接使用。相比其他领域的数据集,这个数据集真的很粗糙。其次,维度问题,要注意,最后输入训练的mask的channel必须是1.原创 2024-02-26 16:52:15 · 1089 阅读 · 3 评论