自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 swin-transform网络结构一文详解

Swin Transformer是一种专为计算机视觉任务设计的分层Transformer架构,其主要创新在于采用了滑动窗口机制和层级化结构。这种设计使得模型在处理图像时能够高效地提取多尺度特征,同时保持较低的计算复杂度。以下是Swin Transformer网络结构的详细介绍。

2024-12-06 20:26:37 1983

原创 分段任意模型(SAM)稳健性的实证研究

在文档中,关于胸部X光片(Chest X-ray)的分析和实验结果提供了详细的见解,特别是关于模型的稳定性和性能。通过在这些扰动条件下评估模型的表现,可以更好地理解模型在实际应用中的鲁棒性,即模型在面对真实世界中可能遇到的各种图像质量问题时的表现如何。- **动态提示选择**:文档中提到了一些初步的自适应提示策略,如根据检测到的扰动动态选择提示类型(点、框或混合)。- **领域知识整合**:文档中提到,不同数据集具有独特的特性(如颜色、纹理和模式),这些特性会影响模型的稳定性。

2024-11-14 19:47:22 642

原创 MA-SAM:模态无关的SAM适应用于三维医学图像分割

**特征图重塑**:在进入3D卷积层之前,将特征图从 `[BN, H/16, W/16, c]` 重塑为 `[B, c, N, H/16, W/16]` 的形式,其中 `H/16` 和 `W/16` 是由于patch嵌入过程中的下采样得到的空间维度。例如,在CT多器官分割、MRI前列腺分割和手术场景分割任务中,MA-SAM模型显著优于其他现有的三维医学图像分割方法。1. **初始下采样**:在SAM的图像编码器中,每个16×16的patch被嵌入为一个特征向量,这导致了输入特征的16×16倍的下采样。

2024-11-13 18:19:58 1058

原创 霹雳吧啦(Transformer中的Self-attention)

是一种特殊的神经网络层,用于将离散型数据(如单词、字符等)映射到连续的向量空间中。它在自然语言处理(NLP)和其他领域中被广泛应用,能够有效地将高维稀疏特征转换为低维稠密特征,以便于后续的模型处理。来说,无论输入的顺序的不同,得到的b1结果相同,所以就要采用位置编码。wq,wk,wv是参数矩阵,是可训练的参数。v:从a中学习到的它认为有用的东西。transform可以进行并行化。q:query,是去匹配k。d是k的dimention。可以采用以上两种方法。k:key,被匹配。

2024-11-09 18:46:23 234

原创 Transform(decoder)

自回归翻译模型通过逐步生成目标句子,利用已生成的词来预测下一个词。这意味着每个词的生成依赖于之前生成的所有词。

2024-11-08 20:49:42 911

原创 Transform(encoder)

与批量归一化不同,层归一化不依赖于小批量中的样本,因此它特别适用于批量大小较小或者变化的情况,例如在语言模型和递归神经网络中。由于 Transformer 模型本身并不具有处理序列顺序的能力(因为它基于自注意力机制,而不是递归或卷积结构),Positional Encoding 的加入使得模型能够理解词在序列中的相对或绝对位置。在深度学习中,"transform"通常指的是数据预处理或数据增强的过程,其目的是改善模型性能,特别是通过增加训练数据的多样性来提升模型的泛化能力。给一排向量输出一排向量。

2024-11-05 16:48:49 804

原创 自注意力机制

在许多模型,如Transformer中,位置编码是必不可少的,因为它们本身并不具备捕捉序列中元素位置的能力。自注意力:自注意力机制允许模型在处理一个序列的每个元素时,同时考虑序列中的其他元素。是两种在深度学习和自然语言处理中常用的技术,它们在处理序列数据时有着不同的工作机制和特点。图自编码器(Graph Autoencoder,GAE):用于图的表示学习,通过编码器和解码器学习节点的低维表示。:预训练任务之一,通过随机掩盖输入序列中的某些词,并让模型预测这些被掩盖的词,从而学习词的分布式表示。

2024-11-02 16:04:45 2323

原创 霹雳吧啦wz5(dice损失计算)

Dice系数(Dice Coefficient),也称为Sørensen-Dice系数或Dice相似系数,是一种用于度量两个集合相似度的统计指标。它由Lee Raymond Dice在1945年提出,常用于图像分割任务中,以评估预测分割与真实分割之间的重叠度。在深度学习中,Dice Loss特别适用于处理类别不平衡的问题,因为它直接关注重叠区域,而不是预测和真实标签的每一个像素。但是,Dice Loss也有其局限性,比如当预测结果和真实标签都为空集时,Dice Loss会退化,导致无法正确地反映模型性能。

2024-10-28 20:50:43 732

原创 霹雳吧啦wz4 (UNet网络结构讲解-语义分割)

为了节约电脑内存,分成一个patch进行分割,其中有一部分要进行重叠,称为Overlap。这样做是为了确保边界处的特征也能被捕捉到,从而提高分割的准确性。)是深度学习中常用的一种激活函数层,其主要作用是在神经网络中引入非线性因素,使得网络能够学习和模拟更复杂的函数.目前采用的是进行padding操作,使尺寸不变,省去crop环节。分割图和原图572x572无关,只和388x388有关。

2024-10-25 14:18:58 498

原创 霹雳吧啦wz3(膨胀卷积)

膨胀卷积可以增大感受野,即网络能够感知到的输入图像的区域,而不改变特征图的尺寸。这是因为膨胀卷积通过在卷积核中引入空隙来间接增加卷积核的大小,从而在不增加参数量的前提下增大了感受野。满足M2<=K即不会Grriding effect ,Mn=rn的意思这里的n指代的是最后一个元素,而不是代表一个顺序的泛指。指的是在深层的膨胀卷积中,某些区域的像素值可能不会被任何卷积核元素覆盖,导致这些区域的信息被忽略。使用三个连续的3x3的r=2的膨胀卷积,结果输出如右图所示,有许多元素被忽略。

2024-10-23 20:15:37 503

原创 霹雳吧啦wz2(转置卷积)

假设有一个3x3的卷积核,膨胀率为1时,卷积核的元素是连续的。如果将膨胀率增加到2,卷积核的元素之间将有一个“空洞”,实际上相当于使用了一个5x5的卷积核,但参数数量仍然和3x3的卷积核相同。是在卷积核的元素之间插入额外的空间,这些空间用零填充。在图像处理中,上采样通常用于提高图像的像素密度,从而生成更清晰的图像。转置卷积不是卷积的逆运算,它也是卷积的一种形式,用于将特征图的大小恢复到输入图像的大小。所以可以根据输入I反推得出转置卷积的卷积核。转置卷积不是逆卷积,只能得到大小相同的输出。

2024-10-21 19:58:09 476

原创 刘二大人-卷积神经网络(高级篇)

更复杂的神经网络结构GoogleNet,也称为Inception网络,是一种深度卷积神经网络(CNN)架构,由Google的研究团队在2014年提出。它是为了解决图像识别任务而设计的,特别是针对ImageNet大规模视觉识别挑战赛(ILSVRC)。

2024-10-20 20:33:55 2006

原创 刘二大人-卷积神经网络(基础篇)

C:即channel,通道的意思,在卷积神经网络(CNN)中:输入层中的通道对应于图像的通道,例如 RGB 图像的三个颜色通道。隐藏层中的通道代表卷积核的数量,每个卷积核在特征图中产生一个通道,捕捉图像的不同特征。W:weight,宽度H:high,高度,一个通道中有w乘h个元素convolution:卷积层,在图像识别任务中,CNN通过一系列卷积层和池化层来提取图像的特征,然后通过全连接层或其他类型的层来进行分类。

2024-10-16 14:58:59 2170

原创 霹雳吧啦wz1

真实标签和预测标签:真实标签是人工标注的,预测标签是模型预测的。这个表格表示了真实标签和预测标签之间的对应关系,其中对角线表示预测正确的个数,非对角线表示预测错误的个数。mean iou:对于第一个 :分子是预测正确的个数,分母是真实总个数+预测为0(有错误)的总个数-预测正确为0的个数。p模式,即一个单通道的图像,每个像素都对应一个颜色,0表示背景,1表示前景,目标边缘处用的像素值为225。实例分割:像素级别的分类,对目标进行分类,对同一类别的不同个体进行区分 Msak R-CNN。

2024-10-13 17:04:57 699

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除