
乳腺癌分类(Transformer)
文章平均质量分 94
托比-马奎尔
只是一个学习小白,分享自己学习的知识。
展开
-
NesT : 嵌套层次Transformer
在不重叠的图像块上嵌套基本局部变换的思想,并以分层的方式对它们进行聚合。发现块聚合功能在实现跨块非局部信息通信中起着至关重要的作用。这个观察结果引导我们设计一个简化的体系结构,它需要在原始视觉转换器上进行少量的代码更改。所提出的明智选择的设计有三个好处:(1)NesT收敛速度更快,需要更少的训练数据,以在ImageNet和像CIFAR这样的小数据集上实现良好的泛化;(2)当将我们的关键思想扩展到图像生成时,NesT带来了一个强大的解码器,比以前基于变压器的生成器快8倍;原创 2024-07-10 11:09:35 · 989 阅读 · 0 评论 -
基于Transformer进行乳腺癌组织病理学图像分类的方法比较
基于ViT众多变体进行乳腺癌分类原创 2024-08-23 16:56:37 · 999 阅读 · 0 评论 -
多层级深度特征融合的乳腺癌图像分类
Transformer模型现有的乳腺癌病理图像深度学习分类研究多是依托卷积神经网络(convolutional neural networks,CNN),利用CNN强大特征提取能力来提升乳腺癌病理图像分类精度在研究工作早期,主要是将在大规模自然图像 数据集上的预训练 CNN 模型作为特征提取器来捕获病理图像深度特征,采用传统机器学习模型构造分类器对深度特征分类。其中,ZEROUAOUI等人探索了多个CNN模型和机器学习分类器的结合研究,结果表明使用。原创 2024-03-26 11:36:34 · 1470 阅读 · 0 评论 -
PiT : 基于池化层Pooling layer的Vision Transformer
CNN的降维原理;随着深度的增加,传统CNN的通道维数增加,空间维数减少。经验表明,这样的空间降维对变压器结构也是有益的,并在原有的ViT模型的基础上提出了一种新的基于池的视觉变压器(PiT)。原创 2024-07-17 21:32:15 · 1045 阅读 · 0 评论 -
MaxViT : 多轴Vision Transformer
本文提出了一种高效、可扩展的多轴注意力模型,该模型包括两个方面:局部注意力被阻塞和全局注意力被扩张。这些设计选择允许在任意输入分辨率下的全局-局部空间交互,只有线性复杂度。还通过有效地将注意力模型与卷积混合在一起,提出了一个新的架构元素,并相应地提出了一个简单的分层视觉主干,称为MaxViT,通过简单地在多个阶段重复基本构建块。值得注意的是,即使在早期的高分辨率阶段,MaxViT也能够“看到”整个网络的全局。原创 2024-07-11 18:13:03 · 1567 阅读 · 0 评论 -
CvT:将卷积引入Vision Transformer
Vision Transformer (ViT)[10]是第一个完全依赖Transformer架构来获得大规模图像分类性能的计算机视觉模型。ViT设计以最小的修改从语言理解适应Transformer架构[9]。首先,将图像分割成离散的不重叠的小块(例如16 × 16)。然后,这些补丁被当作标记(类似于NLP中的标记),用特殊的位置编码求和以表示粗略的空间信息,并输入到重复的标准Transformer层中以建模全局关系进行分类。原创 2024-07-01 16:23:18 · 1218 阅读 · 0 评论 -
CrossViT:用于图像分类的交叉注意多尺度Vision Transformer
Vision Transformer, ViT[11]首先将图像分割成一定大小的patch token序列,然后将每个patch线性投影为token。一个额外的分类令牌(CLS)被添加到序列中。此外,由于Transformer Encoder中的自注意力与位置无关,并且视觉应用高度需要位置信息,因此ViT在每个令牌中添加了位置嵌入,包括CLS令牌。之后,所有令牌都通过堆叠的Transformer Encoder传递,最后使用CLS令牌进行分类。原创 2024-07-02 17:05:06 · 1232 阅读 · 0 评论