5.10.6 用于乳腺癌超声图像分类的Vision Transformer

医学超声(US)成像由于其易用性、低成本和安全性已成为乳腺癌成像的主要方式。卷积神经网络(CNN)有限的局部感受野限制了他们学习全局上下文信息的能力。利用 ViT 对使用不同增强策略的乳房 US 图像进行分类。

卷积神经网络(CNN)已成为自动医学图像分析应用(例如图像分类)中最常见的网络。然而,由于其局部感受野,这些模型在学习长距离信息方面表现不佳,限制了它们执行视觉任务的能力。


用于图像分类应用的 Vision Transformer (ViT) 架构。这些模型中的整体训练过程基于将输入图像分割为 补丁 并将每个嵌入的补丁视为 NLP 中的单词。这些模型使用自注意力模块来学习这些嵌入补丁之间的关系。

为了处理图像数据,某些深度学习模型(特别是基于Transformer的模型)会首先将输入图像分割成一系列较小的、重叠或非重叠的图像块(patches)。这些图像块可以被视为图像的局部区域或特征。然后,每个图像块都会通过一个嵌入层(embedding layer)或类似的转换函数,将其转换成一个固定维度的向量表示。这个向量表示就称为嵌入的补丁。

 2. 相关工作

2.1 基于CNN的分类网络

ViT模型不像CNNs那样具有一些内置的归纳偏置,如平移等价性。这可能使得ViT模型在某些任务上更加灵活和通用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值