医图论文 Arxiv‘24 | 基于U形结构和注意力机制的轻量级卷积医学目标分割网络

论文信息

题目:A lightweight Convolutional Neural Network based on U shape structure and Attention Mechanism for Anterior Mediastinum Segmentation
基于U形结构和注意力机制的轻量级卷积神经网络用于前纵隔分割

论文创新点

  1. 作者提出了一个基于U形结构网络的前纵隔(AM)分割模型,该模型专门设计用于自动检测胸部CT扫描中的前纵隔病变(AMLs)。

  2. 为了在保持轻量级网络的同时利用多头自注意力(MHSA)的优势,作者设计了一个并行MHSA,称为Wide-MHSA (W-MHSA)。这种设计通过将输入特征图分成更小的块,并行处理,显著减少了网络中的参数数量。

  3. 作者引入了**Channel Depth-Wise Cross-Correlation Attention (CD-WCC)**在编码器中寻找编码器和解码器之间的相似性,以改善器官定位。

  4. 为了保持长距离依赖并避免在上采样阶段丢失关键信息,作者设计了Dilated Depth-Wise Parallel Path connection (DDWPP)。这种连接通过使用不同扩张率的扩张卷积,增强了模型的感受野,同时保持了特征图的空间精度。

摘要

为了自动检测前纵隔(Anterior Mediastinum, AM)中的前纵隔病变(Anterior Mediastinum Lesions, AMLs),首先需要一个专门为AM设计的自动分割模型。由于AML的发生率极低,使得进行类似肺癌筛查的研究变得具有挑战性。回顾性审查一段时间内的胸部CT扫描以调查AML的发生率需要大量的时间。因此,开发一个人工智能(AI)模型来帮助定位AM对于放射科医生提高工作量管理和AMLs的诊断准确性具有重要意义。在本文中,作者介绍了一个U形结构网络来分割AM。使用了两种注意力机制来保持长距离依赖和定位。为了结合多头自注意力(Multi-Head Self-Attention, MHSA)的潜力和轻量级网络,作者设计了一个并行MHSA,称为Wide-MHSA(W-MHSA)。保持长距离依赖对于上采样特征图时的分割至关重要。因此,作者为此目的设计了一个扩张的深度卷积并行路径连接(Dilated DepthWise Parallel Path connection, DDWPP)。为了设计轻量级架构,作者引入了一个扩展卷积块,并将其与提出的W-MHSA结合用于编码器部分的特征提取。提出的网络在2775个AM病例上进行了训练,获得了平均Dice相似系数(DSC)为87.83%,平均交并比(IoU)为79.16%,敏感性为89.60%。作者提出的架构与最先进的分割网络(如Trans Unet, Attention Unet, Res Unet和Res Unet++)相比,展现出了优越的分割性能。

关键字

前纵隔(AM),自注意力,交叉相关注意力,U形结构。

III. 提出的网络架构

所提出的架构如图1所示,设计为U形结构,包括三个组成部分:编码器、解码器和编码器与解码器之间的并行路径连接。

编码器提取特征图,并将输入维度从3×224×224减少到512×7×7。解码器相对于输入尺寸提高特征图的维度。编码器和解码器都被设计为五个连续的阶段。此外,作者采用了两种高效注意力方法,以显著增强每个解码器和编码器块中的器官分割恢复,增强了模型的能力。在解码器提高高度和宽度后,通道注意力应用于通道维度。作者不使用高度和宽度上的平均值和最大值进行通道注意力,而是利用深度交叉相关[34]来寻找编码器和解码器每个阶段之间的相似特征图。接下来,相似性的有效性乘以特征图。并行路径连接设计为五个扩张卷积,具有不同的过滤器尺寸和扩张率。扩张卷积提供了增强的感受野大小,并在不增加参数数量的情况下检索多个尺度的特征。

A. 扩展卷积块

在特征提取部分,作者扩展了卷积层,并在五个阶段构建了所提出的特征提取,如图2所示。

此外,作者使用1×1卷积作为主要部分,而不是3×3卷积。每个步骤的输入通道被分成更小的块,然后为每个较小的通道独立应用单独的卷积滤波器。为了为下一阶段做好准备,所有通道的特定特征在通道维度上进行连接,然后通过一个3×3卷积层。输入图像尺寸为3×224×224。

  • 在阶段0,根据输入通道,三个不同的1×1卷积层独立应用。连接后,一个3×3卷积层将通道提高到64,高度和宽度减少到112。

  • 在阶段1,64个通道被分成2。两个32×112×112同时通过1×1卷积层,并在通道维度上连接回到64个通道,然后得到的特征提取器尺寸为128×56×56。

  • 阶段2的结构与阶段1相同。然而,输出尺寸的通道、高度和宽度维度分别为128、28和28。

  • 阶段3被设计为比其他阶段更深更广,以捕获更复杂的特征和模式,因为输入数据通过网络的进展。尽管它保持了与前几个阶段相同的结构,但它涉及四个1×1卷积同时进行,连接,以及一个额外的3×3卷积。最后,阶段3的特征提取结果为256×14×14。

  • 设计策略与前一阶段相同。然而,输入通道大小为256,除以2。因此,两个64×14×14进入两个1×1卷积独立进行。连接后,输出尺寸为512×7×7,通过一个3×3卷积。

B. 宽多头自注意力(W-MHSA)

注意力机制可能因输入维度而成为重量级,因为由于全连接层。在这项研究中,特征图的高度和宽度被分成小块,以克服自注意力的重量级。在所提出的网络的编码器中使用了三个不同的MHSA。图3(a)中显示的四个并行MHSAs,图3(b)中显示的两个并行MHSAs,以及图3©中显示的一个MHSA分别用于阶段1和2、阶段3和阶段4。并行MHSAs在这项研究中被命名为Wide-MHSA(W-MHSA)。

在这里插入图片描述

  • 通过阶段1后,输出为64×56×56。首先,在阶段1后应用W-MHSA(宽度比率为4)。W-MHSA(宽度比率为4)设计为四个分支。因此,W-MHSA(宽度比率为4)的输入在高度和宽度上被分成4。首先,四个64×14×14进入四个不同的MHSA。其次,四个MHSA的输出在高度和宽度维度上连接。这些连接的输出再次在高度和权重上连接,然后两个连接阶段相乘。最后,它通过一个卷积层。

  • 此外,对于阶段2,输入128×28×28被4分割。随后,四个128×7×7进入四个单独的MHSAs,方法与阶段1类似。

  • 完成阶段3后,输入尺寸为256×14×14。步骤与前几个阶段相同,不同的是宽度和高度被分成两个。2×(256×7×7)通过两个并行MHSAs(W-MHSA(宽度比率为2))。高度和宽度从两个MHSA输出中连接,然后这两个连接再次在高度和宽度维度上连接。最后,最后两个连接相乘,并通过卷积层。

  • 此外,对于阶段4之后,输入尺寸为512×7×7,使用了单个MHSA。作者在图3中提供了W-MHSA的更多细节,其中(a)将输入尺寸分成4,(b)分成2,©是原始MHSA。

C. 通道深度智能交叉相关注意力(CDWCC)

交叉相关模块是一个计算过程,它将两组特征图进行卷积。它通常用于SiamRPN++[34]等技术中的跟踪目的。这个模块的工作机制类似于两组不同的特征图。这项研究使用交叉相关来寻找编码器和解码器之间的相似性。相关过程在两个具有相同数量的通道、高度和宽度的不同特征图上逐通道进行。根据图4,解码器的特征图是CDWCC的输入,而编码器的特征图是执行相关操作的内核,逐通道寻找相似性。最后,CDWCC特征图与解码器特征图逐元素相乘。

D. 扩张深度智能并行路径连接(DDWPP)

为了拥有高视野,设计了DDWPP。如图5所示,它有五个并行扩张卷积,具有不同的内核尺寸和扩张率,可以在不增加参数数量的情况下捕获大的感受野。在分割过程中,下采样特征图可能会丢弃关键组件。因此,保留编码器的初始阶段的信息对于随后的上采样阶段至关重要。有效地拥有每个阶段的特征图有助于作者提出的网络避免丢失信息。此外,初级阶段具有低级信息,而最后阶段具有宝贵的信息。如图5所示,扩张卷积技术在保持特征图的空间精度的同时扩大了感受野。作者在DDWPP块中使用了四个并行扩张卷积,以增加对小AM的检测灵敏度。这四个扩张卷积分别遵循16、8、4和2的扩张率,以及7×7、5×5、5×5和3×3的过滤器尺寸。

IV. 材料和实验


如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值