Boosting ViT-based MRI Reconstruction from the Perspectives of Frequency Modulation, SP and SD-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43790925/article/details/145949454

基于频率调制、空间净化与尺度多样化增强的ViT模型MRI重建方法

在这里插入图片描述
Boosting ViT-based MRI Reconstruction from the Perspectives of Frequency Modulation, Spatial Purification, and Scale Diversification

论文链接：https://arxiv.org/abs/2412.10776

项目链接：https://github.com/XiaoMengLiLiLi/FPS-Former

Abstract

由于k空间中广泛的欠采样，加速的MRI重建过程提出了一个具有挑战性的不适定逆问题。最近，视觉Transformer（ViT）已经成为该任务的主流，显示了实质性的性能改进。然而，仍然有三个重要的问题没有得到解决：（1）ViT难以捕获图像的高频分量，限制了它们检测局部纹理和边缘信息的能力，从而阻碍了MRI恢复；（2）以往的方法计算内容中相关和不相关标记之间的多头自注意（MSA），引入噪声并显著增加计算负担；（3）ViTs中的朴素前馈网络不能很好地描述图像复原中重要的多尺度信息，本文提出了FPS-Former，针对问题（1），我们引入了一个调频注意力模块，通过自适应地重新校准拉普拉斯金字塔中的频率信息来增强自注意力图；针对问题（2），我们引入了一个自适应调频注意力模块，通过自适应地重新校准拉普拉斯金字塔中的频率信息来增强自注意力图，我们定制了一个空间净化注意力模块来捕获密切相关的标记之间的交互，从而减少冗余或不相关的特征表示，我们提出了一种基于混合前馈网络的高效前馈网络在三个公共数据集上进行的综合实验表明，我们的FPS-Former在需要更低的计算成本的同时优于当前最先进的方法。

Introduction

磁共振成像（MRI）具有无辐射、高分辨率和上级对比度等优点，在临床诊断中必不可少（Yang et al. 2022; Chen et al. 2022）。然而，其扫描时间长往往会增加患者的身体负担。此外，呼吸、吞咽和心跳等不自主运动通常会使图像模糊，限制了MRI的应用。相较于硬件改进，减少k空间采样能够以更少的约束条件加速磁共振成像（MRI）过程，但此类欠采样会因奈奎斯特定理而引入伪影 (Zeng et al. 2021)。消除这些伪影并重建高质量的MRI图像仍然是一个重大挑战。

近年来，许多方法采用各种CNN架构进行MRI重建（Zeng et al 2020; Aghabiglou 2021; Aghabiglou and Eksioglu 2021）。由于CNN强大的非线性和特征表示能力，CNN-MRI优于传统的基于压缩感知（CS）的方法（Tamir et al. 2016）。然而，卷积运算具有固有特性，如局部感受野和输入内容的独立性（Li et al. 2021 b; Zheng et al. 2022）。因此，基于CNN的模型无法消除长程退化扰动并获得次优的MRI重建性能（Zhou and Zhou 2020; Knoll et al. 2020）。

在这里插入图片描述

为了缓解这些限制，已经应用了视觉Transformer（ViTs）（Dosovitskiy et al 2020），为MRI重建任务提供了新的思路（Huang et al. 2022; Guo et al. 2024）。如图1（a）所示，ViTs堆叠多头自注意（MSA）块，将每个图像块视为语义标记并全局建模它们的交互（Han et al 2023）。与需要从局部到全局层次式扩大感受野的卷积神经网络（CNN）不同，即使浅层视觉Transformer（ViT）也能有效捕获全局上下文信息，从而在多种计算机视觉任务中实现极具竞争力的性能（Ali et al. 2023; Yang et al. 2024 b; Zhao et al. 2023）。

然而，ViT仍然难以恢复MRI细节，面临如图1（B）所示的几个关键问题：（1）ViT在捕获高频信息方面受到限制，削弱了它们检测有效MRI重建所必需的局部纹理和边缘的能力。（Park and Kim 2022; Wang et al. 2022），MSA本质上相当于一个低通滤波器，这表明当ViT按比例增加其深度时，它将忽略对图像恢复至关重要的高频信息。(2)标准的ViT方法在相关和不相关的标记之间计算MSA，引入噪声并增加计算负担。以前基于ViT的方法将所有patch标记线性投影到查询，键和值中，然后对MSA进行矩阵乘法（Zhou et al. 2023; Shen et al. 2024）。然而，MRI图像中的一些块在内容上是不相关的。同时处理所有标记引入了与内容无关的噪声，并且显著地增加了计算复杂度。(3)多尺度表示提供了补充信息，并在MRI重建中起着至关重要的作用，而标准ViT中的MSA无法有效地对多尺度特征进行建模（Chen, Fan, and Panda 2021; Cai et al. 2023）。

通过从频率调制、空间纯化和尺度多样化的角度解决上述问题，我们提出了FPS-Former，这是一个强大的基于ViT的框架，可显著增强MRI重建的性能，如图1（c）所示。具体来说，针对问题（1），我们提出了调频注意模块（FMAM）。FMAM重新校准拉普拉斯金字塔中的特征，使得能够检索高频信息。这种方法抑制了ViT的低通滤波特性，允许保留更多的高频细节，这有利于恢复局部纹理和边缘。对于问题（2），我们设计了空间净化注意力模块（SPAM）。SPAM并不像标准ViT那样同时处理所有投影token，而是通过识别产生最大内积的相似元素将token聚类到不同的组中。每组中的token被认为在内容上密切相关。然后在每组中应用MSA操作，从而减少内容无关token的噪声影响，并显著降低计算复杂度。对于问题（3），我们介绍了一种尺度多样化前馈网络（SDFN），它通过在特征传输过程中插入两条多尺度深度卷积路径来探索多尺度特征表示。最后，观察到欠采样MRI图像表现出各种类型和程度的退化伪影，混合专家特征细化（HEFR）HEFR包括几个卷积层，并为MRI重建提供协作细化。

我们的主要贡献如下：

我们提出了频率调制注意模块，通过重新校准拉普拉斯金字塔中的频率信息来增强自我注意图，选择性地加强形状和纹理特征的贡献，从而克服ViTs的低通滤波。
我们引入了空间净化注意力模块来捕获密切相关的token之间的交互，从而减少冗余或不相关的特征表示，以实现精确的自相似性捕获。
我们提出了规模多样化前馈网络，以有效地建模多尺度信息。
在各种欠采样模式下对单线圈和多线圈数据集进行的广泛实验表明，我们的方法优于最先进的（SoTA）竞争对手，同时需要更低的计算成本。

Related Work

基于CNN的MRI重建

MRI重建技术可以提高图像质量，而对生理和硬件的依赖性较小，深度学习的最新进展促进了基于CNN的MRI重建的发展。CMRNet通过创建离线CNN来将零填充映射到完全采样的MRI图像，从而开创了深度学习在MRI重建中的应用。（Wang et al. 2016）。D5 C5提出了用于动态心脏MRI的CNN级联（Schlemper et al. 2018）。DuDoRNet结合了T1先验，用于同时进行k空间和图像恢复（Zhou and Zhou 2020）。Dual-OctConv从并行MRI的真实的和虚分量中学习多尺度空间频率特征（Feng et al. 2021年）。尽管取得了这些成功，但CNN表现出有限的感受野，并且难以对长程依赖性进行建模。因此，CNN对于恢复各种图像区域并不理想，并且无法实现令人满意的重建性能（Khan et al 2020; Sarvamangala and Kulkarni 2022）。

基于ViT的MRI重建

视觉转换器（ViTs）将图像视为一系列patch，并使用自我注意力来捕获全局上下文与CNN相比，ViT具有诸如捕获全局模式的优点，并且已经用于MRI重建。（Lin and Heckel 2022），为图像重建定制的ViT可以实现与U-斯莱特通过使用交叉注意模块来捕获潜在变量和图像特征之间的相关性，从而解决了无监督MRI重建问题（Korkmaz et al. 2022）。SwinMR设计了一种用于快速CS-MRI的基于并行成像耦合Swin Transformer的模型（Huang et al. 2022）。ReconFormer结合了局部金字塔和全局柱状ViT结构，以在任何阶段学习多尺度特征，从而增强重建性能（Guo et al. 2024）。

然而，这些方法仍然无法实现精确的MRI重建，因为它们忽略了ViT固有的问题，如高频信息丢失，不相关块之间的干扰，以及无法建模多尺度特征。

Methodology

整体流程

在这里插入图片描述

如图2（a）所示，我们提出的FPS-Former是一个分层的编解码器框架。给定一个空间分辨率为 $H \times W$ 和通道维数为 $C$ 的低质量MRI图像 $I_{in} \in \mathbb{R}^{H×W×C}$ ，我们首先使用 $3 \times 3$ 卷积层执行重叠图像块嵌入。接下来，嵌入结果被发送到设计的主干，该主干堆叠 $N_0$ HEFR块和 $N_i \in [1,2,3,4]$ FPS块。HEFR块被引入以提供具有多个基于CNN的专家细粒度信息，如图2（e）所示。FPS块由频率调制注意模块（FMAM）、空间净化注意模块（SPAM）和规模多样化前馈网络（SDFN）组成，如图2（b）、（c）和（d）所示。该算法的目的是修正ViT的上述问题，提取具有不同空间分辨率和信道维度的分层特征。然后，将提取的特征发送到我们的解码器，该解码器还包括 $N_i \in [1,2,3,4]$ FPS和 $N_0$ HEFR块，采用跳跃连接，分层桥接编码器和解码器之间的中间特征，最后增加数据一致性（DC）层，重建高质量的MRI图像 $I_{out}$ 。

上述重建过程可以用公式表示为： $I_{out} = \mathcal{N}(I_{in})$ ，其中 $\mathcal{N}(·)$ 是整个网络，并且通过最小化以下损失函数来训练：
$\mathcal{L}=\left\|I_{out}-I_{gt}\right\|_1,\tag{1}$
其中， $I_{gt}$ 表示ground truth图像，并且 $_{1}$ 是L1范数。将在以下部分中具体介绍所提出的FPS和HEFR块。

FPS块

在这里插入图片描述

MRI重建中的ViT面临着高频信息丢失、无关token交互和有限的多尺度特征建模等问题。为了解决这些问题，我们提出了由三个主要模块组成的FPS块：频率调制注意力模块（FMAM）、空间净化注意力模块（SPAM）和规模多样化前馈网络（SDFN）。形式上，给定输入特征 $f_{in}$ ，FPS的编码生成结果定义为：
$f^{^{\prime}}=f_{in}+\mathcal{F}*\mathcal{P}(LN(f_{in})),f_{out}=f^{^{\prime}}+\mathcal{S}(LN(f^{^{\prime}}))\tag{2}$
其中，LN（·）表示层归一化， $\mathbin{\star} P$ 表示FMAM和SPAM的组合效果，S（·）表示SDFN的操作。

调频注意力模块FMAM

标准ViT表现出低通滤波特性，导致MRI重建时丢失纹理等高频细节。为了解决这一问题，我们提出了调频注意力模块（FMAM）来重新校准每个级别的频率重要性。具体来说，如图2（b）所示，我们首先使用具有不同方差的高斯函数来提取多个高斯表示 $\mathcal{X}$ 。该过程可以用公式表示如下：
$\mathcal{X}=\{\mathcal{X}_m\}_{m=1}^{M+1},\mathcal{X}_m=F_{in}\circledast\frac{1}{\sigma_m\sqrt{2\pi}}e^{-\frac{i^2+j^2}{2\sigma_m^2}}\tag{3}$
其中，输入特征 $F_{\text{in}} \in \mathbb{R}^\text{H×W×C}$ 从 $f_{in.}(i,j)$ 归一化，对应于空间位置， $σ_m \in [1,2,...,M+1]$ 表示第 $m$ 个尺度的高斯函数的方差，符号 ⊛ 表示卷积运算符。然后，我们通过减去 $\mathcal{X}$ 中的相邻元素来构建频率金字塔 $\mathcal{T}$ 。该过程表示为：
$\mathcal{T}=\left\{\mathcal{T}_m\right\}_{m=1}^M,\mathcal{T}_m=\mathcal{X}_{m+1}-\mathcal{X}_m\tag{4}$
频率金字塔 $\mathcal{T}$ 由多层组成，每层包含不同类型的频率信息。为了实现模型中低频和高频分量的均衡分布，我们进行频率内MSA操作，并有效地聚合每个频率级别的特征。具体来说，我们首先计算 $\mathcal{T}$ 的每个级别的注意力分数 $\mathcal{S}$ ，如下所示：
$\mathcal{S}=\left\{\mathcal{S}_{m}\right\}_{m=1}^{M},\mathcal{S}_{m}=\sum_{i=1}^{I}\mathrm{softmax}((Q_{m}^{i}K_{m}^{i})/\sqrt{d})\tag{5}$
其中 $I$ 是注意力头部的数量， $Q_m$ 和 $K_m$ 是使用线性变换从 $\mathcal{T}_m$ 导出的， $d = (C / I)$ 表示每个头部的维度。最后，我们将 $\mathcal{S}$ 中的注意力分数求和，并将结果乘以Value（ $V$ ，从 $F_{in}$ 导出），以获得FMAM $F_f$ 的结果：
$F_f=(\sum_{m=1}^M(\mathcal{S}_m\in\mathcal{S}))V\tag{6}$
在这里插入图片描述

空间净化注意力模块SPAM

在这里插入图片描述

如图2（f）所示，MRI图像包含图像块的集群，这些图像块在每个组内是相似的，但与组外的图像块明显不同。以前的基于ViT的方法同时对所有token块执行密集的MSA操作。这种操作导致不相关特征之间的噪声交互，阻碍了MRI重建。为了解决这个问题，我们提出了空间净化注意力模块（SPAM），其通过仅在上下文相关的标记之间计算自注意来应用稀疏性约束，以减少噪声和计算复杂度。

具体来说，如图2（c）所示，给定输入特征图 $F_{in}$ ，我们首先将其展平为 $\mathcal{Y}=\left\{f_{j}\in\mathbb{R}^{C}\right\}_{j=1}^{J}$ ，其中 $J$ 表示token的数量。随后，我们使用哈希函数来聚合信息并将C维token $f_j$ 映射到整数哈希码 $\mathcal{Z}$ 。该哈希映射可以公式化为：
$\mathcal{Z}=\left\{\mathcal{Z}_j\in\mathbb{Z}\right\}_{j=1}^J,\mathcal{Z}_j=\left\lfloor(a\cdot f_j+b)/r\right\rfloor\tag{7}$
其中 $a\in\mathbb{R}^C$ 和 $b\in\mathbb{R}$ 是满足 $a\sim\mathcal{N}(0,1)$ 和 $b\sim\mathcal{U}(0,r)$ 的随机变量， $r\in\mathbb{R}$ 是常数， $\lfloor\cdot\rfloor$ 是地板函数。接下来，我们根据 $\mathcal{Y}$ 中的所有元素在 $\mathcal{Z}$ 中的哈希码对其进行排序。第 $j$ 个排序的元素记为 $f_j^{^{\prime}}$ 。然后我们将它们分成 $\mathcal{G}$ 组，表示为：
$\mathcal{G}=\{\mathcal{G}_n\}_{n=1}^N,\mathcal{G}_n=\left\{f_j':ng+1\leq j\leq(n+1)g\right\} \tag{8}$
其中 $N$ 表示组的数量，并且每个组具有 $g$ 个元素。通过这样的方案，紧密相关的token被分组在一起。随后，我们对每个 $G_n$ 应用组内MSA操作以获得更新的组 $\mathcal{G}^\prime$ ′：
$\mathcal{G}^{'}=\left\{G_n^{'}\right\}_{n=1}^N,G_n^{'}=\sum_{i=1}^IW_ihead_i\left(G_n\right) \tag{9}$
其中 $head_i(\cdot)$ 表示第i个头部的自注意操作，I是注意头部的数量， $W_i\in R^{C\times d}$ 表示可学习参数。

接下来，我们从每个 $G^{′}_{n}$ 中取出所有元素，并根据它们在 $\mathcal{Y}$ 中的原始位置对它们进行排序。

最后，我们将 $[\cdot]$ 纯化后的特征 $F_p$ 与FMAM的频率结果 $F_f$ 连接起来。进一步应用深度卷积 $f (\cdot)$ 来聚合信息。通过这种方式，我们保留了高频信息并实现了空间纯化。上述过程被公式化为：
$F_{out}=f([F_p,F_f]) \tag{10}$

尺度多样化前馈网络SDFN

在这里插入图片描述

多尺度表示在增强MRI重建中已被证明是有效的。然而，以前的方法往往侧重于将单尺度分量集成到前馈网络中，忽略了多尺度特征表示的重要性。为了解决这个问题，我们设计了一个尺度多样化前馈网络（SDFN），通过在传输过程中插入两个多尺度深度卷积路径，如图2（d）所示。具体来说，给定一个输入Fs，它是从上述聚合 $F_{out}$ 归一化的，我们首先以r的比率用1 × 1卷积膨胀其通道维数，然后将获得的特征送入两个并行分支。在特征变换过程中，我们使用3×3和5×5去卷积来增强多尺度局部信息提取。SDFN的整个特征融合过程可以描述如下：
$\begin{aligned} &\hat{F}_{s}=f_{1\times1}(LN(F_{s}),\\&F_{p_{1}}=\sigma(f_{3\times3}(\hat{F}_{s})),F_{s_{1}}=\sigma(f_{5\times5}(\hat{F}_{s})),\\&F_{p_{2}}=\sigma(f_{3\times3}[F_{p_{1}},F_{s_{1}}]),F_{s_{2}}=\sigma(f_{5\times5}[F_{s_{1}},F_{p_{1}}]),\\&F_{s}^{'}=f_{1\times1}\left[F_{p_{2}},F_{s_{2}}\right]+F_{s} \end{aligned} \tag{11}$
其中 $f_{1\times1}(\cdot)$ 表示1×1卷积， $\sigma(\cdot)$ 是ReLU激活， $f_{3\times3}(\cdot)$ 和 $f_{5\times5}(\cdot)$ 表示3×3和5×5深度卷积， $[\cdot]$ 是通道级级联。

混合专家特征细化HEFR

在这里插入图片描述

灵感来自（Chen et al. 2023），我们引入混合专家特征细化（HEFR）来提供细粒度信息，如图2（e）所示。具体来说，我们通过仔细选择多个CNN操作来提取细粒度知识，称为专家。这些操作包括平均池化，可分离卷积层，与传统的将专家与外部门控网络相结合的方法不同，我们采用自注意机制作为不同专家之间的切换器，具体地，给定输入特征 $F_h\in\mathbb{R}^{H\times W\times C}$ ，我们首先应用通道道平均来生成 $C$ 维信道描述符 $\mathcal{K}\in\mathbb{R}^C$ ：
$\mathcal{K}=\frac{1}{H\times W}\sum_{i=1}^{H}\sum_{j=1}^{W}F_{h}(i,j)\tag{12}$
其中 $F_h(i,j)$ 是特征 $F_h$ 在空间位置 $(i, j)$ 的值，然后将每个专家的系数向量 $\mathcal{V}$ 对应于可学习权重矩阵 $W_{1}$ $\in$ $\mathbb{R} ^{D\times C}$ 和 $W_2$ $\in$ $\mathbb{R} ^{E\times D}$ 进行分配，即 $\mathcal{V} =$ $\tilde{W} {2}\sigma ( W{1}\mathcal{K} ) $。

这里， $D$ 是权重矩阵的维数， $E$ 是专家的数量， $\sigma(\cdot)$ 是ReLU函数。最后，将专家操作表示为 $f_{exp}(\cdot)$ ，得到的输出 $F_h^{^{\prime}}$ 为：
$F_h'=f_{1\times1}(\sum_{e=1}^Ef_{exp}(F_h,\mathcal{V}))+F_h \tag{13}$

Experiments

实验设置

数据集和评价指标

在以下三个数据集上评价了所提出的FPSMormer：CC359（Warfield, Zou, and Wells 2004），fastMRI（Zbontar et al. 2018）和SKM-TEA（(Desai et al. 2022）。CC359数据集是从临床MR扫描仪获取的公开可用的原始脑部MRI数据集（Discovery MR750; GE Healthcare, Waukesha, WI, USA）；在官方数据集划分之后，我们随机选择了包括来自25名受试者的4，524个切片的训练集，以及包括来自25名受试者的1524个切片的测试集。另外10名受试者的700个切片，采集矩阵大小为256 × 256； fastMRI数据集包含1172个复值单线圈冠状面质子密度（PD）加权膝关节MRI扫描，每个扫描提供约35个冠状面交叉我们将这个数据集分成973个用于训练的扫描和199个扫描（fastMRI确认数据集）进行测试; SKM-TEA原始数据跟踪提供了155个复值多线圈T2加权膝关节MRI扫描。12410每个受试者提供大约160幅膝关节横断面图像，矩阵大小为512 × 512。在对比实验中，通过使用类似于fastMRI challenge的1D Carnival欠采样函数对k空间数据进行随机欠采样来生成输入欠采样图像序列（Zbontar et al. 2018）。使用归一化均方误差（NMSE）、结构指数相似性（SSIM）和峰值信噪比（PSNR）作为评价指标进行比较。

训练细节

在我们的模型中，（N0，N1，N2，N3，N4）被设置为（4、1、2、2、1），注意力头数量（N1，N2，N3，N4）FPS块被设置为（1，2，4，8）。对于每个FPS块，FMAM中的频率金字塔等级的数量M，SHAM中的组的数量N，以及SDFN中的通道膨胀因子r被分别设置为（3，4，2）。对于HEFR模块，我们将专家数E设置为8，权重矩阵D的维数设置为32。在训练过程中，我们使用AdamW优化器，批量大小为4，patch大小为8，总共300K次迭代。前92K次迭代的初始学习率固定为1 × 10⁻⁴，然后在剩余的208K次迭代中使用余弦退火时间表减少到1 × 10⁻⁶。整个框架使用RTX 3090在PyTorch上实现。

与最新技术水平的比较

单线圈数据集

我们将FPS-Former与最近的MRI重建方法进行了比较，包括基于CNN和基于Transformer的方法。此外，我们还将其与两种最先进的自然图像恢复方法Restormer进行了评估。（Zamir et al. 2022）和AST（Zhou et al. 2024），为了进行公平的比较，它们配备了具有相同MRI重建设置的DC层。表1显示了我们的FPS的比较结果-在单线圈数据集（包括CC359和fastMRI）上，在不同加速因子（AF）下，FPS-Former与其他方法进行了比较。如本表所示，FPS-Former在两个数据集上的不同加速率下均优于基于CNN的方法，并且始终优于其他基于Transformer的方法。例如，在CC359上，我们的方法在4× AF下比基于CNN的SoTA DCRCN优越2.37 dB，比基于Transformer的ReconFormer优越0.22 dB。值得注意的是，随着加速因子的增加，我们的方法表现出更大的性能改善，特别是在更具挑战性的情况下。具体来说，对于CC 359和fastMRI数据集，我们的模型优于领先方法AST，在8× AF下分别提高1.70 dB和0.51 dB，在4× AF下分别提高1.60 dB和0.25 dB。

在这里插入图片描述

多线圈数据集

表2给出了在多线圈SKM-TEA数据集上进行MRI重建的对比结果。我们在4倍和8倍AF下分别获得了35.64和32.85的PSNR。我们的FPS-Former显著优于之前基于CNN的解决方案，并在4倍AF和8倍AF下分别显示出0.47 dB和0.24 dB优于AST。这进一步证明了我们方法的优越性。

在这里插入图片描述

不同mask的实验

为了进一步证明我们的FPS-Former的鲁棒性，我们在CC359数据集上使用5倍和10倍加速因子下的径向和随机欠采样模式进行了实验。如表3所示，FPS-Former始终优于其他方法，突出了其从各种欠采样掩码有效重建MRI图像的能力。

在这里插入图片描述

可视化结果

单线圈数据集、多线圈数据集和掩模实验的定性结果分别如图3（a）、（b）和（c）所示。在（a）中，基于CNN的SoTA D5C5遭受严重的边缘模糊和大量细节丢失。尽管基于Transformer的AST和ReconFormer部分缓解了这些问题，在具有高加速因子的挑战性任务中，它们仍然会丢失关键的解剖细节。相比之下，我们的FPSFormer对各种解剖结构和加速因子表现出鲁棒性。通过解决ViT模型的问题，我们的方法更好地保留了重要的解剖细节，如放大的框和椭圆所突出显示的。在（b）中，我们的FPS-Former可以恢复比其他同类算法更丰富的细节，这进一步证明了我们的方法不仅可以有效地重建单线圈MRI图像，而且可以有效地重建多线圈MRI图像。在（c）中，我们的方法在各种欠采样模式和加速率下都表现出很好的鲁棒性，进一步验证了它的有效性。

在这里插入图片描述

消融研究和分析

关键组件的功效

在这里插入图片描述

我们首先进行了击穿消融以研究每个组件及其相互作用的效果。如表4中列出的结果所示，（a）当FMAM被移除时，性能在PSNR和SSIM中显著下降0.24和0.0027。这种下降可以归因于FMAM保留高频细节的能力，这对于恢复局部纹理和边缘是至关重要的。（b）排除SPAM导致PSNR和SSIM分别显著降低0.55和0.0075。这表明SPAM有效地减轻了来自内容无关token的噪声影响，（c）在标准ViT中用传统的前馈网络取代SDFN，导致PSNR从34.38降低到33.95。这突出了SDFN在表示多尺度特征方面的有效性，（d）HEFR的缺失导致PSNR下降0.40，SSIM下降0.0047，显示其显著贡献。

FPS块的分析

在这里插入图片描述

如表5所示，为了进一步分析我们的FPS块的有效性，我们比较了FMAM，SPAM和SDFN的各种变体。具体来说，（1）我们研究了FMAM中频率金字塔层数M的影响。我们的结果表明，太小和太大的M都会对网络性能产生负面影响，当M = 3时，重建结果最佳。较少的层难以捕获不同的频率信息，而过多的层会导致特征聚合的混乱。（2）我们将SPAM与几种自注意机制进行了比较，包括全局MSA和基于局部窗口的MSA。我们可以看到，SPAM表现出最显着的改进，因为它在具有密切相关内容的token之间执行MSA计算，有效地减少了噪声交互。（3）我们针对三种基线方法评估了SDFN：传统前馈网络（FN）、深度卷积前馈网络（DFN）和门控深度卷积前馈网络（GDFN）。尽管GDFN采用门控机制来增强性能，但它不利用多尺度特征集成，相比之下，我们的SDFN结合了不同尺度的局部特征提取和融合，实现了比GDFN高0.56 dB的PSNR增益。

频率调节注意力模块的效率

为进一步验证我们的FMAM的有效性，（Wang et al. 2022），并给出了在最后一个编码器层具有和不具有FMAM的网络变体之间的频谱响应比较，如图4（a）所示。与FPSFormer相比，不具有FMAM的网络的频率响应表现出更大的高频衰减。此外，如图4（b）所示，我们使用高通滤波器从不同方法的重建图像中提取高频结构。由于FMAM有效地保留了高频细节，我们的方法可以更准确和完整地重建边缘和纹理。这一视觉证据强调了FMAM在解决ViT低通滤波器问题方面的上级能力。

在这里插入图片描述

训练效率的分析

在这里插入图片描述

训练效率的比较报告在表6中。最近的基于ViT的ReconFormer采用递归结构来维护一些可训练的参数。然而，其显著更高的计算复杂度（FLOPs= 342 G）大大增加了训练难度和推理时间。另一方面，AST解决了空间和通道冗余，并实现了FLOPs的显着减少。然而，AST具有26.10 M的较大参数计数和性能的显着下降。与这些方法相比，我们的FPS-Former在保持低计算复杂度和最少可训练参数的同时实现了显著的性能改进。这一优势主要归功于我们的SPAM，它最大限度地减少了不相关token之间的交互，有效地降低了噪声干扰和计算复杂度。

超参数分析

在补充资料中，我们将详细讨论HEFR中专家数量、FMAM中频率金字塔层数、SDFN中扩展比、FPS块和HEFR模块数量等关键超参数的分析。FPS-Former在不同的超参数变化中表现出一致的性能。

Conclusion

在这项工作中，我们提出通过解决三个问题来提高基于ViT的MRI重建，包括高频信息的丢失，无关token之间的冗余交互以及多尺度特征建模的挑战。为了实现这一点，我们提出了用于频率信息校正的频率调制注意模块，用于分组token交互的空间净化注意模块，在CC359、fastMRI和SKM-TEA数据集上进行了大量的实验和分析，验证了FPS-Former在解决ViT-MRI问题上的有效性，显著提高了MRI重建的性能。