Deep RAW Image Super-Resolution 论文浅翻译

最新推荐文章于 2025-03-29 10:59:48 发布

ysh9888

最新推荐文章于 2025-03-29 10:59:48 发布

阅读量1.2k

点赞数 14

分类专栏：论文翻译文章标签：计算机视觉人工智能

本文链接：https://blog.youkuaiyun.com/qq_43620967/article/details/145202220

版权

论文翻译专栏收录该内容

8 篇文章

订阅专栏

https://github.com/mv-lab/AISP

Abstract

本文综述了NTIRE 2024 RAW图像超分辨率挑战赛，重点介绍了所提出的解决方案及结果。在现代图像信号处理（ISP）流程中，RAW图像超分辨率的新方法可能至关重要，然而，与RGB领域相比，这一问题的研究尚不充分。本次挑战赛的目标是将RAW Bayer图像放大2倍，同时考虑噪声和模糊等未知退化因素。挑战赛期间，共有230名参与者注册，其中45名提交了结果。本文在此回顾并提供了前5名提交作品的性能，以此作为当前RAW图像超分辨率领域最先进技术的衡量标准。

引言

RAW图像超分辨率是一个活跃的研究方向，旨在放大特定于硬件的RAW图像表示，同时处理硬件特性，这些特性通常取决于相机产品的技术实现。相机图像处理信号（ISP）实现缺乏标准化，导致相机市场细分中出现大量多样性，通过图像处理算法进行大量校正[17, 18, 24, 25, 53]，以克服各种设备的硬件限制。

RAW图像是图像信号的离散化和量化表示。当然，上述操作都取决于传感器的性质，不同的传感器类型具有不同的空间分辨率或颜色分辨率（用于量化的位数）。通常，便携式相机设备在尺寸、电源和所用光学元件方面受到极端限制，因此在图像质量方面受到限制，通常采用较低的颜色分辨率和空间分辨率。然而，这些特定的硬件实现在新购置设备方面目前正引领市场，相机变得无处不在且人人可用。因此，图像信息空间也以大量对应于这些设备的图像为特征，复杂的ISP系统[15, 23, 43, 59]将RAW图像表示映射为感知上有意义的RGB图像。

RAW图像放大在专业摄影领域仍然具有重要意义。鉴于基于互联网的图像传输服务的强劲发展，现在对高分辨率图像的需求比以往任何时候都要高。然而，构建专业摄影或摄像设备是一项艰巨的挑战，因为市场被各种应用特定参数所分割，且购置成本仍是新投资的主要限制因素。因此，开发对影响低成本业余摄影系统的各种硬件限制具有鲁棒性的算法至关重要，这些算法应与在高度专业应用中使用的高分辨率传感器的特性相匹配。

RAW信息极为重要，因为RAW数据直接与场景辐射相关，在摄影中，离散化和量化是影响自然连续辐射信号测量的唯一非线性操作。RAW数据的这一特性在分析如采集噪声或图像模糊等典型图像退化现象时极为有利。远离传感器表示，图像信号处理（ISP）代表了一系列高度非线性的操作，这些操作伴随着信息的不可逆丢失[5, 28]。这进一步复杂化了图像恢复任务，复杂的算法需要利用信号基方差所能实现的每一个比特[5, 53]。考虑到上述所有因素，RAW图像处理相较于标准的sRGB表示具有显著优势，在多种低级图像处理应用（如图像去噪[1, 5, 39]、去模糊[18]、曝光调整[22]和图像超分辨率[18, 40, 53, 56, 59]）中表现出更优越的性能。

由于硬件实现层面缺乏标准化，RAW图像具有供应商甚至产品特定的特性，这些特性只能通过私有方式解释，摄影产品受到实施专利或商业秘密的保护。鉴于标准sRGB表示的普遍性，大多数现有的高复杂度图像恢复算法[10, 17, 32, 58]都是专门为压缩或未压缩的RGB图像或视频设计的。

作为图像恢复的一个子任务，最先进的单图像超分辨率（SISR）算法[2, 14, 32]遵循相同的数据特定性，即使它们依赖于深度卷积网络或Transformer[32, 58]架构。这些算法的最大缺点之一是它们受到用于优化的数据质量的限制。各种图像恢复应用面临着获取真实域成对数据的极端困难[1, 30]，这促使了对现实且相关数据合成的需求[18, 53]。鉴于高度非线性的ISP特性也会改变退化外观的物理特性，因此很难在sRGB表示中准确模拟应用特定的退化。这是限制这些算法在实际应用部署中性能的主要因素，数据层面的差距很难通过无模型算法来克服。

因此，研究RAW数据成为推动图像恢复性能整体提升趋势的关键步骤。因此，RAW图像超分辨率应用可以从增加的方差信号中受益，算法对涉及设备的精细架构特性具有鲁棒性。开发像在sRGB领域已成熟应用的算法[16, 17, 44, 48]一样高效的算法，可以证明是在开发高性能图像处理应用方面迈出的重要一步，同时降低成本。

因此，在本文中，我们介绍了为NTIRE 2024 RAW图像超分辨率挑战赛提交的解决方案。我们提供了关于挑战赛设置的信息，包括任务描述和挑战数据集划分所体现的数据特性。我们还列出了参赛者及其团队和所属机构的信息。

在第2节中，我们描述了挑战赛的数据集和评估方法，并讨论了总体结果。在第3节中，我们详细描述了最佳解决方案。

2. NTIRE 2024 RAWSR 挑战赛

2.1. 数据集

挑战赛的数据集基于BSRAW[18]。遵循先前的工作[18, 53, 54]，我们使用Adobe MIT5K数据集[6]中的图像，该数据集包含来自多台佳能和尼康单反相机（DSLR）的图像。

这些DSLR图像经过人工筛选，以确保其多样性和自然属性（即移除极暗或过曝的图像），我们还移除了模糊图像（即仅考虑所有对焦清晰的图像）。

预处理步骤如下：（i）我们根据黑电平和位深度对所有RAW图像进行归一化处理。（ii）我们将图像转换为众所周知的RGGB拜耳模式（4通道），这允许在不破坏原始颜色模式信息的情况下应用变换和退化[35]。

训练：我们为参赛者提供1064张1024×1024×4的清晰高分辨率（HR）RAW图像。使用BSRAW[18]中提出的退化管道，可以在训练期间在线生成低分辨率（LR）退化图像。

该退化管道考虑了不同的噪声特征、多个模糊核（PSF）以及简单的下采样策略，以合成低分辨率RAW图像。参赛者可以应用其他增强技术或扩展退化管道以生成更逼真的训练数据。

2.2. 基线

我们使用BSRAW[18]作为主要基线。表现最佳的挑战赛解决方案改进了基线性能，但神经网络在设计和计算方面明显更为复杂。

2.3. 结果

我们使用三个测试集划分：（i）验证集，包含40张1024像素的图像，用于模型开发阶段。（ii）测试集1MP，包含200张1024像素分辨率的图像。（iii）相同的200张测试图像，但分辨率为全分辨率≈12MP。参赛者处理相应的LR RAW图像（例如512 × 512 × 4），并提交其结果。因此，参赛者无法访问真实图像。

我们在图1中提供了测试集的样本。

在表1中，我们提供了挑战赛基准。除了PSNR和SSIM等保真度指标外，我们还提供了每种方法的相关实现细节。这些方法可以大大提高RAW图像的质量和分辨率，即使以全分辨率12MP图像作为输出也是如此。我们在图8、图9和图10中提供了详细的视觉比较。所有提出的方法都能够增加RAW图像的分辨率和细节，同时减少模糊和噪声。此外，没有出现可检测的颜色伪影。

表1。我们提供了验证集（40张图像）、完整的测试集（200张图像）和全分辨率（1200P）RAW图像[19]的PSNR/SSIM结果。所有的保真度指标都是在RAW域中计算出来的。“NA”表示该方法的结果不可用。我们强调了两种基线方法。我们还报告了每种方法的参数数量，如果该方法是端到端训练（是/否），以及用于训练模型的图像分辨率。

我们可以得出结论，（合成）RAW图像超分辨率的解决方法与RAW图像去噪类似。然而，更逼真的下采样仍然是一个未解决的挑战。

3. Challenge Methods and Teams

3.1. Dual Stage RAW SR with Focal Pixel Loss

三星MX,SRC-B团队正在为RAW图像超分辨率引入一个两阶段网络。该解决方案采用分而治之的策略，第一阶段负责从低分辨率退化的RAW图像中恢复图像结构，第二阶段则旨在恢复尽可能多的细节，从而提供精细的重构。此外，该团队还在进一步扩展现有的合成数据生成方法，深入研究特定于硬件的RAW图像退化，为相关设备特定的噪声特征提出新定义，并提出与典型现实世界场景相符的新模糊核。他们提出了一个随机退化模型，用于模拟观察到的模拟缺陷之间的不同相互作用。

最后，三星MX,SRC-B团队提出了一种新颖的焦点像素损失（Focal Pixel Loss），这在模型微调阶段的性能提升中得到了验证。如图2所示，网络结构主要包括两个阶段。第一阶段主要借鉴了Restormer[58]，其主要作用是恢复原始图像的主要内容。第二阶段则主要使用基于NAFNet[10]的设计，其主要作用是在第一阶段恢复的基础上恢复更多细节。

训练过程考虑了所提方法的双阶段设计。训练过程的第一阶段遵循与模型第一阶段相对应的参数优化。在训练过程的第二阶段，优化后的参数被冻结，同时开始精炼第二阶段的参数，以实现最佳的专业化。然后，使用两组优化后的参数（Restormer和NAFNet模型）进行最终估计。

该解决方案的主要细节之一是基于输入数据特征提出的一种新颖的训练目标。鉴于信号退化函数的非均匀影响，观察到的像素高度受影响比例存在不平衡，因此提出了焦点损失（见公式（1））作为解决方案。因此，焦点像素损失（FPL）对那些信号偏移较大的像素引入指数惩罚。

图2。双阶段RAWSR框架，由三星MX团队提出，SRC。最好的观看在电子版本。

在公式（1）中，D(., .)表示恢复后的图像Î与参考图像I之间的标准L范数距离，而γ是一个可调整因子，用于控制惩罚的强度。

实施细节：该模型仅使用挑战赛组织者提供的数据进行训练。它仅包含来自各种单反相机传感器的1000多张RAW图像。通过使用标准的图像增强技术和模拟图像退化流程对数据集进行了增强。训练过程是一个双阶段操作，依次优化模型的各个阶段。所使用的优化技术是AdamW [38]优化器（β1 = 0.5，β2 = 0.999，权重衰减为0.0001），并结合余弦退火策略，其中学习率从初始学习率5 × 10−5逐渐降低到1 × 10−7，共进行5 × 105次迭代。模型首先基于L1损失进行预训练优化阶段。在微调阶段，目标设置为焦点像素损失（Focal Pixel Loss），并将初始学习率设置为5×10−6。训练批次大小设置为4，补丁大小为384。使用水平/垂直翻转和旋转进行数据增强。所有实验均在A100 GPU上进行。

import numpy as np

def focal_pixel_loss(I, I_hat, gamma=1.0):
    """
    计算焦点像素损失（FPL）。

    参数:
    I (numpy.ndarray): 参考图像。
    I_hat (numpy.ndarray): 恢复后的图像。
    gamma (float): 惩罚强度因子，默认值为1.0。

    返回:
    float: FPL损失值。
    """
    # 确保输入图像具有相同的形状
    assert I.shape == I_hat.shape, "输入图像必须具有相同的形状"
    
    # 计算标准L范数距离（即均方误差的平方根）
    # 注意：这里使用均方误差MSE，因为L2范数距离的平方就是MSE
    mse = np.mean((I - I_hat) ** 2)
    distance = np.sqrt(mse)
    
    # 计算FPL损失
    FPL = - (distance ** gamma) * np.log10(distance + 1e-10)  # 加一个很小的数避免log(0)
    
    return FPL

# 示例用法
if __name__ == "__main__":
    # 假设I和I_hat是形状相同的numpy数组，表示参考图像和恢复后的图像
    I = np.array([[0, 1], [1, 0]])  # 示例参考图像
    I_hat = np.array([[0.1, 0.9], [0.9, 0.1]])  # 示例恢复后的图像
    
    gamma = 2.0  # 示例惩罚强度因子
    
    loss = focal_pixel_loss(I, I_hat, gamma)
    print(f"FPL损失: {loss}")

3.2. EffectiveSR for RAW Images

小米MMAI团队提出的解决方案是基于HAT[12]的双分支网络，在训练过程中采用重参数化[20]，利用额外的参数充分挖掘该方法的潜力。他们引入了一种针对RAW图像超分辨率（RAWISR）的任务分解和逐步训练方法，以同时解决三个任务：去噪、去模糊和2倍超分辨率。

为了解决训练样本数量有限的问题，小米MMAI团队将RAW图像转换为RGB图像，并对生成的RGB图像集进行组合数据增强，包括随机旋转、翻转、颜色变化、亮度变化、随机模糊等。然后，将增强后的RGB图像集转换回RGGB RAW域，并使用处理后的数据来训练[5 Unprocessing images for learned raw denoising]所提出的解决方案。

小米MMAI团队提出的模型受到HAT[11]的启发，其架构针对RAW图像超分辨率任务进行了优化。优化的双分支网络结构（DB-HAT）如图3所示。为RAWISR引入的逐步和任务分解训练方法进一步提升了他们解决方案的性能水平。

逐步训练：为了加速训练并达到良好的性能，小米MMAI团队采用了一种策略，即每个子任务（包括最终的联合优化）都是基于金字塔图像表示进行训练的。最初，模型在小规模图像（64×64）上进行训练，然后逐渐将图像块的分辨率增加到128×128和256×256。

图3.TemmiMMA团队提出的DB-HAT模型

任务分解：小米MMAI团队将RAWISR分解为三个子任务：去噪、去模糊和2倍超分辨率。他们首先开始训练RAW图像去噪，然后训练与之相关的去模糊和2倍超分辨率任务。最后，对整个网络进行联合优化，以产生最终估计器。

在去噪和去模糊的训练过程中，小米MMAI团队在所提出的DB-HAT的最后阶段使用了RepConv重参数化技术，以提高任务的视觉图像质量。可重参数化的卷积块（RepConv）如图4所示。

图4.小团队使用的RepConv

实施细节：用于三个子任务训练的数据集包含1000多张RAW图像，数据增强方法的详细信息可参考前一节。在整个网络的最终联合优化阶段，小米MMAI团队使用了提供的1000多张数据集，而不是增强后的数据集。学习率初始化为4 × 10−4，并在三个子任务的训练过程中根据余弦退火策略进行衰减。网络总共训练了2×105次迭代，使用L2损失函数作为Adam优化器的训练目标进行最小化。

随后，使用L2损失和SSIM损失函数进行两次迭代的微调，对于2x105次迭代的初始学习率为5×10−5。所有的实验都是在8A100gpu上使用PyTorch 2.0框架进行的。

3.3. RBSFormer: Enhanced Transformer Network for Raw Image Super-Resolution

中国科学技术大学USTC604团队为原始图像超分辨率问题提出了一个基于Transformer的框架，该框架的设计基于Restormer[58]中提出的Transformer块（见图5），该解决方案通过跨通道应用自注意力机制，在捕捉远程像素交互方面表现出色。

该解决方案使用了NTIRE 2024原始图像超分辨率挑战中提供的数据，以及[18]中描述的退化流程。

对于大小为224×224的4通道RGGB原始图像块，USTC604团队提出的模型的计算成本为14.6 GFLOPS，具有3.31个可训练参数。在消费者级游戏GPU NVIDIA RTX4090Ti上，对全分辨率图像进行估计所需的前向传递时间为650毫秒，这受限于所使用的骨干网络，是图像恢复领域提出的计算成本较高的解决方案之一。

实验所用的软件特性基于PyTorch 1.8框架，实验在NVIDIA RTX4090Ti设备上进行。训练过程基于Adam优化器，衰减参数β1=0.9和β2=0.99。初始学习率为3 × 10−4，并根据余弦退火方案变化至1 × 10−7，训练过程涵盖了约10小时内的12万次迭代。有关更多详细信息，请参阅作者的论文RBSFormer[26]。

3.4. SwinFSR Raw Image Super Resolution

麦克马斯特团队提出了一种算法，该算法考虑了多个采集传感器，并考虑了由硬件限制引起的各种图像信号退化。该模型直接从4通道原始数据（RAW data）和增强的退化流程中学习。在退化过程中，由于噪声的更大变化，该解决方案展现出更强的鲁棒性，能够高效地从退化的输入中生成高质量图像，从而提高了在官方数据集上的整体性能。他们的方法是在经过设计的退化过程后直接处理4通道RGGB原始图像。

该架构是一个混合模型，结合了SwinFSR[8]和简单的卷积神经网络（CNN）层。模型仅使用官方数据集[19]进行训练和验证。

团队利用了BSRAW[18]中展示的噪声模型、模糊核和退化模型。他们添加噪声的方法受到了DiT[42]中策略的启发，即在正向过程中逐渐添加高斯噪声作为一种退化形式。扩散模型[27, 42]已被提出用于各种成像任务，包括图像超分辨率，证明了它们具有将纯高斯噪声转换为有意义数据表示的能力。他们研究了在扩散模型中使用的逐渐增强的高斯噪声在解决原始图像超分辨率任务中固有的退化过程的适用性。麦克马斯特团队采用了[42]中的加性噪声模型，使用[42]中描述的正向扩散定义对输入原始图像进行噪声处理。在正向扩散过程中，输入数据经历了一个退化过程，即在1000个离散步骤中迭代添加高斯噪声。在DiT的后向去噪过程中，模型针对正向扩散过程进行了优化，通过变分下界最大化数据似然性。

麦克马斯特团队提出的模型的架构配置如图6所示。在提出的方法中，基于SwinFSR的设计[9]执行原始域图像特征提取，并结合特征上采样，通过复杂的卷积算子匹配高分辨率图像的大小。SwinFSR建立在SwinIR[32]的成功基础上，通过快速傅里叶变换（FFT）图像表示[8]提供的频率域知识这一额外的数据模态。这证明是一种优越的策略，它结合了空间特征和光谱特征，以平衡空间域的局部信息和通过光谱表示访问的全局信息。它引入了一个新的交叉注意力模块，用于在两个模态之间进行有效的信息交换，并适应矩形输入补丁以实现灵活性。

对于提出的模型，仅部署了SwinFSR的特征提取分支。实施细节：该解决方案仅使用NTIRE 2024官方挑战数据[19]进行优化，并使用提出的开发阶段提交集进行验证。该数据集包含1064张4通道单反相机特定的RGGB原始图像用于训练，以及额外的40张原始图像用于验证。对图像进行了预处理，应用了白黑电平校正，然后归一化到单位区间。由于退化的低分辨率原始图像质量较低，丢失了大量细节，因此应用了一种数据增强技术，以提高训练过程的稳定性、收敛性和达到的性能水平。该策略结合了简单的水平或垂直翻转、通道移位和混合增强。训练目标基于L1损失。

3.5. Spatially-Adaptive Feature Modulation for RAW Super-Resolution

国防科技大学RSR团队提出的解决方案针对所提出的挑战中的三个主要部分进行了拓展，包括图像信号退化管道、模型设计和模型监督，在恢复保真度方面取得了显著的性能水平。

对于图像信号退化管道，所考虑的退化因素包括各种模糊核、曝光缺陷、图像下采样，最后结合了一个符合现实世界原始图像数据特征的噪声模型。遵循[29]的研究，所提出的解决方案从SAFMN[47]的主干网络中受益，增加了幅度和相位分量。该模型融合了频域和空域信息，以实现全局-局部级别的特征混合。

此外，该解决方案还部署了知识蒸馏，使用NAFNet[10]作为教师模型，进行多复杂度级别的特征监督。最后，我们应用了渐进式训练策略，在每个阶段逐渐增加补丁大小，以适应更大的测试输入。

退化管道：受[51]和[18]的启发，为了使模型能够学习真实的退化信息，首先对Bayer格式的原始图像进行裁剪，然后对原始信号进行一系列操作以进行退化，这些操作包括多次模糊操作、曝光补偿、下采样以及特定于硬件的附加噪声。

第一步是模糊操作，基于随机生成的高斯模糊、广义高斯模糊（具有平台状分布）及其各向异性版本。同时，还考虑了启动工具包中提供的增强型点扩散函数（PSF）核。所有核的大小范围从7×7到25×25。

然后，管道继续对图像曝光进行线性调整。如[18]所述，为了模拟欠曝光和过曝光造成的伪影，管道通过线性缩放图像来实现曝光调整。调整因子被调整到[-0.25, 0.25]区间内，应用于单位区间归一化的图像。

接下来，图像进一步下采样，考虑不同的下采样核，包括双三次插值、双线性插值和平均池化操作。为了构建多尺度训练对，首先将输入图像上采样或下采样到随机大小，然后重新缩放到原始大小的一半，以进行2倍超分辨率任务。

在下采样后的图像上，首先应用异方差高斯噪声[18]，然后是针对不同曝光水平的实际读出噪声[18]。在第二步中具有较高曝光因子的图像更容易受到异方差噪声的影响，而低光图像则更容易受到读出噪声的影响。

退化管道的最后一步是第二次模糊操作。为了像高阶退化模型[51]那样扩展退化空间，在最后阶段应用了一个基于一组第二次模糊核（与第一步中考虑的核相同）的随机操作，这些核的特征是标准差较小。

网络

根据[29]，图像的傅里叶频谱图与其下采样后的图像的振幅相似，而其相位则与获取的图像信号中观察到的噪声有关。虽然该方法是为低光图像增强任务设计的，但国防科技大学（NUDT）遥感团队（RS）从观察中发现，盲RAW图像超分辨率也可以从优化低分辨率图像的这两个组成部分中受益。

因此，国防科技大学遥感团队提出的模型如图7所示，其中输入图像通过3×3卷积层进行编码以提取浅层特征，并使用快速傅里叶变换（FFT）模块（FFM）进行深层特征提取。遵循[29]，主要模块被分为空间分支和傅里叶分支。在每个模块中，输入同时发送到两个分支，然后融合分支处理后的特征。经过残差连接后，使用最终的像素重排操作将特征集上采样到参考图像的分辨率[45]。

图7。由NUDT RSR团队提出的整体网络架构。所提出的FFM FFT块是一种双分支分配，由傅里叶分支提取振幅和相位，通过SAFM和CCM块[47]指导在空间分支中进行的全局-局部特征混合。

在空间分支中，跨域通信通过SAFMN[47]的高效特征混合模块（FMM）块进行。FMM块由一个SAFM块和一个CCM块组成。SAFM将通道分成不同的部分，在不同尺度上融合它们的特征，并在GELU激活后获得注意力图。然后，原始输入乘以注意力图。CCM块由一个3×3卷积层和一个1×1卷积层组成，作为通道混合器来捕获局部上下文信息。

在傅里叶分支中，图像通过快速傅里叶变换（FFT）算子转换为频率图，以获得振幅和相位分量，这些分量随后分别通过两个带有GELU激活的1×1卷积层进行处理。接下来，将这些精细化的分量组合成一个新的频率图，并使用逆FFT将其转换回空间域。来自不同分支的特征通过另一个1×1卷积进行拼接和融合。提出的模型使用了8个宽度为36的此类块。为了避免在高维度上进行昂贵的计算，最终重建阶段中的空间特征变换（SFT）层被移除[29]。这导致了一个高效的估计器，所提方案的参数总数为272,068个。该团队在表2中展示了消融研究结果。

表2。NAFNet、香草SAFMN与NUDT RS团队提出的方法的比较。大版本的NAFNet使用[2,2,4,8]编码块，每个阶段使用[2,2,2,2]解码块，以及12个中间块，宽度设置为64。而较小的版本使用宽度32，带有[2,1]配置用于编码和解码块和1个中间块。香草的SAFMN有昏暗的=36，ffn比例的=2配置，和8个主块，这与填充的SAFMN FFT相同。所有的故障都以输入大小为1×4×512×512进行计算。

训练策略

采用了一种两阶段优化策略。所有训练均基于开发数据集进行，未使用任何外部数据集。

首先，训练了一个大型版本的NAFNet[10]模型作为教师网络，在128大小的图像块上增加了复杂度退化。然后，该NAFNET模型被用作知识蒸馏的一部分，这是所提出解决方案中采用的优化技术之一。为了减少计算量，知识蒸馏不依赖于多级特征集之间计算的距离，而是依赖于定义特征的统计量，请参阅[21]。

其次，为了适应高分辨率测试图像，学生模型在更高分辨率的图像块上逐步进行微调。训练图像块的大小从128、256、352增加到448。

优化目标基于同时在空间域和傅里叶域中应用的L1距离[46]。总损失在等式（5）中定义。

其中，I1和I2分别表示恢复的图像预测和相应的参考图像。F(·)是快速傅里叶变换（FFT）算子，Ni(·)是由网络确定的特征提取算子，其中i ∈ D是一组中间层，G(·)定义为中间特征通道均值的平方。∥·∥c表示Charbonnier损失。λ和µ用于控制不同组件的权重。微调阶段仅使用Lp和Lf损失项。