研究了低级计算机视觉任务(例如去噪、超分辨率和去雨)并开发了一种新的预训练模型,即图像处理变压器(IPT)。利用著名的 ImageNet 基准来生成大量损坏的图像对。 IPT 模型是在这些具有多头和多尾的图像上进行训练的。此外,引入对比学习以更好地适应不同的图像处理任务。因此,预训练模型在微调后可以有效地应用于所需的任务。
1. 介绍
图像处理是更全局的图像分析或计算机视觉系统的低级部分的组成部分之一。图像处理的结果很大程度上影响后续高层部分对图像数据的识别和理解。近年来,深度学习已广泛应用于解决低级视觉任务,例如图像超分辨率、修复、去雨和着色。由于许多图像处理任务都是相关的,因此很自然地期望在一个数据集上预训练的模型可以对另一个数据集有所帮助。
在计算机视觉中,deraining是指图像去雨的过程。具体来说,deraining技术旨在从被雨水影响的图像中恢复出清晰、无雨的图像内容。deraining是一个具有挑战性的任务,因为雨水在图像中可能表现为不同的形态和密度,且对图像的影响也是复杂多变的。
预训练可能为图像处理任务提供有吸引力的解决方案:
首先,对于特定任务的数据可能受到限制。这个问题在涉及付费数据或数据隐私的图像处理任务中更加严重,例如医学图像和卫星图像。各种不一致的因素(例如相机参数、照明和天气)可能会进一步扰乱捕获的训练数据的分布。
其次,在呈现测试图像之前,不知道将请求哪种类型的图像处理作业。因此我们手头必须准备一系列的图像处理模块。他们有不同的目标,但一些基本操作可以共享。
本文中,我们使用Transformer架构开发了一种用于图像处理的预训练模型,即图像处理Transformer(IPT)。由于预训练的模型需要兼容不同的图像处理任务,包括超分辨率、去噪、去雨等,因此整个网络由对应不同任务的多对头尾和单个共享主体组成。
由于Transformer的潜力需要使用大规模数据集来挖掘,因此我们应该准备大量具有相当多样性的图像来训练IPT模型。为此,我们选择包含各种高分辨率、1000 个类别的 ImageNet 基准测试。对于 ImageNet 中的每个图像,我们使用操作来生成多个对应图像来服务于不同的任务。
Transformer架构在巨大的数据集上进行训练
1、训练图像被输入到特定的头部,生成的特征被裁剪为补丁,并随后展平为序列。
2、Transformer主体被用来处理扁平化特征,其中位置嵌入和任务嵌入分别用于编码器和解码器。
3、尾部被迫根据特定任务预测具有不同输出大小的原始图像。此外,引入了不同输入的块之间关系的对比损失,以便更好地使用不同的图像处理任务。
2. 相关工作
2.1 图像处理
图像处理包括对图像的操作,包括超分辨率、去噪、去雾、去雨、去模糊等。
2.2 Transformer
Transformer及其变体已证明其在各种自然语言处理任务中是强大的无监督或自监督预训练框架的成功。
探索 Transformer 在计算机视觉任务中的好处:
1、在传统的卷积神经网络中引入自注意力。引入了图像分割的空间注意力、提出DANET通过结合空间和通道注意力来利用上下文信息、通过自注意力增强特征,以增强模型在几个高级视觉任务上的性能
2、用自注意力块代替卷积神经网络。
3. Image Processing Transformer
3.1 IPT架构
IPT 的整体架构由四个部分组成:头部用于从输入的损坏图像(例如,带有噪声的图像和低分辨率图像)中提取特征,编码器-解码器Transformer用于恢复输入数据中缺失的信息,尾部用于将特征映射到恢复的图像中。
头部
为了适应不同的图像处理任务,我们使用多头架构来单独处理每个任务,其中每个头由三个卷积层组成。将输入图像表示为,头部生成具有C个通道的相同高度和宽度的特征图