progressive random convolutions for single domain generalization论文阅读过程-优快云博客

采用的是吴恩达老师的论文阅读方法。

阅读过程：

Multiple passes[多次通读]

Read the title/abstract/figures

Title

Progressive

采用渐进的方式，逐步改进模型性能或逐步引入新的技术。渐进性通常表示逐步迭代和改进。

Progressively stack randconv block【重复迭代】--block（变形偏移+仿射变换）【保留语义并获得更多style】

Random convolutions

可能在卷积层中引入某种随机性或随机特征来提高性能。【猜测可能用crf】
基于randconv

Single domain generalization

主要目标是解决单一领域泛化问题。泛化指模型在未见过的数据上表现良好的能力。单一领域泛化问题是指模型在训练时只能访问一个领域的数据，但需要在其他领域的数据上进行泛化而不失去性能。【和few-shot learning有类似】
从一个源域中学到鲁棒的representation--生成多样的samples从而扩展源域的覆盖范围

Abstract

Single Domain Generalization

说明研究目标

基于随机卷积（RandConv）的图像增强技术

该方法通过为每个小批量数据随机初始化一个卷积层，扭曲局部纹理，从而帮助模型学习更具泛化能力的视觉表示

视觉表示	视觉表示是一种数值或向量表示，它捕捉了图像中或视觉数据的关键特征或信息，用于表征图像内容和结构，例如边缘、纹理、颜色、形状等，以便计算机可以更好地理解和处理图像数据。
具有泛化能力的视觉表示	在训练期间学到的表示，对于不仅仅是用于训练的图像，而且对于新的、以前未见过的图像也能够有效地表征图像内容。

RandConv 方法存在一些结构性限制

增加卷积核大小时容易失去语义信息

缺乏单一卷积操作的内在多样性

单一卷积操作的内在多样性

通过不同参数的卷积核和不同的输入数据部分，同一个卷积操作能够捕获多种不同类型的特征

逐步随机卷积（Pro-RandConv）方法

原理

递归堆叠具有小内核尺寸的随机卷积层，而不是增加卷积核尺寸。——progressive

优势

缓解语义扭曲	减少理论感受野中远离中心的像素的影响
创建更有效的虚拟域	逐渐增加样式多样性

General

将基本的随机卷积层扩展为包括可变形偏移和仿射变换的随机卷积块，以支持纹理和对比度多样化，这两者(可变形偏移和仿射变换)也是随机初始化的。

可变形偏移和仿射变换

可变形偏移

卷积核的位置和形状可以动态地适应输入数据的特征

常包括一个可变形偏移模块，该模块学习如何在每个位置对卷积核进行偏移，以适应输入的特定结构。

仿射变换

仿射变换是一种线性变换，包括平移、旋转、缩放、剪切等操作，用于对输入数据进行几何变换。

用于数据增强以及对输入数据进行空间变换,可以在不改变数据内容的情况下改变其外观，使神经网络能够更好地应对不同视角、尺度和旋转下的对象识别等任务。

纹理和对比度多样化

纹理多样化	这种多样性可以用于数据增强，以帮助深度学习模型更好地泛化到不同类型的纹理。
对比度多样化	对比度多样化是一种通过改变图像的亮度和对比度水平来增加图像多样性的技术。可以使模型更鲁棒，能够处理不同亮度和对比度条件下的图像。

数据增强

数据增强可以帮助模型在训练中接触到更多变化，从而提高其鲁棒性

Figures

1	每种情况下progressive(same)+random convolution block性能都最好最终，model包含multiple random convolution blocks consisting of deformable offsets and affine transformation.
2	RandConv and our Pro-RandConv composed of multiple convolution blocks. 对比的图像增强的例子
3	包含了可变形偏移和仿射变换的能支持纹理和对比度多样化的随机卷积块的示意图
4	卷积核的形状和数值是固定的，但相较于普通的随即卷积操作，引入了可变形偏移变换的随机卷积操作使卷积核的应用位置能够在不同位置上根据图像的局部情况进行调整，从而更灵活地适应不同的图像。
5	四种不同领域在单域泛化设置中改变 RandConv 的核大小（k）和改变 ProRandConv 的重复次数（L）的比较分析。
6	在单域泛化设置中将高斯平滑应用于 RandConv 的卷积核的分析。
7	权重初始化分析？（a）-（c）对比度多样化，（d）-（e）纹理多样化

Table

显示了在MNIST数据集上训练的单一领域泛化准确性。	每一列的标题表示目标领域，数字值表示该领域的性能。训练时使用了LeNet模型。
总体而言，Pro-RandConv方法在所有目标领域上都表现出色，是这些方法中性能最佳的。