从零入门CV图像竞赛(Deepfake攻防) Task 02 笔记

本文链接：https://blog.youkuaiyun.com/goodbye_bugs/article/details/140397035

作者：一片蔚蓝的天空

Part1 深度学习是什么？

1. 定义与目的：

深度学习是机器学习的一个分支，模拟人脑学习方式，自动从大量数据中学习和提取特征。

2. 神经网络基础：

依赖多层神经网络，每层神经元接收前一层输出，通过权重和激活函数计算传递到下一层。

3. 神经元模型：

模拟生物神经元行为的计算模型，包括输入、权重、激活函数和输出。
- 输入：接收信号。
- 权重：调整信号强度。
- 激活函数：决定是否产生输出。
- 输出：传递信号给其他神经元。

3.1. 网络结构：

由简单神经元模型层层堆叠形成的复杂网络结构。
最底层接收输入数据，通过各层处理提取高级别特征，顶层输出结果。

3.2. 发展历程：

从模拟单个神经元行为的简单模型开始，逐步构建复杂网络结构。
科学家们通过实验和训练，使用不同类型的数据集（图像、文本、声音）来优化网络。

3.3. 优化技术：

激活函数：改进以提高模型表现。
权重初始化：优化网络训练效果。
正则化技术：防止过拟合，提高泛化能力。
梯度下降变种：优化算法以加速训练过程。

3.4. 新型网络结构：

卷积神经网络（CNN）：适用于图像处理。
循环神经网络（RNN）：适用于处理序列数据。

3.5. 应用与挑战：

深度学习在图像识别、自然语言处理等领域有广泛应用。
面临的挑战包括模型复杂度、训练数据需求和计算资源消耗。

4. 从机器学习到深度学习

4.1. 机器学习基础：

使用简单算法（如线性回归、决策树）处理数据。
需要人工设计特征工程来提高模型性能。

4.2. 深度学习特点：

通过深层神经网络自动学习特征。
适用于图像识别、自然语言处理等复杂任务。

4.3. 机器学习算法：

线性回归：假设输入特征与输出标签存在线性关系。
决策树：假设特征在决策过程中相互独立，通过最佳分割点构建树。

4.4. 神经网络：

非线性假设：通过非线性激活函数建模复杂非线性关系。
层次化假设：通过分层结构学习数据的不同层次和抽象。

4.5. 特征工程：

传统机器学习算法需要人工设计特征，费时且需专业知识。

4.6. 深度学习的优势：

自动从原始数据中学习有用特征，减少人工特征工程需求。
实现端到端学习，直接从输入到输出结果的学习。

4.7. 深度学习模型：

包括卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）和Transformer等。

4.8. 深度学习的局限性：

需要大量数据训练，对于某些领域或问题，获取足够高质量数据可能不现实。
并非所有问题都适合使用深度学习解决。

4.9. 应用领域：

深度学习在自然语言处理、图像识别等领域有显著成就，但有其适用范围。

Part2 深度学习如何训练的？

1. 训练目标：

目标函数：通常使用损失函数 𝐿 来衡量模型预测值 $\hat{y}$ 与真实值 $\hat{y}$ 之间的差异。常见的损失函数包括均方误差（MSE）和交叉熵损失。

$L = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2$ (均方误差) $L = -\frac{1}{N} \sum_{i=1}^N y_i \log(\hat{y}_i)$ (交叉熵损失)

2. 梯度下降算法：

基本原理：梯度下降算法通过计算损失函数 𝐿 关于模型参数 𝜃 的梯度 $\nabla_\theta L$ ，调整参数以减少损失。

$\theta \leftarrow \theta - \eta \nabla_\theta L$

其中，𝜂 是学习率，控制参数更新的步长。

3. 损失函数的梯度：

梯度计算：梯度是损失函数对模型参数的导数，指示了参数调整的方向。

$\nabla_\theta L = \frac{\partial L}{\partial \theta}$

4. 训练循环：

前向传播：加载小批量数据 𝐵B，通过神经网络进行前向传播，计算输出 $\hat{y}$ 。

$\hat{y} = f(\mathcal{B}; \theta)$

其中，𝑓表示神经网络的前向传播函数。
损失计算：使用损失函数计算当前批次的损失。

$L_{\mathcal{B}} = \frac{1}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} l(y_i, \hat{y}_i)$
反向传播：计算损失函数关于每个参数的梯度，使用链式法则。

$\nabla_\theta L_{\mathcal{B}} = \frac{\partial L_{\mathcal{B}}}{\partial \theta}$

5. 参数更新：

参数更新公式：根据梯度和学习率更新模型参数。

$\nabla_\theta L_{\mathcal{B}} = \frac{\partial L_{\mathcal{B}}}{\partial \theta}$

6. 批量处理：

小批量训练：将数据集分成小批量 𝐵B 进行训练，每次只处理一个批次的数据。

$\theta \leftarrow \theta - \eta \nabla_\theta L_{\mathcal{B}}$

其中，𝑚 是每个批次的样本数。

7. 训练过程的效率：

频繁更新：通过小批量处理，可以更频繁地更新模型参数，提高训练效率，避免内存不足或计算缓慢。

8. 训练目标的实现：

优化目标：通过不断迭代，最小化损失函数，优化模型预测的准确性。

$\mathcal{B} = \{(x_i, y_i)\}_{i=1}^{m}$

其中，𝐿(𝜃)是整个训练集上的损失函数。

Part3 深度学习与迁移学习

1. 迁移学习定义：

一种机器学习技术，将一个任务上学到的知识应用到另一个相关任务上。
特别有用在数据稀缺的情况下。

2. 预训练模型：

通常使用在大规模数据集（如ImageNet）上预训练的模型作为起点。

3. ImageNet 数据集：

包含超过1400万张注释图像，分布在超过2.2万个类别中。
为深度学习模型训练和评估提供了理想的数据集。
提供了标准的性能基准，常用于比较不同模型的性能。

4. 迁移学习实现方法：

微调（Fine-tuning）：一种有效的迁移学习策略。
利用预训练模型对特定任务进行优化。

5. 微调过程：

预训练模型选择：选择一个在大型数据集上预训练的模型。
输出层替换：替换模型的输出层以匹配目标任务的类别数量和类型。
层冻结与解冻：冻结大部分层以保护通用特征，只对最后部分层进行解冻和训练。
目标任务训练：使用目标任务的数据集对模型进行训练，使用梯度下降等优化算法更新权重。

6. 代码示例：

import timm
model = timm.create_model('resnet18', pretrained=True, num_classes=2)
model = model.cuda()

使用 timm.create_model 加载预训练的ResNet-18模型，并修改输出层以适应二分类任务。
将模型移动到GPU上进行加速。

7. 微调的关键步骤：

预训练模型加载：timm.create_model('resnet18', pretrained=True, num_classes=2)
模型迁移到GPU：model = model.cuda()

8. 微调的优势：

利用预训练模型的通用特征表示，减少对大量标记数据的需求。
通过微调适应新任务，提高模型在特定任务上的表现。

Part4 常见的图像分类网络

1. 图像分类定义：

将给定图像分配到一个或多个预定义类别的任务。

2. 深度学习在图像分类中的应用：

设计出多种卷积神经网络（CNN）架构以提高图像分类准确率。

3. AlexNet：

由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton设计。
2012年ImageNet竞赛中取得突破性成绩。
结构：八个层次，前五个卷积层，后三个全连接层。
特点：引入ReLU激活函数、局部响应归一化（LRN）、最大池化层、Dropout。

4. ResNet（残差网络）：

由微软研究院的何恺明等人提出。
2015年ImageNet竞赛中取得冠军。
核心：残差块（residual block），通过跳跃连接（Skip Connections）缓解梯度消失问题。
结构：卷积层、批量归一化、ReLU激活函数、最大池化层。
变种：ResNet-50、ResNet-101、ResNet-152等，数字代表权重层数量。

5. EfficientNet：

高效的CNN架构，通过复合系数统一缩放网络的深度、宽度和分辨率。
核心：compound scaling 方法，通过网格搜索确定缩放系数。
基础：EfficientNet-B0网络，使用NAS构建，优化准确性和计算效率。
特点：在CIFAR-100、Flowers等数据集上取得高准确率，参数数量少。

6. 网络缩放方法：

EfficientNet的缩放方法基于直觉：输入图像越大，网络需要更多层和通道。
通过增加网络深度、宽度和图像大小的特定比例来实现，比例系数通过小规模网格搜索确定。

7. 图像分类的挑战：

需要处理各种场景、物体、背景和遮挡情况，提供算法的挑战。

8. 图像分类的应用：

在计算机视觉领域中，图像分类是基础且关键的任务，广泛应用于各种视觉识别系统。