目录
一、神经网络基础:神经元模型结构与计算、常见损失函数选择、优化算法原理及超参数影响
二、CNN:卷积操作细节及对特征图影响、池化作用、改进型架构创新点
三、RNN 及其变体:梯度问题原因与解决、LSTM 和 GRU 内部机制、注意力机制应用
四、GAN:生成器与判别器对抗原理、在图像等领域的应用及挑战
一、神经网络基础:神经元模型结构与计算、常见损失函数选择、优化算法原理及超参数影响
神经网络基础:神经元模型中,掌握输入加权求和、激活函数(如 ReLU、Sigmoid)运算过程。理解均方误差用于回归任务、交叉熵用于分类任务的原因。清楚随机梯度下降每次用小批量数据更新参数以加快训练,Adam 结合动量和自适应学习率调整的原理及优势。
1. 神经元模型结构与计算
- 结构:神经元是神经网络的基本组成单元,典型的神经元模型包含输入、权重、偏置、激活函数和输出几个部分。输入信号通过与对应的权重相乘后进行求和,再加上偏置项,最后将结果输入到激活函数中进行处理,得到神经元的输出。
2. 常见损失函数选择
3. 优化算法原理
- Adagrad
- 原理:为每个参数自适应地调整学习率。它累积了过去所有梯度的平方和,在更新参数时,根据每个参数的梯度历史信息来调整学习率,使得频繁更新的参数学习率变小,不频繁更新的参数学习率变大。
- 特点:不需要手动调整学习率,能自动适应数据的稀疏性,但由于它累积了所有的梯度平方和,随着训练的进行,学习率可能会变得非常小,导致训练过早收敛到一个次优解。
- Adam
- 原理:结合了动量法和 Adagrad 的思想,不仅利用了梯度的一阶矩估计(均值),还利用了二阶矩估计(方差)来动态调整每个参数的学习率。它在训练初期能快速更新参数,在训练后期能稳定地收敛到最优解。
- 特点:具有较快的收敛速度,对不同的参数能自适应地调整学习率,在很多深度学习任务中表现良好,是目前最常用的优化算法之一。
4. 超参数影响
- 学习率
- 影响:学习率决定了模型在每次更新时参数调整的步长。如果学习率过大,模型可能会跳过最优解,导致损失函数震荡甚至不收敛;如果学习率过小,模型收敛速度会非常慢,训练时间长,还可能陷入局部最优解。
- 神经元数量
- 影响:隐藏层中神经元数量决定了模型的复杂度。神经元数量过少,模型可能无法学习到数据中的复杂模式,导致欠拟合;神经元数量过多,模型可能会过度拟合训练数据,对新数据的泛化能力下降。
- 层数
- 影响:神经网络的层数决定了模型的深度。增加层数可以使模型学习到更复杂的特征表示,但也会带来梯度消失或爆炸、训练时间长、过拟合等问题。
二、CNN:卷积操作细节及对特征图影响、池化作用、改进型架构创新点
CNN:卷积操作要知道卷积核大小、步长、填充如何改变输出特征图尺寸和感受野。最大池化取区域最大值保留关键特征,平均池化求区域平均值。了解 Inception 模块多尺度卷积并行提取特征,DenseNet 密集连接加强特征传递。
1. 特征图和感受野
- 特征图
- 定义:特征图是卷积神经网络在对输入数据进行卷积等操作后得到的输出结果,它是一种数据表示形式,包含了输入数据在经过卷积层的滤波器(卷积核)处理后所提取到的特征信息。每一个特征图可以看作是对输入数据某一方面特征的可视化呈现,不同的特征图可能代表了不同类型的特征,如边缘、纹理、颜色等。
- 作用
- 特征提取与表示:特征图是网络用于表示输入数据特征的重要方式。通过卷积层中多个不同的卷积核与输入数据进行卷积操作,会生成多个不同的特征图,每个特征图都捕捉到了输入数据的一种特定特征,这些特征图组合在一起,就构成了对输入数据更丰富、更抽象的特征表示,有助于网络进行后续的分类、检测等任务。