深度学习入门系列（一）之基础概念_深度学习输入-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_52482640/article/details/145990577

深度学习入门系列之基础概念

概念

深度学习是机器学习的子集，机器学习具有数学上的可解释性，但准确率不是百分百，且不灵活。
深度学习即利用多层神经网络从大量数据中进行学习，通俗来讲即设计一个很深的网络架构让机器自己学

深度学习的输入输出

` 输入常见为三类：
1.向量：可理解为一组数据
2.矩阵/张量：可理解为图片的输入
3.序列：可理解为一段文字
输出常见为三类：
1.回归：预测出一个值
2.分类：预测输入所属类别
3.生成：生成文字或图片
如根据房价预测下一年走势，即是回归任务
根据输入的动物图片进行判断是猫/狗，即是分类任务
根据用户输入的一段文字生成所描述的图片即是生成任务

注：
分类时是用数字来表示类别，有的时候需要多个模态的数据，即同时具有图片，文字，声音等

深度学习的过程

`定义一个模型（含未知变量），再定义一个损失函数，根据损失对模型进行优化
根据预测值和真实值之间的差距所反映出来拟合程度的好坏，对模型中的参数进行调整
1.损失函数：具体为定义的模型中的关于未知变量的函数，如w,b即是权重，偏置
2.梯度下降：损失函数随机选择某一点处对某个未知变量求偏导，若偏导>0表明该点朝loss增大的方向变化，则该变量进行更新时应变小，反之变大。
我们的目标就是找到这个损失函数的最小值，在这点处的未知变量的值是我们模型最想要的，也就是山底。根据之前的场景假设，最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快！因为梯度的方向就是函数之变化最快的方向。所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段。
梯度前加一个负号，就意味着朝着梯度相反的方向前进！我们在前文提到，梯度的方向实际就是函数在此点上升最快的方向！而我们需要朝着下降最快的方向走，自然就是负的梯度的方向，所以此处需要加上负号；那么如果时上坡，也就是梯度上升算法，当然就不需要添加负号了。
梯度（Gradient）表示损失函数（Loss Function）对模型参数的导数，其方向指向损失函数增长最快的方向。梯度的大小（模长）反映了参数更新的幅度。
梯度下降的核心目标是寻找损失函数的最低点对应的参数值
在这里插入图片描述

3.学习率：由人为定义
在这里插入图片描述
4.优化器Optimization：是深度学习中用于更新模型参数的核心组件，其目标是通过梯度下降的变体方法最小化损失函数。优化器的选择直接影响模型训练的收敛速度、稳定性和最终性能。
常见优化器分类与对比：(1) 随机梯度下降（SGD）2） Adam（自适应矩估计）(3) SGD with Momentum（带动量的SGD）
在这里插入图片描述

总结：优化器的核心目标是高效、稳定地更新模型参数。Adam因其自适应性成为通用首选，但SGD在精细调参时可能达到更高精度。实际应用中需结合任务特性、数据分布和计算资源综合选择，并通过学习率调度、正则化等技术进一步提升性能。理解不同优化器的数学原理是调参的理论基础，而实验验证则是最终决定因素。
5.激活函数：是神经网络中的关键组件，用于引入非线性，使网络能够学习复杂模式
●如果没有激活函数，无论网络多么复杂，最后的输出都是输入的线性组合，而纯粹的线性组合并不能解决更为复杂的问题。
●引入激活函数之后，由于激活函数都是非线性的，这样就给神经元引入了非线性元素，使得神经网络可以逼近任何非线性函数，这样使得神经网络应用到更多非线性模型中。通过增加激活函数，就可以拟合不同的曲线
激活函数要添加在每次求出结点值的地方，让结点值经过该函数即可。
在这里插入图片描述

在这里插入图片描述
2.

综上relu比sigmoid效果更好，其中relu梯度不会消失，sigmoid当x范围超过10后梯度变为0，所以会梯度消失，而且sigmoid求导复杂，relu求导简单
6.前向传播（Forward Propagation）
前向传播是数据从输入层经过隐藏层传递到输出层的过程，用于计算模型的预测值。
在这里插入图片描述

7. 梯度回传（反向传播，Backpropagation）
反向传播是通过链式法则计算损失函数对每一层参数的梯度，并更新参数的过程。

总结：
前向传播：数据从输入层传递到输出层，计算预测值和损失。
反向传播：通过链式法则计算梯度，并更新参数。
关键点：
链式法则是反向传播的核心。
激活函数的导数在梯度计算中起重要作用。
梯度下降（或其他优化算法）用于更新参数。
通过反复迭代前向传播和反向传播，模型逐渐优化，损失函数逐渐减小，最终得到训练好的模型
8.全连接层：（Fully Connected Layer），也称为稠密层（Dense Layer），是神经网络中最基础的层类型之一。它的每个输入节点与每个输出节点都通过权重连接，通常用于提取特征或进行分类。linear(x1,x2),前一层x1个节点，后一层输出x2个节点
全连接网络：
在这里插入图片描述
这样一个网络叫全连接网络（FC），输入特征数和输出特征数要对应。
每一层都要连接下一层的所有结点，
第一层到第二层：linear(4,3)，
第二层到第三层：linear(3,2)，
第三层到第四层：linear(2,1).
每层之间穿插激活函数
9.过拟合和欠拟合

过拟合（Overfitting）
定义：
模型在训练数据上表现非常好，但在测试数据或新数据上表现较差。
学习了训练数据中的噪声和细节，导致泛化能力差。
原因：
模型过于复杂（如层数过多、参数过多）。
训练数据量不足。
训练时间过长（过度训练）
解决方法：正则化，减少训练周期简化模型，调整一些参数，Dropout剔除结点等…
欠拟合（Underfitting）
定义：
模型在训练数据和测试数据上表现都较差。
原因：
模型过于简单，无法捕捉数据中的复杂模式。
训练数据量不足。
欠拟合就多加层数多堆料多训练几个epoch，调整超参数，使用更强大的模型

在这里插入图片描述
L2正则化防止过拟合的原理：
L2正则化通过在损失函数中加入权重平方和，使得让权重趋向小，可以防止权重过大而忽略其他特征，让模型倾向于学习较小的权重，避免对个别特征过度敏感。
降低模型复杂度：权重越小，模型函数越平滑，泛化能力越强。