深度学习入门系列(一)之基础概念

深度学习入门系列之基础概念

概念

深度学习是机器学习的子集,机器学习具有数学上的可解释性,但准确率不是百分百,且不灵活。
深度学习即利用多层神经网络从大量数据中进行学习,通俗来讲即设计一个很深的网络架构让机器自己学

深度学习的输入输出

` 输入常见为三类:
1.向量:可理解为一组数据
2.矩阵/张量:可理解为图片的输入
3.序列:可理解为一段文字
输出常见为三类:
1.回归:预测出一个值
2.分类:预测输入所属类别
3.生成:生成文字或图片
如根据房价预测下一年走势,即是回归任务
根据输入的动物图片进行判断是猫/狗,即是分类任务
根据用户输入的一段文字生成所描述的图片即是生成任务

注:
分类时是用数字来表示类别,有的时候需要多个模态的数据,即同时具有图片,文字,声音等

深度学习的过程

`定义一个模型(含未知变量),再定义一个损失函数,根据损失对模型进行优化
根据预测值和真实值之间的差距所反映出来拟合程度的好坏,对模型中的参数进行调整
1.损失函数:具体为定义的模型中的关于未知变量的函数,如w,b即是权重,偏置
2.梯度下降:损失函数随机选择某一点处对某个未知变量求偏导,若偏导>0表明该点朝loss增大的方向变化,则该变量进行更新时应变小,反之变大。
我们的目标就是找到这个损失函数的最小值,在这点处的未知变量的值是我们模型最想要的,也就是山底。根据之前的场景假设,最快的下山的方式就是找到当前位置最陡峭的方向,然后沿着此方向向下走,对应到函数中,就是找到给定点的梯度 ,然后朝着梯度相反的方向,就能让函数值下降的最快!因为梯度的方向就是函数之变化最快的方向。所以,我们重复利用这个方法,反复求取梯度,最后就能到达局部的最小值,这就类似于我们下山的过程。 而求取梯度就确定了最陡峭的方向,也就是场景中测量方向的手段。
梯度前加一个负号,就意味着朝着梯度相反的方向前进!我们在前文提到,梯度的方向实际就是函数在此点上升最快的方向!而我们需要朝着下降最快的方向走,自然就是负的梯度的方向,所以此处需要加上负号;那么如果时上坡,也就是梯度上升算法,当然就不需要添加负号了。
梯度(Gradient)表示损失函数(Loss Function)对模型参数的导数,其方向指向损失函数增长最快的方向。梯度的大小(模长) 反映了参数更新的幅度。
梯度下降的核心目标是寻找损失函数的最低点对应的参数值
在这里插入图片描述

3.学习率:由人为定义
在这里插入图片描述
4.优化器Optimization:是深度学习中用于更新模型参数的核心组件,其目标是通过梯度下降的变体方法最小化损失函数。优化器的选择直接影响模型训练的收敛速度、稳定性和最终性能。
常见优化器分类与对比:(1) 随机梯度下降(SGD)2) Adam(自适应矩估计)(3) SGD with Momentum(带动量的SGD)
在这里插入图片描述
在这里插入图片描述

总结:优化器的核心目标是高效、稳定地更新模型参数。Adam因其自适应性成为通用首选,但SGD在精细调参时可能达到更高精度。实际应用中需结合任务特性、数据分布和计算资源综合选择,并通过学习率调度、正则化等技术进一步提升性能。理解不同优化器的数学原理是调参的理论基础,而实验验证则是最终决定因素。
5.激活函数:是神经网络中的关键组件,用于引入非线性,使网络能够学习复杂模式
●如果没有激活函数,无论网络多么复杂,最后的输出都是输入的线性组合,而纯粹的线性组合并不能解决更为复杂的问题。
●引入激活函数之后,由于激活函数都是非线性的,这样就给神经元引入了非线性元素,使得神经网络可以逼近任何非线性函数,这样使得神经网络应用到更多非线性模型中。通过增加激活函数,就可以拟合不同的曲线
激活函数要添加在每次求出结点值的地方,让结点值经过该函数即可。
在这里插入图片描述

在这里插入图片描述
2.在这里插入图片描述
在这里插入图片描述
综上relu比sigmoid效果更好,其中relu梯度不会消失,sigmoid当x范围超过10后梯度变为0,所以会梯度消失,而且sigmoid求导复杂,relu求导简单
6.前向传播(Forward Propagation)
前向传播是数据从输入层经过隐藏层传递到输出层的过程,用于计算模型的预测值。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
7. 梯度回传(反向传播,Backpropagation)
反向传播是通过链式法则计算损失函数对每一层参数的梯度,并更新参数的过程。
在这里插入图片描述
在这里插入图片描述
总结:
前向传播:数据从输入层传递到输出层,计算预测值和损失。
反向传播:通过链式法则计算梯度,并更新参数。
关键点:
链式法则是反向传播的核心。
激活函数的导数在梯度计算中起重要作用。
梯度下降(或其他优化算法)用于更新参数。
通过反复迭代前向传播和反向传播,模型逐渐优化,损失函数逐渐减小,最终得到训练好的模型
8.全连接层:(Fully Connected Layer),也称为稠密层(Dense Layer),是神经网络中最基础的层类型之一。它的每个输入节点与每个输出节点都通过权重连接,通常用于提取特征或进行分类。linear(x1,x2),前一层x1个节点,后一层输出x2个节点
全连接网络:
在这里插入图片描述
这样一个网络叫全连接网络(FC),输入特征数和输出特征数要对应。
每一层都要连接下一层的所有结点,
第一层到第二层:linear(4,3),
第二层到第三层:linear(3,2),
第三层到第四层:linear(2,1).
每层之间穿插激活函数
9.过拟合和欠拟合

  1. 过拟合(Overfitting)
    定义:
    模型在训练数据上表现非常好,但在测试数据或新数据上表现较差。
    学习了训练数据中的噪声和细节,导致泛化能力差。
    原因:
    模型过于复杂(如层数过多、参数过多)。
    训练数据量不足。
    训练时间过长(过度训练)
    解决方法:正则化,减少训练周期简化模型,调整一些参数,Dropout剔除结点等…
  2. 欠拟合(Underfitting)
    定义:
    模型在训练数据和测试数据上表现都较差。
    原因:
    模型过于简单,无法捕捉数据中的复杂模式。
    训练数据量不足。
    欠拟合就多加层数多堆料多训练几个epoch,调整超参数,使用更强大的模型

在这里插入图片描述
L2正则化防止过拟合的原理:
L2正则化通过在损失函数中加入权重平方和,使得让权重趋向小,可以防止权重过大而忽略其他特征,让模型倾向于学习较小的权重,避免对个别特征过度敏感。
降低模型复杂度:权重越小,模型函数越平滑,泛化能力越强。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值