面试准备

为什么引入非线性激励函数？
因为如果不用非线性激励函数，每一层都是上一层的线性函数，无论神经网络多少层，输出都是输入的线性组合，与只有一个隐藏层效果一样。相当于多层感知机了。所以引入非线性激励函数，深层网络就变得有意义了，可以逼近任意函数。
什么造成梯度消失？推导？
许多激活函数将输出值挤压在很小的区间内，在激活函数两端较大范围的定义域内梯度为0，导致权重更新的缓慢训练难度增加，造成学习停止。（前面层上的梯度是来自后面的层上项的乘积，当层数过多时，随着乘积的累积，将越来越小。）
梯度消失、梯度爆炸：BP算法基于梯度下降策略，以目标的负梯度方向对参数进行调整，参数的更新为w←w+Δww←w+Δw，给定学习率αα，得出Δw=−α∂Loss∂wΔw=−α∂Loss∂w。如果要更新第二隐藏层的权值信息，根据链式求导法则，更新梯度信息：
Δw1=∂Loss∂w2=∂Loss∂f4∂f4∂f3∂f3∂f2∂f2∂w2Δw1=∂Loss∂w2=∂Loss∂f4∂f4∂f3∂f3∂f2∂f2∂w2，很容易看出来∂f2∂w2=f1∂f2∂w2=f1，即第二隐藏层的输入。
所以说，∂f4∂f3∂f4∂f3就是对激活函数进行求导，如果此部分大于1，那么层数增多的时候，最终的求出的梯度更新将以指数形式增加，即发生梯度爆炸，如果此部分小于1，那么随着层数增多，求出的梯度更新信息将会以指数形式衰减，即发生了梯度消失

optimizer

loss function

回归

初始化

resnet 和 Densenet

您可能感兴趣的与本文相关的镜像

ComfyUI

AI应用

ComfyUI

ComfyUI是一款易于上手的工作流设计工具，具有以下特点：基于工作流节点设计，可视化工作流搭建，快速切换工作流，对显存占用小，速度快，支持多种插件，如ADetailer、Controlnet和AnimateDIFF等