卷积、残差神经网络与模型训练基础
在深度学习领域,卷积神经网络(CNN)和残差神经网络(ResNet)是非常重要的模型结构,同时模型的训练方法和技巧也至关重要。下面将详细介绍相关内容。
1. 残差网络(ResNet)
残差块引入了表示能力和表示等价性的概念。表示能力衡量一个块作为特征提取器的强大程度,而表示等价性是指一个块可以在保持表示能力的同时,分解为更低的计算复杂度。残差瓶颈块的设计被证明可以在降低计算复杂度的同时,保持ResNet34块的表示能力。
2. 批量归一化(Batch Normalization)
在神经网络中添加更深的层会带来梯度消失问题,这实际上与计算机硬件有关。在训练过程(反向传播和梯度下降)中,每一层的权重会乘以非常小的数(小于1),这些微小的值在通过更深的层传播时会不断变小,最终计算机硬件无法表示这些值,从而导致梯度消失。
如果使用半精度浮点数(16位浮点数)进行矩阵运算,而不是单精度浮点数(32位浮点数),梯度消失问题会更加严重。虽然半精度浮点数可以将权重(和数据)存储在一半的空间中,并且通过将计算大小减半,每个计算周期可以执行四倍的指令,但由于精度更小,会更早遇到梯度消失问题。
批量归一化是一种应用于层输出(激活函数之前或之后)的技术,它可以规范化训练过程中权重的偏移。这有几个优点:它可以平滑(跨批次)变化量,从而降低得到硬件无法表示的极小数字的可能性;通过缩小权重之间的偏移量,可以使用更高的学习率,更快地实现收敛,减少整体训练时间。在TF.Keras中,可以使用 BatchNormalization 类将批量归一化添加到层中。
以下是一
超级会员免费看
订阅专栏 解锁全文
1219

被折叠的 条评论
为什么被折叠?



