- Tensor概念介绍
可以把Tensor理解为多维数组,可以具有任意多的维度,不同的Tensor可以有不同的数据类型(dtype)和形状(shape)
同一Tensor中的所有元素的dtype均相同。
不同维度的Tensor可视化表示为如下图所示。
- 模型和层的概念
模型是深度学习中比较重要的概念,模型的核心功能是将一组输入变量经过一系列的计算,映射到另一组输出变量,用到的映射函数就是一种深度学习算法。模型主要包含两方面的内容。
(1)一系列层的组合用于进行映射。
(2)一些参数变量在训练的过程中实时更新。 - 自动微分机制介绍
神经网络的核心部分就是自动微分,神经网络就是由节点和节点的相互连接组成的,网络中每层的每个节点代表一种特定的函数,对输入进行计算。 每个函数都是由不同的参数组成(权重w和偏置b),神经网络的学习过程就是让这些函数的参数进行学习、优化,以能够更好的处理后面输入的过程。
为了让神经网络的判断更加准确,就需要一个衡量效果的工具,于是就出现了损失函数。如果让神经网络的效果好,就需要让损失函数的结果尽可能的小,于是深度学习就引入了能够计算函数最小值的算法–梯度下降等优化算法,以及参数优化更新的过程–反向传播。
(1) 前向传播:是输入通过每一层节点计算后得到的每层输出,上层输出又作为下一层的输入,最终达到输出层,然后通过损失函数计算得到loss值。
(2)反向传播:是 通过loss值来指导前向节点中的函数参数如何改变,并更新每层中每个节点的参数,来让整个神经网络达到更小的loss值。
自动微分机制就是让研究者们只关注组网中的前向传播过程,然后深度学习框架来自动完成反向传播过程,从而让学者们从繁琐的求导、求梯度的过程中解放出来。 - 自动混合精度训练
一般情况下,训练深度学习模型时使用的数据类型为单精度(FP32)。混合精度训练是指在训练的过程中,同时使用单精度(FP32)和半精度(FP16),其目的就是相较于使用单精度(FP32)训练模型,在保持精度持平的情况下,能够加速训练 - 广播机制(Broadcasting)
即允许在一些运算时使用不同形状的张量。