一、线性算子(torch.nn.Linear)
其中为输入,
为权重,
为偏置,
为输出,
通常为batch_size,
为输入特征的维度,
为输出特征的维度。在几何上,可视f为将一个决策变量从
维空间到
维空间的连续线性投影。注意:
和
是可学习参数;若
为满秩方正,则
与
同胚。
二、卷积(torch.nn.Conv2d)
其中为输入,
为卷积核,
为偏置,
为输出,
为卷积核大小,
为卷积步长,
(
)为输入(出)通道数,
、
、
、
为输入宽、输入高、输出宽、输出高。
为
维空间到1维空间的连续线性映射。
越大,卷积视野越大,提取的特征越趋近于全局,计算量也越大。
越大,不同局部上的特征融合越小,计算量越小。
三、池化
池化源自滤波器,如中值滤波、最大值滤波、最小值滤波。最值池化侧重提取边缘纹理信息,而中值池化侧重提取背景信息。此外,池化可用于下采样操作,如空间金字塔池化模型( SPP)可将不同尺寸的输入图像映射到相同尺寸的特征。
最值池化中,局部中总是非最大的不会前向传播,反向传播时是不经过该神经元。
四、激活函数
4.1 ReLU
ReLU在x<0的部分中,其反函数不是一一对应的,因此其输入和输出空间不同胚;而Leaky ReLU是同胚的。
4.2 Sigmoid
Sigmoid输出空间为区间[0,1]。
4.3 Tanh
Tanh输出空间为区间[-1,1],在对抗攻击中常使用该损失函数以控制对抗噪声的尺度。
4.4 softmax
softmax常作为分类头的最后一个激活函数,在迫使标注类别置信度增大的同时,降低非标注类别的置信度。
五、其他操作
5.1 Dropout
以一定的概率使输入特征变为0,即禁止被选中特征向后传播。