深度学习与自然语言处理基础:从模型训练到文本处理
1. 模型训练与梯度下降
在模型训练过程中,我们通常会以批次的方式处理数据。批次是训练数据的小集合,批次大小的选择存在权衡:
- 小批次 :计算量小,但用于更新的数据较少,可能产生噪声。
- 大批次 :更新更可靠,但计算量大,且可能导致过拟合。
当我们得到梯度后,就可以使用它们来更新参数,进行梯度下降。这是一个丰富且复杂的主题,建议进一步深入学习。
2. 卷积神经网络(CNNs)
1959 年,David H. Hubel 和 Torsten Wiesel 在猫身上的实验发现了能检测边缘、位置和运动的特殊神经元,这启发了 Kunihiko Fukushima 在 1975 年创建“认知机”,并在 1980 年创建“新认知机”,这些网络包含了早期的池化层和滤波器概念。1989 年,Yann LeCun 创建了通过反向传播完全学习权重的现代卷积神经网络(CNN)。
2.1 滤波器
滤波器是将前一层的连续子集(如矩阵块)输入到下一层神经元的层。它的灵感来自人眼的感受野,不同神经元负责视觉中的不同区域和形状。
例如,对于一个 6×6 的矩阵输入层,我们可以使用 4×4 的滤波器为 9 个神经元提供输入。具体做法是将输入矩阵的一个子部分与滤波器进行逐元素相乘,然后求和。我们还可以改变步长,即每个输出神经元移动滤波器的列/行数。如果使用 6×6 矩阵、4×4 滤波器和步长为 2,就可以为 4 个神经元提供输入。通过填充,我们可以在输入矩阵中添加额外的零行和零列,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



