NLP相关论文中遇见的理论术语1.0
注:内容较为琐碎,多为论文阅读中偶然跑去做初步了解的内容,更进一步的了解需要从相关涉及论文中查看。
残差连接
残差连接是深度学习模型中的一种技术,旨在帮助信息在深层网络中有效流动。它通过将输入信号直接与经过一系列层的输出信号相加,使网络能够学习残差函数(即期望输出与输入之间的差异),而不是直接学习输入到输出的映射。这样可以缓解梯度消失问题,加速模型的收敛,并使得网络能够更深,因为它减少了训练深层网络时的困难。
门控机制
门控机制通过引入“门”来控制信息的保留和遗忘,从而使网络能够选择性地传递或阻止信息。这种机制通过使用sigmoid激活函数生成的值(通常在0到1之间)作为权重,决定信息的流动程度。
激活函数
激活函数是神经网络中非线性变换的核心组件,它决定了神经元的输出。常见的激活函数包括 sigmoid、tanh、ReLU(线性整流单元)和其变体(如 Leaky ReLU、Parametric ReLU 等)。激活函数的选择对模型的学习能力和表现有重要影响。通过引入非线性,激活函数使得网络能够拟合复杂的函数关系。
冻结
冻结(Freezing)是指在模型训练过程中使某些参数(如权重和偏置)保持不变,即不对这些参数进行更新。这通常用于迁移学习或微调阶段,帮助保留先前训练好的特征,同时只调整特定层的参数,以适应新的任务。冻结参数有助于避免过拟合,尤其是在训练数据量不足的情况下。
层特定的可学习标量
层特定的可学习标量指的是每一层的特征或参数可以独立学习的标量值。通过为每一层引入这些可学习标量,模型能够自适应地调整不同层之间的信息流。例如,某些层可能在特定任务中更重要,因此可以通过学习的标量来加大这些层的权重,从而增强模型的表达能力。
自回归
自回归(Autoregression)是一种建模方法,其中当前时刻的输出依赖于前一时刻的输出。自回归模型在时间序列预测和生成模型中广泛应用。在自然语言处理(NLP)任务中,自回归模型可以用于生成文本,其中每个单词的生成依赖于之前生成的单词,从而实现连贯的上下文理解。
正则化
正则化是防止模型过拟合的一种技术。通过在损失函数中添加惩罚项(例如 L1 或 L2 正则化),正则化可以限制模型的复杂性,从而提高模型的泛化能力。常见的正则化方法包括 dropout、权重衰减和数据增强等。这些技术能够帮助模型在未见数据上的表现更加稳定。
批处理
批处理(Batch Processing)是将训练数据分成多个小批次进行处理的一种技术。相较于一次使用整个数据集进行训练,批处理可以降低内存占用,加快训练速度,并通过梯度平均化来稳定训练过程。通过使用小批次,模型能够更频繁地更新参数,从而提高收敛速度。
层归一化
通过调整数据的值范围来提高模型训练的效率和性能。归一化可以帮助减少模型对输入特征范围的敏感性,降低不同特征之间的影响,进而加速收敛并改善模型的泛化能力。
层归一化是对每一层的输入进行归一化,使得每一层的输出具有相同的均值和方差。具体来说,对于给定输入的每一个样本,层归一化会在特征维度上进行操作,而不是在批量维度上。
位置编码
位置编码是一种用于在序列模型中提供位置信息的技术,尤其是在没有循环或卷积结构的模型中(如 Transformer)。位置编码通过向输入嵌入添加位置信息,使得模型能够理解序列中单词的顺序。这种编码通常使用正弦和余弦函数来生成,以确保不同位置之间的编码具有独特性,并且易于被模型学习。
图像编码器
图像编码器是将图像转换为特征表示的神经网络模块。常见的图像编码器包括卷积神经网络(CNN),它们能够有效提取图像中的空间特征。图像编码器在图像分类、目标检测和图像生成等任务中起着关键作用。通过将图像压缩为低维特征,图像编码器能够减少后续任务的计算复杂度,同时保留重要信息。
文本编码器
文本编码器是将文本数据(如单词、句子或段落)转换为向量表示的模块。文本编码器通常使用嵌入层(如 Word2Vec、GloVe 或 BERT)来获取单词的表示,然后通过 RNN、LSTM、GRU 或 Transformer 等模型进行编码。文本编码器在自然语言处理任务中至关重要,帮助模型理解文本的上下文和语义信息。
引入词嵌入:
[1301.3781] Efficient Estimation of Word Representations in Vector Space
Glove: Global Vectors for Word Representation
引入编码器-解码器架构:
[1409.3215] Sequence to Sequence Learning with Neural Networks
注意力机制
注意力机制是一种模仿人类注意力的计算方法,使模型能够聚焦于输入的特定部分。在序列到序列模型中,注意力机制可以动态调整对源序列不同部分的关注程度,从而生成更准确的目标序列。通过计算加权和,注意力机制可以整合上下文信息,提高模型的表现。多头注意力机制是其一种扩展,允许模型在不同子空间中学习不同的表示。
残差神经网络
残差神经网络(Residual Neural Network, ResNet)是一种深度学习模型,旨在解决深层网络训练中的梯度消失和退化问题。ResNet通过引入残差连接(Residual Connections)来使得网络的训练更加高效,广泛应用于计算机视觉等领域。
残差网络的核心思想是将学习的目标从直接学习输入与输出之间的映射(即 H ( x ) H(x) H(x)),转化为学习输入与输出之间的残差(即 F