一、引言
自然语言处理(NLP)作为人工智能的重要分支,旨在让计算机理解和生成人类语言。循环神经网络(RNN)和 Transformer 模型是 NLP 领域的两类核心架构。本次总结系统梳理 RNN 及其变体(GRU、LSTM)的技术原理、数据预处理方法,以及 Transformer 模型的架构创新,分析其在 NLP 任务中的应用特点与优势。
二、循环神经网络(RNN)基础与变体
(一)RNN 模型原理
-
序列建模核心思想
RNN 通过隐状态传递机制处理序列数据,当前时刻输出依赖于历史输入信息,数学表达为:
ht=f(ht−1,xt),ot=g(ht)
其中,ht为 t 时刻隐状态,xt为输入,ot为输出,f和g为激活函数。 -
RNN 的局限性
存在 “梯度消失” 问题,难以捕捉长距离依赖。例如,当序列长度增加时,h100对x1的梯度趋近于零,导致模型 “遗忘” 早期信息。
(二)门控循环单元(GRU)
-
核心结构与机制
- 重置门(Rt):控制历史隐状态的遗忘程度,公式为:
Rt=σ(XtWxr+Ht−1Whr+br) - 更新门(Zt):平衡历史隐状态与候选隐状态的权重,公式为:
Zt=σ(XtWxz+Ht−1Whz+bz) - 候选隐状态(H~t)与隐状态更新:
H~t=tanh(XtWxh+(Rt⊙Ht−1)Whh+bh)
Ht=Zt⊙Ht−1+(1−Zt)⊙H~t
- 重置门(Rt):控制历史隐状态的遗忘程度,公式为:
-
实验效果
在《时间机器》文本训练中,GRU 相比传统 RNN 收敛更快,训练损失更低。
(三)长短期记忆网络(LSTM)
-
记忆状态与门控系统
- 记忆状态(Ct):新增 “传送带” 机制,存储长期信息。
- 遗忘门(ft):决定历史记忆的保留程度,输出 0-1 之间的值,0 表示完全遗忘,1 表示完全保留。
- 输入门(it)与候选记忆(C~t):控制新信息的输入,公式为:
C~t=tanh(XtWxc+Ht−1Whc+bc) - 输出门(ot):控制记忆状态的输出,公式为:
ht=ot⊙tanh(Ct)
-
参数量与性能
参数量是 RNN 的 4 倍,计算量较大,但在长文本处理中表现更优,如 IMDB 影评分类准确率可达 84.7%。
三、深度循环神经网络与双向架构
(一)深度循环神经网络
-
多层隐层结构
具有 L 层隐层的深度 RNN 中,第ℓ层隐状态计算为:
Ht(ℓ)=ϕ(Ht(ℓ−1)Wxh(ℓ)+Ht−1(ℓ)Whh(ℓ)+bh(ℓ))
输出层基于最后一层隐状态:Ot=Ht(L)Whq+bq。 -
训练效果
在《时间机器》任务中,深度 RNN 相比 GRU 收敛速度相近,但深层结构可捕捉更复杂的语义特征。
(二)双向循环神经网络
-
双向信息融合
通过前向和后向 RNN 同时处理序列,前向隐状态ht和后向隐状态ht拼接作为输出,解决 RNN 只能单向依赖的问题。 -
应用场景
适用于需要同时考虑上下文的任务,如命名实体识别、文本情感分析等。
四、NLP 数据预处理与词嵌入技术
(一)特征编码与文本处理
-
数值与类别特征处理
- 数值特征直接使用(如年龄),类别特征采用独热编码(One-Hot Encoding),如国籍映射为 197 维向量。
- 文本切分(Tokenization):将文本拆分为单词或字符序列,如 “to be or not to be” 切分为 ["to", "be", "or", ...]。
-
序列对齐与填充
处理长度不一的文本序列时,通过截断或填充(Padding)使序列长度一致,如使用 “null” 填充短序列。
(二)词嵌入(Word Embedding)
-
从独热向量到低维稠密向量
独热向量维数过高(如词汇表大小为 V,则维度为 V),通过映射矩阵将其转换为 d 维向量(d≪V),如:
ei=W⋅onehot(i)
其中,W为d×V的嵌入矩阵,通过训练学习。 -
词嵌入模型示例
- Word2Vec:通过 CBOW(连续词袋)或 Skip-gram 模型学习词向量,捕捉词语语义关系(如 “good” 与 “fun” 在向量空间中距离较近)。
- 正弦位置编码:Transformer 中使用正弦和余弦函数编码单词位置信息,公式为:
PE(pos,2i)=sin(pos/100002i/d),PE(pos,2i+1)=cos(pos/100002i/d)
五、Transformer 模型架构与创新
(一)总体架构
Transformer 由编码器(Encoder)和解码器(Decoder)组成,完全基于注意力机制,摒弃循环结构,实现并行计算。核心组件包括:
- 输入块:词嵌入 + 位置编码。
- 编码器:多层 “多头注意力 + 前馈神经网络” 结构。
- 解码器:新增 “掩码多头注意力”,避免未来信息泄露。
- 输出块:线性层 + Softmax 生成概率分布。
(二)注意力机制核心
-
自注意力(Self-Attention)
通过查询向量(Q)、键向量(K)、值向量(V)计算相关性,公式为:
Attention(Q,K,V)=softmax(dkQKT)V
其中,dk为键向量维度,除以dk用于缩放梯度。 -
多头注意力(Multi-Head Attention)
将输入拆分为多个头(如 8 头),独立计算注意力后拼接,增强模型捕捉不同语义关系的能力:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO,headi=Attention(QWiQ,KWiK,VWiV)
(三)训练与性能优势
-
并行计算能力
相比 RNN 的序列计算,Transformer 可同时处理整个序列,训练效率显著提升。例如,在 WMT14 英德翻译任务中,Transformer(base 模型)的训练计算量(3.3×10¹⁸ FLOPs)远低于 GNMT 模型(2.3×10¹⁹ FLOPs)。 -
翻译任务效果
Transformer(big 模型)在英德翻译中 BLEU 分数达 28.4,英法语翻译达 41.8,超越同期循环神经网络和卷积神经网络模型。
六、RNN 与 Transformer 对比分析
| 模型类型 | 核心机制 | 长距离依赖处理 | 并行计算能力 | 典型应用 |
|---|---|---|---|---|
| RNN | 隐状态序列传递 | 有限(梯度消失) | 差 | 短文本生成、简单序列预测 |
| GRU/LSTM | 门控机制 | 较好 | 差 | 长文本分类、机器翻译早期 |
| Transformer | 自注意力 + 位置编码 | 优秀 | 优秀 | 大规模语言模型、机器翻译 |
七、总结
RNN 及其变体(GRU、LSTM)通过门控机制缓解了长距离依赖问题,在早期 NLP 任务中表现突出,但受限于序列计算特性,难以适应大规模数据训练。Transformer 凭借自注意力机制和并行计算优势,成为当前 NLP 的主流架构,尤其在预训练语言模型(如 BERT)中展现出强大的语义理解能力。未来,结合 RNN 时序建模与 Transformer 并行计算的混合架构,以及更高效的注意力机制优化,将是 NLP 模型发展的重要方向。
1583

被折叠的 条评论
为什么被折叠?



