神经网络第四周学习总结

最新推荐文章于 2025-12-12 22:52:54 发布

原创最新推荐文章于 2025-12-12 22:52:54 发布 · 497 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #学习 #人工智能

一、引言

自然语言处理（NLP）作为人工智能的重要分支，旨在让计算机理解和生成人类语言。循环神经网络（RNN）和 Transformer 模型是 NLP 领域的两类核心架构。本次总结系统梳理 RNN 及其变体（GRU、LSTM）的技术原理、数据预处理方法，以及 Transformer 模型的架构创新，分析其在 NLP 任务中的应用特点与优势。

二、循环神经网络（RNN）基础与变体

（一）RNN 模型原理

序列建模核心思想
RNN 通过隐状态传递机制处理序列数据，当前时刻输出依赖于历史输入信息，数学表达为：
ht=f(ht−1,xt),ot=g(ht)
其中，ht为 t 时刻隐状态，xt为输入，ot为输出，f和g为激活函数。
RNN 的局限性
存在 “梯度消失” 问题，难以捕捉长距离依赖。例如，当序列长度增加时，h100对x1的梯度趋近于零，导致模型 “遗忘” 早期信息。

（二）门控循环单元（GRU）

核心结构与机制
- 重置门（Rt）：控制历史隐状态的遗忘程度，公式为：
  Rt=σ(XtWxr+Ht−1Whr+br)
- 更新门（Zt）：平衡历史隐状态与候选隐状态的权重，公式为：
  Zt=σ(XtWxz+Ht−1Whz+bz)
- 候选隐状态（H~t）与隐状态更新：
  H~t=tanh(XtWxh+(Rt⊙Ht−1)Whh+bh)
  Ht=Zt⊙Ht−1+(1−Zt)⊙H~t
实验效果
在《时间机器》文本训练中，GRU 相比传统 RNN 收敛更快，训练损失更低。

（三）长短期记忆网络（LSTM）

记忆状态与门控系统
- 记忆状态（Ct）：新增 “传送带” 机制，存储长期信息。
- 遗忘门（ft）：决定历史记忆的保留程度，输出 0-1 之间的值，0 表示完全遗忘，1 表示完全保留。
- 输入门（it）与候选记忆（C~t）：控制新信息的输入，公式为：
  C~t=tanh(XtWxc+Ht−1Whc+bc)
- 输出门（ot）：控制记忆状态的输出，公式为：
  ht=ot⊙tanh(Ct)
参数量与性能
参数量是 RNN 的 4 倍，计算量较大，但在长文本处理中表现更优，如 IMDB 影评分类准确率可达 84.7%。

三、深度循环神经网络与双向架构

（一）深度循环神经网络

多层隐层结构
具有 L 层隐层的深度 RNN 中，第ℓ层隐状态计算为：
Ht(ℓ)=ϕ(Ht(ℓ−1)Wxh(ℓ)+Ht−1(ℓ)Whh(ℓ)+bh(ℓ))
输出层基于最后一层隐状态：Ot=Ht(L)Whq+bq。
训练效果
在《时间机器》任务中，深度 RNN 相比 GRU 收敛速度相近，但深层结构可捕捉更复杂的语义特征。

（二）双向循环神经网络

双向信息融合
通过前向和后向 RNN 同时处理序列，前向隐状态ht和后向隐状态ht拼接作为输出，解决 RNN 只能单向依赖的问题。
应用场景
适用于需要同时考虑上下文的任务，如命名实体识别、文本情感分析等。

四、NLP 数据预处理与词嵌入技术

（一）特征编码与文本处理

数值与类别特征处理
- 数值特征直接使用（如年龄），类别特征采用独热编码（One-Hot Encoding），如国籍映射为 197 维向量。
- 文本切分（Tokenization）：将文本拆分为单词或字符序列，如 “to be or not to be” 切分为 ["to", "be", "or", ...]。
序列对齐与填充
处理长度不一的文本序列时，通过截断或填充（Padding）使序列长度一致，如使用 “null” 填充短序列。

（二）词嵌入（Word Embedding）

从独热向量到低维稠密向量
独热向量维数过高（如词汇表大小为 V，则维度为 V），通过映射矩阵将其转换为 d 维向量（d≪V），如：
ei=W⋅onehot(i)
其中，W为d×V的嵌入矩阵，通过训练学习。
词嵌入模型示例
- Word2Vec：通过 CBOW（连续词袋）或 Skip-gram 模型学习词向量，捕捉词语语义关系（如 “good” 与 “fun” 在向量空间中距离较近）。
- 正弦位置编码：Transformer 中使用正弦和余弦函数编码单词位置信息，公式为：
  PE(pos,2i)=sin(pos/100002i/d),PE(pos,2i+1)=cos(pos/100002i/d)

五、Transformer 模型架构与创新

（一）总体架构

Transformer 由编码器（Encoder）和解码器（Decoder）组成，完全基于注意力机制，摒弃循环结构，实现并行计算。核心组件包括：

输入块：词嵌入 + 位置编码。
编码器：多层 “多头注意力 + 前馈神经网络” 结构。
解码器：新增 “掩码多头注意力”，避免未来信息泄露。
输出块：线性层 + Softmax 生成概率分布。

（二）注意力机制核心

自注意力（Self-Attention）
通过查询向量（Q）、键向量（K）、值向量（V）计算相关性，公式为：
Attention(Q,K,V)=softmax(dkQKT)V
其中，dk为键向量维度，除以dk用于缩放梯度。
多头注意力（Multi-Head Attention）
将输入拆分为多个头（如 8 头），独立计算注意力后拼接，增强模型捕捉不同语义关系的能力：
MultiHead(Q,K,V)=Concat(head1,...,headh)WO,headi=Attention(QWiQ,KWiK,VWiV)

（三）训练与性能优势

并行计算能力
相比 RNN 的序列计算，Transformer 可同时处理整个序列，训练效率显著提升。例如，在 WMT14 英德翻译任务中，Transformer（base 模型）的训练计算量（3.3×10¹⁸ FLOPs）远低于 GNMT 模型（2.3×10¹⁹ FLOPs）。
翻译任务效果
Transformer（big 模型）在英德翻译中 BLEU 分数达 28.4，英法语翻译达 41.8，超越同期循环神经网络和卷积神经网络模型。

六、RNN 与 Transformer 对比分析

模型类型	核心机制	长距离依赖处理	并行计算能力	典型应用
RNN	隐状态序列传递	有限（梯度消失）	差	短文本生成、简单序列预测
GRU/LSTM	门控机制	较好	差	长文本分类、机器翻译早期
Transformer	自注意力 + 位置编码	优秀	优秀	大规模语言模型、机器翻译

七、总结

RNN 及其变体（GRU、LSTM）通过门控机制缓解了长距离依赖问题，在早期 NLP 任务中表现突出，但受限于序列计算特性，难以适应大规模数据训练。Transformer 凭借自注意力机制和并行计算优势，成为当前 NLP 的主流架构，尤其在预训练语言模型（如 BERT）中展现出强大的语义理解能力。未来，结合 RNN 时序建模与 Transformer 并行计算的混合架构，以及更高效的注意力机制优化，将是 NLP 模型发展的重要方向。