神经网络第四周学习总结

一、引言

自然语言处理(NLP)作为人工智能的重要分支,旨在让计算机理解和生成人类语言。循环神经网络(RNN)和 Transformer 模型是 NLP 领域的两类核心架构。本次总结系统梳理 RNN 及其变体(GRU、LSTM)的技术原理、数据预处理方法,以及 Transformer 模型的架构创新,分析其在 NLP 任务中的应用特点与优势。

二、循环神经网络(RNN)基础与变体

(一)RNN 模型原理

  1. 序列建模核心思想
    RNN 通过隐状态传递机制处理序列数据,当前时刻输出依赖于历史输入信息,数学表达为:
    ht​=f(ht−1​,xt​),ot​=g(ht​)
    其中,ht​为 t 时刻隐状态,xt​为输入,ot​为输出,f和g为激活函数。

  2. RNN 的局限性
    存在 “梯度消失” 问题,难以捕捉长距离依赖。例如,当序列长度增加时,h100​对x1​的梯度趋近于零,导致模型 “遗忘” 早期信息。

(二)门控循环单元(GRU)

  1. 核心结构与机制

    • 重置门(Rt​):控制历史隐状态的遗忘程度,公式为:
      Rt​=σ(Xt​Wxr​+Ht−1​Whr​+br​)
    • 更新门(Zt​):平衡历史隐状态与候选隐状态的权重,公式为:
      Zt​=σ(Xt​Wxz​+Ht−1​Whz​+bz​)
    • 候选隐状态(H~t​)与隐状态更新
      H~t​=tanh(Xt​Wxh​+(Rt​⊙Ht−1​)Whh​+bh​)
      Ht​=Zt​⊙Ht−1​+(1−Zt​)⊙H~t​
  2. 实验效果
    在《时间机器》文本训练中,GRU 相比传统 RNN 收敛更快,训练损失更低。

(三)长短期记忆网络(LSTM)

  1. 记忆状态与门控系统

    • 记忆状态(Ct​):新增 “传送带” 机制,存储长期信息。
    • 遗忘门(ft​):决定历史记忆的保留程度,输出 0-1 之间的值,0 表示完全遗忘,1 表示完全保留。
    • 输入门(it​)与候选记忆(C~t​):控制新信息的输入,公式为:
      C~t​=tanh(Xt​Wxc​+Ht−1​Whc​+bc​)
    • 输出门(ot​):控制记忆状态的输出,公式为:
      ht​=ot​⊙tanh(Ct​)
  2. 参数量与性能
    参数量是 RNN 的 4 倍,计算量较大,但在长文本处理中表现更优,如 IMDB 影评分类准确率可达 84.7%。

三、深度循环神经网络与双向架构

(一)深度循环神经网络

  1. 多层隐层结构
    具有 L 层隐层的深度 RNN 中,第ℓ层隐状态计算为:
    Ht(ℓ)​=ϕ(Ht(ℓ−1)​Wxh(ℓ)​+Ht−1(ℓ)​Whh(ℓ)​+bh(ℓ)​)
    输出层基于最后一层隐状态:Ot​=Ht(L)​Whq​+bq​。

  2. 训练效果
    在《时间机器》任务中,深度 RNN 相比 GRU 收敛速度相近,但深层结构可捕捉更复杂的语义特征。

(二)双向循环神经网络

  1. 双向信息融合
    通过前向和后向 RNN 同时处理序列,前向隐状态ht​和后向隐状态ht​拼接作为输出,解决 RNN 只能单向依赖的问题。

  2. 应用场景
    适用于需要同时考虑上下文的任务,如命名实体识别、文本情感分析等。

四、NLP 数据预处理与词嵌入技术

(一)特征编码与文本处理

  1. 数值与类别特征处理

    • 数值特征直接使用(如年龄),类别特征采用独热编码(One-Hot Encoding),如国籍映射为 197 维向量。
    • 文本切分(Tokenization):将文本拆分为单词或字符序列,如 “to be or not to be” 切分为 ["to", "be", "or", ...]。
  2. 序列对齐与填充
    处理长度不一的文本序列时,通过截断或填充(Padding)使序列长度一致,如使用 “null” 填充短序列。

(二)词嵌入(Word Embedding)

  1. 从独热向量到低维稠密向量
    独热向量维数过高(如词汇表大小为 V,则维度为 V),通过映射矩阵将其转换为 d 维向量(d≪V),如:
    ei​=W⋅onehot(i)
    其中,W为d×V的嵌入矩阵,通过训练学习。

  2. 词嵌入模型示例

    • Word2Vec:通过 CBOW(连续词袋)或 Skip-gram 模型学习词向量,捕捉词语语义关系(如 “good” 与 “fun” 在向量空间中距离较近)。
    • 正弦位置编码:Transformer 中使用正弦和余弦函数编码单词位置信息,公式为:
      PE(pos,2i)=sin(pos/100002i/d),PE(pos,2i+1)=cos(pos/100002i/d)

五、Transformer 模型架构与创新

(一)总体架构

Transformer 由编码器(Encoder)和解码器(Decoder)组成,完全基于注意力机制,摒弃循环结构,实现并行计算。核心组件包括:

  • 输入块:词嵌入 + 位置编码。
  • 编码器:多层 “多头注意力 + 前馈神经网络” 结构。
  • 解码器:新增 “掩码多头注意力”,避免未来信息泄露。
  • 输出块:线性层 + Softmax 生成概率分布。

(二)注意力机制核心

  1. 自注意力(Self-Attention)
    通过查询向量(Q)、键向量(K)、值向量(V)计算相关性,公式为:
    Attention(Q,K,V)=softmax(dk​​QKT​)V
    其中,dk​为键向量维度,除以dk​​用于缩放梯度。

  2. 多头注意力(Multi-Head Attention)
    将输入拆分为多个头(如 8 头),独立计算注意力后拼接,增强模型捕捉不同语义关系的能力:
    MultiHead(Q,K,V)=Concat(head1​,...,headh​)WO​,headi​=Attention(QWiQ​,KWiK​,VWiV​)

(三)训练与性能优势

  1. 并行计算能力
    相比 RNN 的序列计算,Transformer 可同时处理整个序列,训练效率显著提升。例如,在 WMT14 英德翻译任务中,Transformer(base 模型)的训练计算量(3.3×10¹⁸ FLOPs)远低于 GNMT 模型(2.3×10¹⁹ FLOPs)。

  2. 翻译任务效果
    Transformer(big 模型)在英德翻译中 BLEU 分数达 28.4,英法语翻译达 41.8,超越同期循环神经网络和卷积神经网络模型。

六、RNN 与 Transformer 对比分析

模型类型核心机制长距离依赖处理并行计算能力典型应用
RNN隐状态序列传递有限(梯度消失)短文本生成、简单序列预测
GRU/LSTM门控机制较好长文本分类、机器翻译早期
Transformer自注意力 + 位置编码优秀优秀大规模语言模型、机器翻译

七、总结

RNN 及其变体(GRU、LSTM)通过门控机制缓解了长距离依赖问题,在早期 NLP 任务中表现突出,但受限于序列计算特性,难以适应大规模数据训练。Transformer 凭借自注意力机制和并行计算优势,成为当前 NLP 的主流架构,尤其在预训练语言模型(如 BERT)中展现出强大的语义理解能力。未来,结合 RNN 时序建模与 Transformer 并行计算的混合架构,以及更高效的注意力机制优化,将是 NLP 模型发展的重要方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值