大模型学习 (Datawhale_Happy-LLM)笔记3: Transformer 架构

大模型学习 (Datawhale_Happy-LLM)笔记3: Transformer 架构

1. 概述

第二章分三个不分系统地讲解了Transformer架构的理论基础与实现细节。首先,本章介绍了注意力机制,其次是 Encoder 与 Decoder,最后通过代码完整实现了一个 Transformer 架构。

2. 注意力机制 (Attention Mechanism)

注意力机制起源于计算机视觉(Computer Vision, CV)领域。核心的神经网络架构:(1)前馈神经网络 (Feedforward Neural Network, FNN)

  • 输入层 (Input layer):接收原始数据,不进行计算,仅传递信号。
  • 隐藏层(Hidden layer): 可以有一层或多层,每层包含多个神经元,对输入数据进行非线性变换。
  • 输出层(Output layer): 产生最终预测结果。
  • 特点:层与层之间完全连接,无循环或反馈连接,信号单向流动。

(2)卷积神经网络(Convolutional Neural Network, CNN)
卷积神经网络(Convolutional Neural Network, CNN)是一种专门为处理具有网格结构数据(如图像、音频)而设计的深度学习模型。它通过卷积层自动提取特征,大幅减少参数数量,主要应用于图像分类、目标检测,语义分割等领域。

**CNN 主要由三种类型的层组成:**
卷积层(Convolutional Layer):通过卷积核提取局部特征。
池化层(Pooling Layer):降维并保留主要特征。
全连接层(Fully Connected Layer):输出分类或回归结果。	
**典型 CNN 架构:**
输入层 → [卷积层 → 激活函数 → 池化层] × N → 全连接层 → 输出层

(3)循环神经网络(Recurrent Neural Network, RNN)
循环神经网络是一种专门设计用于处理序列数据(如文本、语音、时间序列等)的神经网络架构。与前馈神经网络(FNN)不同,RNN 具有记忆能力,能够利用历史信息影响当前输出,其核心特点如下:

循环连接:网络中存在反馈环路,允许信息从当前时刻传递到下一时刻。
时序依赖:神经元的输出不仅取决于当前输入,还依赖于之前的隐藏状态。
参数共享:不同时间步使用相同的权重矩阵,大幅减少模型参数数量。

在注意力机制出现之前,RNN 及其变体 LSTM 的确在 NLP 任务上取得了最优效果,但仍存在两个难以弥补的缺陷:

依序计算,时间成本高
难以捕捉长距离的相关关系

(4)注意力机制原理
它是深度学习中模拟人类认知 “选择性关注” 特性的技术 —— 即让模型聚焦于输入数据中关键信息区域,忽略无关信息。其本质是对两段序列的元素依次进行相似度计算。核心参数包括:

查询(Query, Q):需要关注的目标信息
键(Key, K):输入数据的特征标识
值(Value, V):输入数据的具体内容

通过公式展示了Query、Key、Value之间的关系及其矩阵计算方式:

Attention(Q,K,V)=softmax(QKTdk)V\text{Attention(Q,K,V)}=\text{softmax}\biggl( \Large \frac{QK^T}{\sqrt{d_{k}}} \biggr) \normalsize \text{V}Attention(Q,K,V)=softmax(d

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值