Generative AI with Large Language Models - Transformers architecture学习笔记（week1-6）

原创已于 2025-03-02 00:16:34 修改 · 872 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-03-02 00:14:47 首次发布

课程来源：https://www.coursera.org/learn/generative-ai-with-llms/
by DeepLearning.AI & Amazon Web Services

学习相关性：能学习句子中所有单词的相关性与上下文，不仅是相邻单词，而是对句中每个单词应用注意力权重，让模型理解单词间关系，例如判断谁拥有书等。
注意力地图：可通过注意力地图展示单词间注意力权重，如 “book” 与 “teacher”“student” 紧密相连，这种自注意力机制极大提升模型编码语言的能力。

架构组成：Transformer 架构分为编码器（encoder）和解码器（decoder）两部分，二者协同工作且有诸多相似之处。

数据预处理 - 词元化（tokenization）：

- 转换为数字：机器学习模型处理数字，故输入文本前需进行词元化，将单词转换为数字，每个数字代表模型可处理的所有可能单词字典中的一个位置。
- 方法选择：有多种词元化方法，如将 token ID 匹配完整单词或代表单词部分，训练和生成文本需使用同一词元化器。

嵌入层（embedding layer）：

- 向量空间：是可训练的向量嵌入空间，高维空间中每个词元被表示为向量并占据唯一位置。
- 编码意义：词汇表中的每个 token ID 都匹配到一个多维向量，这些向量学习编码输入序列中单个词元的意义和上下文。此前 Word2vec 等算法已使用此概念。

位置编码（positional encoding）：模型并行处理输入词元，添加位置编码以保留单词顺序信息，不丢失单词在句子中位置的相关性。将输入词元与位置编码相加后，将结果向量传递给自注意力层。

自注意力层（self - attention layer）：

- 分析关系：模型分析输入序列中词元间的关系，捕捉单词间上下文依赖。
- 多头自注意力（multi - headed self - attention）：
  - 多组权重：多个自注意力权重集合（头）并行独立学习，不同模型注意力头数量在 12 - 100 常见。
  - 学习不同方面：每个头学习语言的不同方面，如人物实体关系、句子活动、单词押韵等，注意力头学习的语言方面不由人为预先指定，权重随机初始化，经充分训练学习不同语言特征。

全连接前馈网络（fully - connected feed - forward network）：应用所有注意力权重后，输出经全连接前馈网络处理，输出的对数几率（logits）向量与词元化器字典中每个词元的概率分数成比例。

Softmax 层：将对数几率传递给最终的 Softmax 层，归一化为每个单词的概率分数，输出包含词汇表中每个单词的概率，分数最高的词元为最可能预测的词元，课程后续会介绍多种方法从概率向量中进行最终选择。