课程来源:https://www.coursera.org/learn/generative-ai-with-llms/
by DeepLearning.AI & Amazon Web Services
Transformer 架构优势
- 超越 RNN:使用 Transformer 架构构建大语言模型,显著提升自然语言任务性能,相比早期 RNN 实现再生能力的飞跃。
- 自注意力机制:
- 学习相关性:能学习句子中所有单词的相关性与上下文,不仅是相邻单词,而是对句中每个单词应用注意力权重,让模型理解单词间关系,例如判断谁拥有书等。
- 注意力地图:可通过注意力地图展示单词间注意力权重,如 “book” 与 “teacher”“student” 紧密相连,这种自注意力机制极大提升模型编码语言的能力。
模型工作原理
架构组成:Transformer 架构分为编码器(encoder)和解码器(decoder)两部分,二者协同工作且有诸多相似之处。
数据预处理 - 词元化(tokenization):
-
- 转换为数字:机器学习模型处理数字,故输入文本前需进行词元化,将单词转换为数字,每个数字代表模型可处理的所有可能单词字典中的一个位置。
- 方法选择:有多种词元化方法,如将 token ID 匹配完整单词或代表单词部分,训练和生成文本需使用同一词元化器。
嵌入层(embedding layer):
-
- 向量空间:是可训练的向量嵌入空间,高维空间中每个词元被表示为向量并占据唯一位置。
- 编码意义:词汇表中的每个 token ID 都匹配到一个多维向量,这些向量学习编码输入序列中单个词元的意义和上下文。此前 Word2vec 等算法已使用此概念。
位置编码(positional encoding):模型并行处理输入词元,添加位置编码以保留单词顺序信息,不丢失单词在句子中位置的相关性。将输入词元与位置编码相加后,将结果向量传递给自注意力层。
自注意力层(self - attention layer):
-
- 分析关系:模型分析输入序列中词元间的关系,捕捉单词间上下文依赖。
- 多头自注意力(multi - headed self - attention):
- 多组权重:多个自注意力权重集合(头)并行独立学习,不同模型注意力头数量在 12 - 100 常见。
- 学习不同方面:每个头学习语言的不同方面,如人物实体关系、句子活动、单词押韵等,注意力头学习的语言方面不由人为预先指定,权重随机初始化,经充分训练学习不同语言特征。
全连接前馈网络(fully - connected feed - forward network):应用所有注意力权重后,输出经全连接前馈网络处理,输出的对数几率(logits)向量与词元化器字典中每个词元的概率分数成比例。
Softmax 层:将对数几率传递给最终的 Softmax 层,归一化为每个单词的概率分数,输出包含词汇表中每个单词的概率,分数最高的词元为最可能预测的词元,课程后续会介绍多种方法从概率向量中进行最终选择。
411

被折叠的 条评论
为什么被折叠?



