Generative AI with Large Language Models - Transformers architecture学习笔记(week1-6)

课程来源:https://www.coursera.org/learn/generative-ai-with-llms/
by DeepLearning.AI & Amazon Web Services

Transformer 架构优势

  1. 超越 RNN:使用 Transformer 架构构建大语言模型,显著提升自然语言任务性能,相比早期 RNN 实现再生能力的飞跃。
  2. 自注意力机制
  • 学习相关性:能学习句子中所有单词的相关性与上下文,不仅是相邻单词,而是对句中每个单词应用注意力权重,让模型理解单词间关系,例如判断谁拥有书等。
  • 注意力地图:可通过注意力地图展示单词间注意力权重,如 “book” 与 “teacher”“student” 紧密相连,这种自注意力机制极大提升模型编码语言的能力。

模型工作原理

架构组成:Transformer 架构分为编码器(encoder)和解码器(decoder)两部分,二者协同工作且有诸多相似之处。

数据预处理 - 词元化(tokenization)

    • 转换为数字:机器学习模型处理数字,故输入文本前需进行词元化,将单词转换为数字,每个数字代表模型可处理的所有可能单词字典中的一个位置。
    • 方法选择:有多种词元化方法,如将 token ID 匹配完整单词或代表单词部分,训练和生成文本需使用同一词元化器。

嵌入层(embedding layer)

    • 向量空间:是可训练的向量嵌入空间,高维空间中每个词元被表示为向量并占据唯一位置。
    • 编码意义:词汇表中的每个 token ID 都匹配到一个多维向量,这些向量学习编码输入序列中单个词元的意义和上下文。此前 Word2vec 等算法已使用此概念。

位置编码(positional encoding):模型并行处理输入词元,添加位置编码以保留单词顺序信息,不丢失单词在句子中位置的相关性。将输入词元与位置编码相加后,将结果向量传递给自注意力层。

自注意力层(self - attention layer)

    • 分析关系:模型分析输入序列中词元间的关系,捕捉单词间上下文依赖。
    • 多头自注意力(multi - headed self - attention)
      • 多组权重:多个自注意力权重集合(头)并行独立学习,不同模型注意力头数量在 12 - 100 常见。
      • 学习不同方面:每个头学习语言的不同方面,如人物实体关系、句子活动、单词押韵等,注意力头学习的语言方面不由人为预先指定,权重随机初始化,经充分训练学习不同语言特征。

全连接前馈网络(fully - connected feed - forward network):应用所有注意力权重后,输出经全连接前馈网络处理,输出的对数几率(logits)向量与词元化器字典中每个词元的概率分数成比例。

Softmax 层:将对数几率传递给最终的 Softmax 层,归一化为每个单词的概率分数,输出包含词汇表中每个单词的概率,分数最高的词元为最可能预测的词元,课程后续会介绍多种方法从概率向量中进行最终选择。

寻找特定书籍的GitHub仓库链接通常需要明确书籍的标题、作者以及相关的关键字。根据问题描述,目标是找到《Hands-On Generative AI with Transformers and Diffusion Models》这本书的官方或非官方GitHub仓库链接。 以下是关于如何查找此书籍GitHub仓库链接的相关信息: ### 查找方法 1. **官方资源**:通常,技术书籍会在其官方网站或作者主页中提供相关的代码仓库链接。可以通过搜索书籍的标题和“GitHub repository”来找到官方资源[^1]。 2. **搜索引擎**:使用搜索引擎(如Google)输入关键词“Hands-On Generative AI with Transformers and Diffusion Models GitHub repository”,可以快速定位到可能的仓库链接[^2]。 3. **GitHub搜索功能**:直接在GitHub网站上使用搜索栏输入书籍名称,筛选出最相关的仓库。通常,官方仓库会有明确的说明和标签,标明与书籍相关[^3]。 4. **社区推荐**:一些技术社区(如Stack Overflow、Reddit等)可能会有用户分享他们发现的书籍相关仓库链接[^4]。 ### 示例代码仓库结构 以下是一个典型的书籍GitHub仓库结构示例: ```plaintext ├── README.md ├── Chapter_01 │ ├── code_snippets.py │ └── dataset.csv ├── Chapter_02 │ ├── diffusion_model.ipynb │ └── pretrained_model.pth └── utils └── helper_functions.py ``` ### 注意事项 - 确保访问的仓库是合法的,并且遵循版权规定。 - 如果找不到官方仓库,可以考虑查看是否有社区维护的非官方版本,但需谨慎评估其质量和准确性。 ### 相关链接 经过搜索,以下是一个可能的仓库链接(请自行验证其合法性与相关性): - [Hands-On Generative AI GitHub Repository](https://github.com/example/hands-on-generative-ai) (此链接为占位符,请替换为实际找到的链接) ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值