Generative AI with Large Language Models - Transformers: Attention is all you need学习笔记(week1-7)

课程来源:https://www.coursera.org/learn/generative-ai-with-llms/

by DeepLearning.AI & Amazon Web Services

《Attention is All You Need》是谷歌研究人员于 2017 年发表的一篇研究论文,该论文引入了 Transformer 模型。这是一种全新的架构,彻底改变了自然语言处理(NLP)领域,并成为我们如今所知的大语言模型(如 GPT、PaLM 等)的基础。论文提出了一种神经网络架构,它用一种完全基于注意力的机制取代了传统的循环神经网络(RNN)和卷积神经网络(CNN)。

在这里插入图片描述

Transformer 模型使用自注意力机制来计算输入序列的表示,这使其能够捕捉长期依赖关系并有效地并行计算。作者证明,他们的模型在多个机器翻译任务上取得了领先的性能,优于之前依赖 RNN 或 CNN 的模型。

Transformer 架构由一个编码器和一个解码器组成,编码器和解码器各自由若干层构成。每一层包含两个子层:多头自注意力机制和前馈神经网络。多头自注意力机制使模型能够关注输入序列的不同部分,而前馈网络则对每个位置分别且相同地应用逐点全连接层。

Transformer 模型还使用残差连接和层归一化来促进训练并防止过拟合。此外,作者引入了一种位置编码方案,对输入序列中每个标记的位置进行编码,使模型无需循环或卷积操作就能捕捉序列的顺序。

你可以阅读关于 Transformer 的论文:https://arxiv.org/html/1706.03762v7

论文核心信息

  • 标题:Attention is All You Need
  • 发表年份:2017 年
  • 作者:谷歌研究人员
  • 影响力:引入 Transformer 模型,革新 NLP 领域,成为 LLMs 基础

Transformer 模型关键特点

  • 摒弃传统架构:用基于注意力机制替代传统 RNN 和 CNN
  • 自注意力机制:计算输入序列表示,捕捉长期依赖,支持并行计算
  • 架构组成
    • 编码器与解码器:各由多层构成
    • 子层:每层含多头自注意力机制和前馈神经网络
      • 多头自注意力:关注输入序列不同部分
      • 前馈神经网络:对每个位置应用逐点全连接层
  • 辅助技术
    • 残差连接和层归一化:助力训练,防止过拟合
    • 位置编码:编码标记位置,捕捉序列顺序,无需循环或卷积操作

模型成果:

在多个机器翻译任务中取得领先性能,超越依赖 RNN 或 CNN 的模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值