课程来源:https://www.coursera.org/learn/generative-ai-with-llms/
by DeepLearning.AI & Amazon Web Services
《Attention is All You Need》是谷歌研究人员于 2017 年发表的一篇研究论文,该论文引入了 Transformer 模型。这是一种全新的架构,彻底改变了自然语言处理(NLP)领域,并成为我们如今所知的大语言模型(如 GPT、PaLM 等)的基础。论文提出了一种神经网络架构,它用一种完全基于注意力的机制取代了传统的循环神经网络(RNN)和卷积神经网络(CNN)。

Transformer 模型使用自注意力机制来计算输入序列的表示,这使其能够捕捉长期依赖关系并有效地并行计算。作者证明,他们的模型在多个机器翻译任务上取得了领先的性能,优于之前依赖 RNN 或 CNN 的模型。
Transformer 架构由一个编码器和一个解码器组成,编码器和解码器各自由若干层构成。每一层包含两个子层:多头自注意力机制和前馈神经网络。多头自注意力机制使模型能够关注输入序列的不同部分,而前馈网络则对每个位置分别且相同地应用逐点全连接层。
Transformer 模型还使用残差连接和层归一化来促进训练并防止过拟合。此外,作者引入了一种位置编码方案,对输入序列中每个标记的位置进行编码,使模型无需循环或卷积操作就能捕捉序列的顺序。
你可以阅读关于 Transformer 的论文:https://arxiv.org/html/1706.03762v7
论文核心信息
- 标题:Attention is All You Need
- 发表年份:2017 年
- 作者:谷歌研究人员
- 影响力:引入 Transformer 模型,革新 NLP 领域,成为 LLMs 基础
Transformer 模型关键特点
- 摒弃传统架构:用基于注意力机制替代传统 RNN 和 CNN
- 自注意力机制:计算输入序列表示,捕捉长期依赖,支持并行计算
- 架构组成
- 编码器与解码器:各由多层构成
- 子层:每层含多头自注意力机制和前馈神经网络
- 多头自注意力:关注输入序列不同部分
- 前馈神经网络:对每个位置应用逐点全连接层
- 辅助技术
- 残差连接和层归一化:助力训练,防止过拟合
- 位置编码:编码标记位置,捕捉序列顺序,无需循环或卷积操作
模型成果:
在多个机器翻译任务中取得领先性能,超越依赖 RNN 或 CNN 的模型

被折叠的 条评论
为什么被折叠?



