图解 Transformer

图解 Transformer

image-20241007170226786

高层视角

我们首先从将模型看作一个整体的黑箱开始。在机器翻译的应用中,Transformer 接受一种语言的句子作为输入,并输出翻译后的另一种语言的句子。

Transformer 作为黑箱

展开 Transformer 后,我们可以看到它由编码器和解码器两个部分组成,并通过它们之间的连接相互通信。

编码器和解码器组成

编码器部分由一系列编码器单元堆叠而成(论文中提到的版本使用了六个,但六这个数值并非特别,其他数量的堆叠也可以尝试)。解码器部分也是由相同数量的解码器单元堆叠组成。

编码器和解码器的堆叠

每个编码器的结构相同(但它们并不共享权重)。每个编码器由两个子层组成:

编码器的结构

编码器的输入首先通过一个自注意力层,这个层帮助编码器在编码某个特定词时关注输入句子中的其他词。我们将在后面详细讨论自注意力机制的细节。

接着,自注意力层的输出会传递给一个前馈神经网络。同样的前馈网络独立地作用于每个位置。

解码器的结构与编码器类似,但在其中增加了一个额外的注意力层,使解码器能够聚焦于输入句子的相关部分,这类似于序列到序列模型中的注意力机制。

张量的流动过程

在了解了 Transformer 的整体结构后,我们来探索输入向量/张量是如何在各个组件之间流动的,从而将训练数据中的输入转换为输出。

与许多自然语言处理应用相似,我们首先将每个输入词转化为向量表示(通常是通过嵌入算法实现)。

每个词被嵌入到一个 512 维的向量中

嵌入操作只发生在最底层的编码器中。所有的编码器共有的抽象概念是它们接受一个向量列表,每个向量的维度为 512。在最底层的编码器中,这些向量是词嵌入,而在其他编码器中,它们是下方编码器输出的结果。向量列表的长度是一个超参数,通常与我们训练数据中最长句子的长度相等。

在对输入句子的词语进行嵌入之后,它们会依次通过编码器的各个层。

img

这里展示了 Transformer 的一个关键特性:每个词在编码器中的流动路径是独立的。自注意力层中,多个位置的向量之间存在依赖关系,而在前馈神经网络中则没有这种依赖,因此可以并行处理每个向量。

接下来,我们将用一个更短的句子举例,看看编码器的各个子层如何处理它。

编码过程

正如前面提到的,编码器接受一组向量作为输入。它通过将这些向量传递给自注意力层,然后传递给前馈神经网络,并将输出传递到下一个编码器,来处理这组向量。

Transformers是一种用于自然语言处理和其他相关领域的深度学习模型。它是通过编码器-解码器结构实现的。编码器将输入序列转换为一系列隐藏状态,而解码器则根据编码器的输出和之前的上下文生成输出序列。 关于图解transformer,引用中提到的图显示了Transformer的位置编码方法,其中将两个信号交织在一起。这个图可以帮助我们更好地理解位置编码的实现方式。 此外,引用中还展示了一个包含两个堆叠编码器和解码器的Transformer结构的图示。这个图可以帮助我们了解多层Transformer的组织结构。 最后,引用中提到的训练模型的直觉可以帮助我们更好地理解Transformer的工作原理。这个直觉的图示可能显示了一些与训练有关的信息,可以帮助我们更好地理解整个前向传递过程。 综上所述,通过引用中提到的图示,我们可以更好地理解Transformer模型的一些关键概念和操作。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [【Transformer图解 Transformer](https://blog.youkuaiyun.com/sikh_0529/article/details/128968765)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值