Transformer——Decoder

maggieyiyi

已于 2022-09-22 14:43:57 修改

阅读量650

点赞数

文章标签： transformer 深度学习 java

于 2022-09-22 14:43:30 首次发布

本文链接：https://blog.youkuaiyun.com/maggieyiyi/article/details/126991415

版权

本文主要介绍了多头注意力机制在训练过程中的应用及其重要性，特别是mask的作用，以确保模型训练与测试的一致性。此外，还详细阐述了交互层的工作原理，包括encoder和decoder之间的具体交互方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 多头注意力机制

1.1 mask

2 交互层

1 多头注意力机制

1.1 mask

ques:为什么需要mask？

ans:如果没有mask，那么在训练的时候存在you和know。如下图，但是在测试的时候，没有mask，会出现误差，模型效果不好。

需要mask 如图：

训练的时候将you和know mask掉，保证一致性。

2 交互层

所有的encoder输出和每一个decoder去做交互。

具体交互如下：

encoder生成K、V矩阵；decoder提高Q矩阵，即多有注意力机制计算K、Q、K的值。公式如下：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

maggieyiyi

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Transformer中解码器decoder的详细讲解（图文解释）

showswoller的博客

03-30

9189

Transformer中解码器decoder的详细讲解（图文解释）

Attention——Transformer——Bert——FineTuning——Prompt

weixin_39586997的博客

08-11

1249

一、Attention机制 1、计算attention公式以及为什么要➗dk 二、Transformer模型 1、transformer encoder/decoder 2、transformer encoder 与 GRU区别三、Bert模型四、Fine-Tuning微调五、Prompt

参与评论您还未登录，请先登录后发表或查看评论

Transformer Decoder

weixin_42418688的博客

11-15

1万+

本文主要讲解Transformer中的Decoder部分，后续其他部分会逐渐补充首先，我们先定义几个常用的变量（以翻译为例）： emb_dim:表示词嵌入的维度 input_length:表示输入单词的个数 target_length:表示翻译出单词的个数 + 1，为什么会加1会在后面详细说明 vocab_size:表示所有单词的总个数，其实就是词库的意思本文主要从以下三个方面进行介绍： 1.transformer主要解决的的问题 2.信息在transformer中的流动 3.Deco

Transformer系列：图文详解Decoder解码器原理_transformer decoder

最新发布

lyy2017175913的博客

04-22

1225

理解Transformer的解码器首先要了解Encoder-Decoder框架。在原论文中Transformer用于解决机器翻译任务，机器翻译这种Seq2Seq问题通常以Encoder-Decoder框架来解决，Transformer的网络结构也是基于encoder-decoder框架设计的。这种框架的模型分为两部分编码器Encoder和解码器Decoder，编码器负责将原文本数据编码为中间状态向量，该状态向量传递给解码器生成输出。示意图如下。

Transformer之Decoder

weixin_40280870的博客

01-18

1411

在开始处理输入序列之前，模型对输出嵌入进行一个位置，确保在训练阶段，解码器内的每个符号都能正确地获取之前生成符号的上下文信息。仿照编码器的设计，模型将，以此保留符号的序列顺序信息。解码器利用带掩码的多头自注意力机制，专注于输入序列的相关片段以及之前产生的符号。在训练过程中，通过，确保每个符号仅能参考其之前的符号。除了外，解码器还融合了，这使得解码器能够聚焦于输入序列的重要部分，进而生成受输入语境影响的输出符号。在自注意力层之后，解码器对每个符号独立施加。

Transformer Decoder详解

To be a better man

05-24

5699

这两天在学习Transformer，看了李沐的论文解读和NLP从入门到放弃，看完这两个视频算是大致明白了Transformer的结构。关于Self-Attention、Multi-Head Attention以及Poisitonal Encoding强烈建议看一下这篇文章：详解Transformer中Self-Attention以及Multi-Head Attention 但是对于Decoder部分，依然是有点模糊，不知道Decoder的输入到底是什么，也不知道Decoder到底是不是并行计算，还有E

Transformer翻译模型Decoder详解（Masking）

weixin_37735081的博客

02-11

9707

写这个博客的原因在于：大部分解释Transformer的文章都只注重讲解Encoder部分，在Encoder中又侧重讲解self-attention原理。为了读者更好地理解整个Transformer的训练过程，我决定结合代码写一篇在理解了Encoder部分怎么理解Decoder模块的博文。参考文章：https://jalammar.github.io/illustrated-transforme...

NLP高频面试题（六）——decoder-only、encoder-only和encoder-decoder的区别与联系

WeLearnNLP

03-19

585

随着人工智能技术的迅猛发展，语言模型已经成为自然语言处理领域的关键技术之一。本文将深入探讨decoder-only、encoder-only 和 encoder-decoder 三种语言模型架构的特点、适用场景及其相互之间的异同。

Transformer模型-7- Decoder

aidashuju的博客

09-21

1466

将所有的Q (Decoder端所有的 token) 去和encoder的输出的数据一起计算，来衡量他们之间的相关度，最后结合Value生成Attention。

Transformer——《Attention is all you need》

talkAC的博客

01-07

656

本文是Google 机器翻译团队在2017 年发表，提出了一个新的简单的网络模型——Transformer。该模型基于纯注意力机制（Attention mechanisms），完全抛弃了RNN和CNN网络结构，在机器翻译任务上取得了很好的效果。目录 1 引言 2 背景 3模型架构 3.1编码器和解码器的堆栈编码器：解码器： 3.2注意力 3.2.1 Scaled Dot-Product Attention 3.2.2 Multi-Head Attention 3.2.3 Ap..

Transformer应用——机器翻译（English & Chinese）

T940842933的博客

07-31

2075

"""自定义数据集"""self.data = data # 数据self.English = [item['english'].lower() for item in data] # 将英文文本添加到 self.English 列表，编码需要小写化self.Chinese = [item['chinese'] for item in data] # 将中文文本添加到 self.Chinese 列表self.tokenizer = tokenizer # token化工具。

Transformer中的Encoder、Decoder

01-06

Transformer 中的 Decoder 机制

实力派，无需多言！

11-07

3863

目标序列 [tensor([1., 1., 1.]), tensor([1., 1., 1., 1., 1.])]# 特征序列 [tensor([1., 1.]), tensor([1., 1., 1., 1.])]# 目标序列和特征序列之间的长度不一样，需要将原序列中和目标序列中padding后的元素mask掉。# 有效特征序列[2,4]==>[2,4,1], 有效目标序列[2,5]==>[2,5,1]# 维度扩充[seq_len,seq_len]==>[1,seq_len,seq_len]

一文搞懂Transformer-decoder

lbr15660656263的博客

06-29

3627

【transformer】| 李宏毅transformer decoder

qq_35608277的博客

06-24

215

encoder eg decoder 输入包括 encoder的输出，给定一个BEGIN ，一个decoder输出的维度V（机器翻译就是中文字的个数，4、5000）每个输出送入下一个输入

深度学习入门--Transformer中的Decoder详解

qq_15534667的博客

05-02

1万+

Transformer中的Decoder详解DecoderDecoder结构Masked训练与推断实现代码 Decoder 在上一节中，我们学习了Encoder的结果及实现代码： Transformer中的Encoder详解：Multi-Head-Attention及Feed-Forward 在这一节中，我们将学习Transformer剩余的部分：Decoder Decoder结构 DecoderDecoderDecoder的结构和EncoderEncoderEncoder类似，但是相较于EncoderE

【Transformer】解码器（Decoder）

彬彬侠的博客

02-15

1395

在Transformer架构中，解码器（Decoder）的作用是根据编码器的输出生成最终的预测结果。解码器和编码器一样，使用了自注意力机制，但与编码器不同的是，解码器还需要考虑到当前时刻生成的目标词。在生成时，解码器要根据当前词及之前的生成词来输出下一个词。Transformer的解码器由多个相同的解码器层堆叠而成，每个解码器层由三个主要部分组成：自注意力机制（Self-Attention）编码器-解码器注意力机制（Encoder-Decoder Attention）前馈神经网络（Feed-Forward

构建Transformer框架，你必须了解Decoder【解码器】

star_nwe的博客

12-26

1329

Transformer框架由两部分组成：编码器（Encoder）和解码器（Decoder）。本篇我们来聊聊解码器（Decoder）。

Transformer 中 Decoder 结构解读_by 弘毅