Transformer

最新推荐文章于 2025-04-02 15:07:24 发布

JamePrin

最新推荐文章于 2025-04-02 15:07:24 发布

阅读量1.4k

点赞数 2

分类专栏：神经网络与深度学习笔记文章标签：神经网络深度学习 nlp Transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_52103757/article/details/119681909

版权

神经网络与深度学习笔记专栏收录该内容

11 篇文章

订阅专栏

本文详细解析了Self-Attention机制，包括其计算过程和多头Self-Attention的应用。同时，介绍了Position Encoding在Transformer模型中的作用，以及Decoder层的结构和Loss函数的计算。文中还探讨了训练技巧，如平滑操作对模型泛化能力的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

个人理解笔记，并不是全面讲解

请添加图片描述

Self-Attention

首先随机初始化W^q,W^k,W^v （个人认为W列对应神经元个数，行是单词的词嵌入长度）
X(这里是好多个单词摆放成一个矩阵)乘W（qkv三个矩阵）得到对应的权重q,k,v(X每一行是一个0词)
dk是键向量的维度
当前一个单词（X的每一行（这里单词按行堆叠）），（当前单词的）q与（与其他单词的）ki（这些k由其他单词x乘Wk得到）分别多次点积除以sqrt(dk)再softmax归一化后得到一个值（个人记作Si(每一个ki对应一个Si，也对应一个vi)）

接下来就是
$当前z=\sum_{i}S_i*v_i(v_i是向量，所以最后的z也是向量)$
- 每个单词的z堆叠起来就是Z（上图粉色方块所示，每一行一个单词的z）

多头Self-Attention

一个头就形成一个Z，多个头就记作Z_i
直接拼接，乘一个W^o矩阵（学习得来）

Position Encoding

在下图中，每一行对应一个词向量的位置编码，所以第一行对应着输入序列的第一个词。每行包含512个值，每个值介于1和-1之间。我们已经对它们进行了颜色编码，所以图案是可见的。

在这里插入图片描述

20字(行)的位置编码实例，词嵌入大小为512(列)。你可以看到它从中间分裂成两半。这是因为左半部分的值由一个函数(使用正弦)生成，而右半部分由另一个函数(使用余弦)生成。然后将它们拼在一起而得到每一个位置编码向量。

Layer Normalization

在这里插入图片描述

在这里插入图片描述

残差神经网络模块

X和Z元素求和

在这里插入图片描述

Decoder

当前时间点decoder需要有上一个decoder的输出（第一次的输入应该是有一个类似于<BOS>的向量）这是mask注意力层的
接着进入另一个自注意力层，这个层需要有从encoder的输出Z来得到（换言之：顶端编码器的输出之后会变转化为一个包含向量K（键向量）和V（值向量）的注意力向量集）

Loss

最后的输出是词库大小的向量，每个元素值[0, 1]
请添加图片描述

每个概率分布被一个以词表大小（例子里是6）为宽度的向量所代表。
第一个概率分布在与“i”关联的单元格有最高的概率
第二个概率分布在与“am”关联的单元格有最高的概率
以此类推，第五个输出的分布表示“<EOS>”关联的单元格有最高的概率
交叉熵orKL散度

训练技巧

请添加图片描述

这是理论output，但是平滑操作之后，举例第一行的1会变成1-ε，然后ε再平分给该向量的其他元素，这样”说话不会太决绝“，”你可以预测出其他，但是我告诉你这个最大的最好“，实际上泛化效果会好

请添加图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

JamePrin 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。