
平地起高楼——NLP专栏
文章平均质量分 89
专门介绍基于Transformer结构的NLP模型,step by step讲解,结合代码
会震pop的码农
吾生也有涯,而知也无涯
展开
-
Transformer step by step--Multi Head Attention
想要讲清楚 𝑀𝑢𝑙𝑡𝑖 𝐻𝑒𝑎𝑑 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 ,我们要从以下几个方面入手:①从图形入手,讲清楚 𝑀𝑢𝑙𝑡𝑖 𝐻𝑒𝑎𝑑 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 在干什么;②从公式推导,讲清楚 𝑀𝑢𝑙𝑡𝑖 𝐻𝑒𝑎𝑑 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 怎么算;③从代码讲解,讲清楚 𝑀𝑢𝑙𝑡𝑖 𝐻𝑒𝑎𝑑 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 应该怎么用;原创 2024-04-24 22:00:46 · 582 阅读 · 0 评论 -
Transformer step by step--Masked Self-Attention
我们详细分析了 𝑀𝑢𝑙𝑡𝑖 𝑆𝑒𝑙𝑓 - 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 ,但是其实看过论文的同学都会有一个问题——Transformer中的Decoder部分不是还有个掩码的操作吗,那是个什么玩意儿?图片来源于Attention is all you need论文今天这篇文章就是告诉大家:Decoder部分的掩码是个什么玩意儿怎么用简单的代码去实现这个掩码首先,我们先要有一个概念。原创 2024-04-23 20:20:09 · 800 阅读 · 0 评论 -
Transformer step by step--Positional Embedding 和 Word Embedding
要把Transformer中的Embedding说清楚,那就要说清楚和。至于为什么有这两个Embedding,我们不妨看一眼Transformer的结构图。从上图可以看到,我们的输入需要在和的共同作用下才会分别输入给和,所以我们就分别介绍一下怎么样进行和。同时为了帮助大家更好地理解这两种方式,我们这里生成一个自己的迷你数据集。原创 2024-04-21 18:09:18 · 1591 阅读 · 1 评论 -
Transformer step by step--层归一化和批量归一化
如果我们此时还使用 𝐵𝑁 ,我们会发现后面两列特征依旧归一化后依旧为-1和0,即 𝐵𝑁 在此时并不能很好地观察并反应样本的差异。都是减去当前该样本的均值和方差,而不是像 𝐵𝑁 一样减去了整个 𝑏𝑎𝑡𝑐ℎ 的均值和方差(分母上都加上了一个 𝜖 ,这是防止分母为0)。𝑏𝑎𝑡𝑐ℎ 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑡𝑖𝑜𝑛, 而是使用了 𝑙𝑎𝑦𝑒𝑟 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑡𝑖𝑜𝑛。这里我们先直接给出 𝑏𝑎𝑡𝑐ℎ 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑡𝑖𝑜𝑛 和 𝑙𝑎𝑦𝑒𝑟 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑡𝑖𝑜𝑛 的计算公式。原创 2024-04-21 14:56:19 · 1426 阅读 · 1 评论