- 博客(4)
- 收藏
- 关注
原创 Transformer 系列四:代码实现
这个就是接到self-Attention层后面的2层MLP,用于对来自自注意力层的输出进行进一步的特征提取。这有助于模型学习到更深层次的、非线性的特征表示。这个其实就是Transformer的主干网络,也就是后面需要实例化的模型类。将N个Encoder / Decoder Block堆叠在一起,并且这些Block不共享参数,都是各自独立的。接在Decoder后面,用于将Decoder的输出映射到词表里转成人能够理解的单词。也就是输入的向量维度整除,这样子每个头的特征维度就是之前单头的。
2024-08-29 23:33:57
1571
原创 Transformer 系列三:Encoder编码器和Decoder解码器
Transformer使用了"Encoder-Decoder" 编码器-解码器的结构,这种结构被广泛应用于处理序列到序列(seq2seq)的学习任务中。这种结构由编码器和解码器两大部分组成,编码(encoding)是一个模式提取的过程,将输入句子的特征提取出来,存储在一个中间隐状态空间(hidden state);而解码(decoding)则是将encoder提取出来的特征进行重建,解码成为我们期望的输出。如翻译任务:将输入的英语经过编码器编码成中间表示,再使用解码器将这个中间表示解码成中文。
2024-08-29 18:15:49
7758
1
原创 Transformer 系列二:Position Encoding 位置编码
如果单纯的使用词向量作为输入,自注意力机制的计算是忽略了序列中的位置信息的。本质上来看自注意力层计算的中间过程就是矩阵和矩阵之间的基础运算。这虽然极大的提升了计算效率,但是如果我们将序列的顺序打乱并不会影响自注意力层最后的计算结果,而这与序列性数据本身的特性是相悖的。因此作者在transformer架构的输入端引入了位置编码(Position Encoding)来将位置信息注入到词向量编码中,从而使自注意力层在提取特征信息时也能关注到位置这一重要信息。
2024-08-26 10:11:37
1084
原创 Transformer 系列一:Self-Attention Mechanism 自注意力机制
先说注意力机制注意力机制的灵感来源于人类视觉和认知系统。想象一下,当你在阅读一篇文章时,你的眼睛和大脑会自然地聚焦在那些最重要的部分,比如标题、关键段落或图表。这个过程就像是你的大脑在分配“注意力”,以便快速抓住文章的要点。这是因为你的潜意识认为这些部分包含的信息最为丰富和直接。注意力机制正是模仿了这种选择性关注,它通过集中关注信息的关键部分来提取出更加重要的内容。
2024-08-23 17:42:29
3016
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人