- 博客(11)
- 收藏
- 关注
原创 Transformer的位置编码方法
这种方法带来的问题是,不仅这些数值会变得非常大,而且模型也会遇到一些比训练中的所有句子都要长的句子。此外,数据集中不一定在所有数值上都会包含相对应长度的句子,也就是模型很有可能没有看到过任何一个这样的长度的样本句子,这会严重影响模型的泛化能力。Transformer的作者们提出了一个简单但非常创新的位置编码方法,能够满足上述所有的要求。首先,这种编码不是单一的一个数值,而是包含句子中特定位置信息的d维向量(非常像词向量)。第二,这种编码没有整合进模型,而是用这个向量让每个词具有它在句子中的位置的信息。
2024-08-17 19:23:24
251
转载 Transformer中的encoder与decoder
Decoder同样也是由多层的自注意力机制和全连接层组成,但相比于Encoder还加入了一个额外的注意力机制,用于将Encoder输出的信息融合到生成过程中。Encoder和Decoder的区别在于它们的输入和输出以及它们的功能。Decoder的输入是Encoder的输出和前面生成的部分输出序列,输出是生成的下一个位置的词。它将输入序列中的每一个位置的词嵌入向量作为初始输入,然后通过多层的自注意力机制和全连接层,将每个位置的信息编码成一个定长的隐藏向量表示。
2024-08-16 17:59:43
146
转载 GPU, CUDA,cuDNN三者的关系总结
简单来说,CPU适合串行计算,擅长逻辑控制。GPU擅长并行高强度并行计算,适用于AI算法的训练学习CUDA 是NVIDIA专门负责管理分配运算单元的框架cuDNN是用于深层神经网络的gpu加速库。
2023-07-06 18:08:45
310
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人