TR3 - Transformer算法详解

原创

已于 2024-04-19 14:51:08 修改 · 1k 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #算法 #深度学习 #自然语言处理

于 2024-04-05 20:02:29 首次发布

🍨 本文为🔗365天深度学习训练营中的学习记录博客

🍖 原作者：K同学啊

目录

文本输入处理
- 词向量
- 位置向量
编码器 Encoder
解码器 Decoder
线性层与Softmax
损失函数
总结与心得体会

这周来看一下Transformer是怎么将文本转换成向量，然后又输入到模型处理并得到最终的输出的。

文本输入处理

词向量

和常见的NLP任务一样，我们会先使用词嵌入（Embedding)算法，将文本序列转换成词向量。实际应用中的向量维数很高，不方便演示，以4维的词向量为例。
于是当我们输入的文本中有3个词时，就会生成三个维度为4的向量。
而在实际的应用过程中，我们会同时给模型输入多个句子，如果每个句子的长度不一样，模型就没有办法批量处理了，所以这里会有一个pad操作，选择一个合适的最大长度，达不到的用0填充，超出的进行截断。
最大序列长度是一个超参数，通常希望越大越好，但是更长的序列会占用更大的显存，所以还是要权衡。

位置向量

输入序列中的每个单词被转换成词向量后，还需要加上位置向量才能得到该词的最终向量表示。
Transformer对每个输入的词向量都加上了位置向量。这些向量有助于确定每个单词的位置特征、句子中不同单词之间的距离特征。
位置嵌入
假设词向量和位置向量的维度是4，下图展示了一种可能的位置向量+词向量。

编码器 Encoder

编码器的输入是经过上一步的文本输入处理后的向量，这个向量将从编码器的第一层开始，第一层编码器输出的同样是一样向量序列，然后以此类推再送入下一层编码器。如图所示，在第一层中，向量先进入Self-Attention块，然后进入FFN神经网络，最后得到当前层的新向量作为输出。

<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。