TR5 - Transformer的位置编码

原创

已于 2024-04-19 14:51:34 修改 · 1k 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能

于 2024-04-19 14:28:18 首次发布

🍨 本文为🔗365天深度学习训练营中的学习记录博客

🍖 原作者：K同学啊

目录

前言
什么是位置编码
可视化理解位置编码
总结与心得体会

前言

在NLP任务中，单词的序列顺序是非常重要的，将单词的顺序重新排列，整个句子的意思可能会发生改变。在RNN循环神经网络中，有着处理序列顺序的内置机制。Transformer通过引入位置编码机制来保存文本中字符的位置信息。

什么是位置编码

1. 定义

位置编码记录了文本中字符的位置信息，它并没有使用单个数字（例如索引值）的形式来记录位置信息。原因主要有：

对于长序列，索引的大小可能会变得很大，不利于存储。
将索引值规范化到0-1之间，可能会为可变长度序列带来问题（它们的标准化方式不同）。

Transformer使用智能位置编码方案，第个位置/索引都映射到了一个向量，所以位置编码层的输出明天是一个矩阵，其中矩阵的每一行代表序列中的一个编码对象与其位置信息相加。
将位置信息映射成向量

2. 三角函数

正弦函数的值域为[-1, 1]，可以等效地使用正弦函数或余弦函数。
正弦、余弦波形

3. 位置编码公式

假设你有一个长度为L的输入序列，要计算第K个元素的位置编码，可以由不同频率的正弦和余弦函数给出：

$sin(\frac k {n^{2i/d}})$

$cos(\frac k {n^{2i/d}})$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。