初识Transformer

最新推荐文章于 2025-01-05 10:00:00 发布

MusicDancing

最新推荐文章于 2025-01-05 10:00:00 发布

阅读量634

点赞数

分类专栏： nlp 文章标签： transformer 自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/MusicDancing/article/details/121143932

版权

参考：【NLP】Transformer模型原理详解 - 知乎

从RNN到“只要注意力”——Transformer模型 - 知乎

Attention机制提出后，加入attention的Seq2seq模型在各个任务上都有了提升，所以现在的seq2seq模型指的都是结合RNN和attention的模型。之后google又提出了解决Seq2Seq问题的Transformer模型，用全attention的结构代替了lstm，在翻译任务上取得了更好的成绩。

Attention原理：

NLP中的Attention原理和源码解析 - 知乎

从RNN到“只要注意力”——Transformer模型 - 知乎

1. 模型结构

和大多数seq2seq模型一样，transformer也是由encoder和decoder组成。

其中，解码器的输入output（shifted right）是指目标句子，但被mask掉未来的token，也就是mask矩阵的右上角都不可见。（这个结构是做翻译任务，目标句子相当于ground truth）。

在训练时，解码器的输入是按照目标词进行监督的，这里是有问题的，叫exposure bias，有不少研究是解决这块。

output的embedding与input一样，是两个向量（词/字向量+位置向量）的和，看了一下文章词/字embedding是自己学来的，在训练时更新，而且output和input的embedding权重是一样的，也就是在input中如果把“我”embedding成(0,1)向量，那output中的“我”也是(0,1)。

encoder的output是source sentence的编码，不需要再经过embedding，直接输入的decoder，需要过embedding的是target sentence，只在训练时有，因为在训练decoder时，0到t-1步都需要用ground truth，而预测时不需要ground truth。

1.1 Encoder

Encoder由6个相同的layer组成（上图左侧的单元），即“Nx”为6。每个Layer由两个sub-layer组成，分别是multi-head self-attention mech

最低0.47元/天解锁文章

博客等级

码龄5年

314
原创

536
点赞

1525
收藏

2396
粉丝

关注

私信

热门文章

分类专栏

pytorch 15篇
广告&推荐 8篇
nlp 7篇
大数据开发 10篇
机器学习工程 9篇
FK学习 21篇
用户画像 4篇
hive 14篇
深度学习 22篇
机器学习 38篇
pandas 10篇
读书笔记 4篇
python 28篇
spark 17篇
linux 23篇
docker 3篇
强化学习 6篇
mac 3篇
设备指纹 5篇
数据库 7篇
数据 8篇
诗词 5篇
图像处理 3篇
数据结构 20篇
tensorflow 2篇
scala 6篇
pyspark 5篇
java 5篇

展开全部收起

最新评论

Wilson Score 排序算法
菩提树下呀: 早年间今日头条起家的核心算法，为字节跳动奠定基础的核心算法之一。去中性化的庞大能力，给了每个人崭露头角的机会。
hive json字段解析
m0_61432255: hive解析json高级案例实战：https://www.cnblogs.com/LIAOBO/p/16242061.html
Hive 中的window函数
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
一些基础知识FK
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
一些基础知识FK
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。