Transformer学习

GeekPlusA

于 2023-10-30 16:23:21 发布

阅读量166

点赞数

文章标签： transformer 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq122716072/article/details/134116463

版权

博客先指出RNN不能并行计算的问题，接着介绍Transformer整体结构，包括self - Attention（涉及Q、K、V）、Encoder和Decoder，其中Decoder有Self - Attention、Multi - Head，可多层堆叠和位置编码以并行加速训练。最后讲解了BERT的训练方式，如随机mask 15%词汇及预测句子连接性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer学习

1. RNN存在什么问题？

1. 不能并行计算

2. 整体结构

2.1. self-Attention

Q:query,要去查询的
K:key,等着被查的
V:value,实际的特征信息
self-attention

2.2. Encoder

2.3. Decoder

Self-Attention
Multi-Head
多层堆叠，位置编码
并行加速训练

参考：2-传统解决方案遇到的问题1.mp4
参考：3-注意力机制的作用1.mp4
参考：4-self-attention计算方法1.mp4
参考：5-特征分配与softmax机制1.mp4
参考：6-Multi-head的作用1.mp4
参考：7-位置编码与多层堆叠1.mp4
参考：8-transformer整体架构梳理.mp4

3. bert

3.1. 如何训练bert

1. 句子中有15%的词汇被随机mask掉
1. 预测两个句子是否应该连接在一起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

GeekPlusA 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。