【Transformer】Transformer and BERT（1）

苏堤春不晓

已于 2024-07-17 10:14:28 修改

阅读量998

点赞数 11

CC 4.0 BY-SA版权

分类专栏： CNN / Transformer 文章标签： transformer bert 深度学习

于 2023-12-18 10:48:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/bryant_meng/article/details/135057193

CNN / Transformer 专栏收录该内容

254 篇文章

订阅专栏

在这里插入图片描述

文章目录

1、Transformer
2、BERT

太…完整了！同济大佬唐宇迪博士终于把【Transformer】入门到精通全套课程分享出来了，最新前沿方向

学习笔记

1、Transformer

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
无法并行，层数比较少

在这里插入图片描述

词向量生成之后，不会变，没有结合语境信息的情况下，存在一词多义，无法处理

在这里插入图片描述
词如何编码成向量

在这里插入图片描述

第一句话中，it 和 animal 的相应最高

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
内积，正交的话内积为0，越相近（相关），内积越大

在这里插入图片描述

$\sqrt{d_k}$ 的目的，向量维度越大，内积也越大， $\sqrt{d_k}$ 起到 scale 的作用

在这里插入图片描述
对于每个输入 x1 … xn, 计算一样的，可以并行为一个矩阵乘法

在这里插入图片描述
多头类比多个卷积核，来提取多种特征

在这里插入图片描述

不同的头得到的特征表达也不相同

多头包含在了 self-attention 中了

在这里插入图片描述
引入位置编码，形式有很多，比如 one-hot，原文中作者使用的是周期性信号进行编码

在这里插入图片描述
layer normalization 和 residual structure

在这里插入图片描述

encoder-decoder attention，encoder 的 K,V，decoder 的 Q

在这里插入图片描述
mask 机制：以翻译为例，不能透答案了，翻译到 I am a 的时候，student 要被 mask 起来，只能计算 I am a 的注意力

不能用后面未知的结果当成已知的条件

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2、BERT

在这里插入图片描述

语料

预测出 mask，来训练提升特征编码能力

在这里插入图片描述

end-to-end 的形式，词编码表达和 task 一起训练

在这里插入图片描述

答案 d2->d3

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。