1. RNN存在什么问题?
-
- 不能并行计算
2. 整体结构
2.1. self-Attention
Q:query,要去查询的
K:key,等着被查的
V:value,实际的特征信息
2.2. Encoder
2.3. Decoder
- Self-Attention
- Multi-Head
- 多层堆叠,位置编码
- 并行加速训练
参考:2-传统解决方案遇到的问题1.mp4
参考:3-注意力机制的作用1.mp4
参考:4-self-attention计算方法1.mp4
参考:5-特征分配与softmax机制1.mp4
参考:6-Multi-head的作用1.mp4
参考:7-位置编码与多层堆叠1.mp4
参考:8-transformer整体架构梳理.mp4
3. bert
3.1. 如何训练bert
-
- 句子中有15%的词汇被随机mask掉
-
- 预测两个句子是否应该连接在一起