文章目录
RNN家族的介绍:网页链接
一、注意力机制介绍
1.1 注意力机制的本质
注意力机制源于对人类认知过程的模拟:当人处理信息时,会有选择地聚焦于关键部分而忽略次要信息。例如看到"锦江饭店"照片时,大脑会优先关注牌匾文字而非背景细节:
在深度学习中,注意力机制通过为输入的不同部分分配权重系数实现这种聚焦效果:
- 高权重:重点关注
- 低权重:次要关注
- 零权重:完全忽略
1.2 语义融合方法
注意力机制的核心是融合不同来源的语义信息,常见方法如下:
| 融合方法 | 计算公式 | 特点 |
|---|---|---|
| 拼接 | [ h i ; s j ] [h_i; s_j] [hi;sj] | 保留原始特征但增加维度 |
| 累加 | h i + s j h_i + s_j hi+sj | 特征混合但可能信息冲突 |
| 加权融合 | ∑ α i ⋅ h i \sum \alpha_i \cdot h_i ∑αi⋅hi | 注意力机制核心方法 |
1.3 相似性计算方法
计算注意力权重的核心是度量向量间相似性,常见方法如下:
| 计算方法 | 公式 | 特点 |
|---|---|---|
| 点积 | score ( Q , K ) = Q ⋅ K \text{score}(Q,K) = Q \cdot K score(Q,K)=Q⋅K | 计算简单高效 |
| 缩放点积 | Q ⋅ K d k \frac{Q \cdot K}{\sqrt{d_k}} dkQ⋅K | 避免梯度消失(Transformer使用) |
| 余弦相似度 | Q ⋅ K ∣ Q ∣ ∣ K ∣ \frac{Q \cdot K}{|Q| |K|} ∣Q∣∣K∣Q⋅K | 不受 |

最低0.47元/天 解锁文章
3319

被折叠的 条评论
为什么被折叠?



